Cloud Service
Amazon DataZone
組織に散在するデータを誰でも探して安全に利用できるよう、カタログ化・公開・アクセス申請を一元化。ビジネス用語でデータを発見・共有できる Amazon DataZone のデータ管理基盤。
- 1.ビジネス用語付きのデータカタログで、必要なデータを部門横断で探せるようにする。
- 2.データプロジェクト単位で公開・申請・承認を回し、安全にデータを共有する。
- 3.AthenaやRedshiftなど既存の分析サービスと連携し、アクセス権を自動でひも付ける。
解決する課題
組織が大きくなると、データは部門ごとのアカウントやサービスに散らばり、「どこに何のデータがあるのか」「それを使ってよいのか」「誰に頼めばアクセスできるのか」が分からなくなります。技術者でないと中身を理解できないテーブル名や、申請から承認までの非効率な手続きが、データ活用の壁になりがちです。Amazon DataZone は:
- ビジネス用語を添えたデータカタログで、部門をまたいでデータを探せるようにする
- データの公開・アクセス申請・承認をプロジェクト単位のワークフローとして回す
- 承認されたアクセスを Athena や Redshift などの分析サービスへ自動でひも付ける
「データの所在と利用可否を組織横断で見える化したい」「アクセス申請と承認を仕組み化したい」という要件に向きます。他クラウドでは Google Cloud の Dataplex / Data Catalog や Microsoft Purview が近い位置づけです。
主要概念と用語
- ドメイン: DataZone の最上位の管理単位。組織やデータ活用の境界を表し、この中にプロジェクトやカタログがまとまる
- データポータル: 利用者がブラウザからデータを検索・閲覧し、アクセス申請を行う Web のフロントエンド
- ビジネスデータカタログ: テーブルなどの技術メタデータに、ビジネス用語や説明を付けて検索可能にしたカタログ
- ビジネスグロッサリ: 「顧客」「売上」など組織共通の用語集。資産にひも付けて意味を統一する
- データ資産(アセット): カタログに登録された個々のテーブルやデータセット。スキーマや説明、用語が付与される
- プロジェクト: データを扱う作業の単位。メンバー、利用する環境、公開・購読する資産がここに集まる
- 環境(エンバイロメント): プロジェクトが実際に分析を行う基盤。Athena や Redshift などの利用環境を表す
- パブリッシュ / サブスクライブ: 提供側が資産を公開(パブリッシュ)し、利用側が申請して購読(サブスクライブ)する共有モデル
- データソース: Glue データカタログや Redshift などから資産を取り込む接続元
仕様・制限・クォータ
- データはコピーせず、Glue データカタログや Redshift などのメタデータを取り込んでカタログ化するのが基本
- アクセス制御は購読の承認に連動し、許可された資産へのアクセスをLake Formation や Redshift の権限として反映する
- 利用者はコードを書かずにデータポータルから検索・申請でき、技術者は API や CLI でも操作できる
- ドメイン・プロジェクト・資産・グロッサリなどの個数にはサービスクォータがあり、必要に応じて引き上げを申請できる
- 機械学習によるメタデータの自動付与など、カタログ整備を補助する機能を備える
DataZone は実データを集約するのではなく、各サービスに残ったまま、メタデータとアクセス権の層で横断的に扱えるようにします。データ移動を伴わないため、既存のデータ基盤を活かしたまま導入しやすいのが利点です。
内部の仕組み
DataZone は、データそのものを保持するのではなく、各データソースのメタデータを取り込み、その上にカタログと共有のワークフローを重ねて動作します。
- データソース(Glue データカタログや Redshift など)から資産のスキーマや場所を取り込み、ビジネス用語を添えてカタログに登録する
- 提供側プロジェクトが資産をパブリッシュすると、データポータルで検索・閲覧できるようになる
- 利用側プロジェクトが資産をサブスクライブ申請し、提供側が承認すると、購読が成立する
- 承認に連動して、利用側の環境(Athena や Redshift など)に実アクセス権が自動で付与され、すぐにクエリできる
- 個人情報の有無やスキーマ変更などの情報を補助的に整理し、ガバナンスのレビューを支える
DataZone の承認はアクセスの「入口」を統制しますが、実際のデータアクセスは Lake Formation や Redshift など連携先の権限として実現されます。連携先の権限設計を無視して直接アクセスする経路を残すと、カタログ経由の統制を迂回されかねない点に注意します。
設計パターン / ベストプラクティス
- ドメインとプロジェクトで責任境界を切る: 部門やデータ領域に合わせてドメインを設計し、作業はプロジェクト単位に分ける
- ビジネスグロッサリを先に整える: 用語の定義を統一してから資産へ付与すると、検索性と意味の一貫性が高まる
- 公開と購読でデータ提供を仕組み化: 個別の手作業依頼ではなく、パブリッシュ/サブスクライブの申請・承認フローに乗せる
- 連携先の権限と整合させる: 承認で付与される Lake Formation や Redshift の権限が最小権限になるよう設計する
- メタデータ整備を継続運用に: スキーマ変更や新規資産の取り込みを定期的に回し、カタログを鮮度高く保つ
運用・監視
- ドメイン・プロジェクトの操作や購読の承認といったイベントは CloudTrail で監査できる
- 「誰がどの資産を購読しているか」を棚卸しし、不要になった購読を見直して過剰なアクセスを防ぐ
- データソースの取り込みを定期実行し、カタログと実データのスキーマのずれを抑える
- ビジネスグロッサリと用語付与のルールをドキュメント化し、レビューや引き継ぎを容易にする
コスト
- 費用は主に利用者数(ユーザー単位)やカタログに登録するメタデータの量などに応じて発生する従量制が中心
- 実際の分析処理やストレージのコストは、クエリを実行する Athena や Redshift、メタデータ基盤の Glue データカタログ、保管先の S3 といった連携先サービスの利用量で決まる
- データを複製せずメタデータで扱うため、カタログ整備に伴う追加のストレージコストは大きくなりにくい
DataZone 自体の費用に加え、クエリやストレージを担う Athena・Redshift・S3 などの利用量も合わせて見積もると、データ活用全体のコスト感がつかめます。
セキュリティ
- アクセスは購読の承認を起点に統制され、承認結果が Lake Formation や Redshift の権限として反映される
- ビジネスグロッサリや分類により、機密度や部門に応じたガバナンスをスケールさせやすい
- ドメイン管理者やプロジェクト所有者の役割を分け、公開・承認の操作で職務分離を徹底する
- 保管時の暗号化は連携先の S3 や KMS、通信は TLS で保護し、操作の監査は CloudTrail で行う
- 連携先サービスへの直接アクセス経路を統制し、カタログ経由の承認フローを迂回されないようにする
関連サービス・比較
メタデータ基盤の AWS Glue データカタログ とよく対比されます。Glue データカタログがテーブルのスキーマを管理する技術メタデータの土台であるのに対し、DataZone はその上にビジネス用語・公開・申請・承認といった組織横断のデータガバナンスと発見の層を重ねる、補完関係にあります。
| 観点 | Amazon DataZone | Glue データカタログ |
|---|---|---|
| 主な役割 | データの発見・公開・申請承認の統制 | テーブルのスキーマを管理する技術メタデータ |
| 利用者 | ビジネス・分析の幅広い利用者 | 主に開発者や分析エンジン |
| 共有モデル | プロジェクト単位の公開と購読申請 | カタログ参照と権限付与 |
| 関係 | Glueカタログ等を取り込んで活用 | DataZoneの基盤メタデータとして機能 |
ハンズオン / CLI例
# データドメインを作成(組織のデータ活用の境界)
aws datazone create-domain \
--name "analytics-domain" \
--domain-execution-role arn:aws:iam::111122223333:role/DataZoneExecutionRole
# ドメイン内にデータプロジェクトを作成
aws datazone create-project \
--domain-identifier dzd_xxxxxxxx \
--name "sales-analytics" \
--description "売上データの分析プロジェクト"
# カタログ上の資産を名前で検索(データの発見)
aws datazone search \
--domain-identifier dzd_xxxxxxxx \
--search-scope ASSET \
--search-text "orders"
AWS Service
Amazon DataZoneを実務で読む
TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。
解決すること
分析
比較で見る軸
クラウド: AWS / カテゴリ: 分析 / 難易度: intermediate
導入後に効く点
データプロジェクト単位で公開・申請・承認を回し、安全にデータを共有する。
先に潰すリスク
サービス単体ではなく、権限、ネットワーク、監視、課金、バックアップを含めて設計する必要がある。
- クラウド
- AWS
- カテゴリ
- 分析
- 難易度
- intermediate
- 関連資格
- DEA-C01 / SAA-C03
- 設計柱
- security / operational
判断チェックリスト
- 自社の用途が「分析 / security」に近いか確認する。
- 強みである「ビジネス用語付きのデータカタログで、必要なデータを部門横断で探せるようにする。」が本当に評価軸になるか確認する。
- 注意点の「サービス単体ではなく、権限、ネットワーク、監視、課金、バックアップを含めて設計する必要がある。」を運用で吸収できるか確認する。
- 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
- 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
- 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。