TL

Cloud Service

Amazon DataZone

組織に散在するデータを誰でも探して安全に利用できるよう、カタログ化・公開・アクセス申請を一元化。ビジネス用語でデータを発見・共有できる Amazon DataZone のデータ管理基盤。

中級DEA-C01SAA-C03セキュリティ運用上の優秀性
最終更新: 2026-06-28公式ドキュメント ↗
TL;DR要点だけ先に
  • 1.ビジネス用語付きのデータカタログで、必要なデータを部門横断で探せるようにする。
  • 2.データプロジェクト単位で公開・申請・承認を回し、安全にデータを共有する。
  • 3.AthenaやRedshiftなど既存の分析サービスと連携し、アクセス権を自動でひも付ける。

解決する課題

組織が大きくなると、データは部門ごとのアカウントやサービスに散らばり、「どこに何のデータがあるのか」「それを使ってよいのか」「誰に頼めばアクセスできるのか」が分からなくなります。技術者でないと中身を理解できないテーブル名や、申請から承認までの非効率な手続きが、データ活用の壁になりがちです。Amazon DataZone は:

  • ビジネス用語を添えたデータカタログで、部門をまたいでデータを探せるようにする
  • データの公開・アクセス申請・承認をプロジェクト単位のワークフローとして回す
  • 承認されたアクセスを Athena や Redshift などの分析サービスへ自動でひも付ける

「データの所在と利用可否を組織横断で見える化したい」「アクセス申請と承認を仕組み化したい」という要件に向きます。他クラウドでは Google Cloud の Dataplex / Data Catalog や Microsoft Purview が近い位置づけです。

主要概念と用語

  • ドメイン: DataZone の最上位の管理単位。組織やデータ活用の境界を表し、この中にプロジェクトやカタログがまとまる
  • データポータル: 利用者がブラウザからデータを検索・閲覧し、アクセス申請を行う Web のフロントエンド
  • ビジネスデータカタログ: テーブルなどの技術メタデータに、ビジネス用語や説明を付けて検索可能にしたカタログ
  • ビジネスグロッサリ: 「顧客」「売上」など組織共通の用語集。資産にひも付けて意味を統一する
  • データ資産(アセット): カタログに登録された個々のテーブルやデータセット。スキーマや説明、用語が付与される
  • プロジェクト: データを扱う作業の単位。メンバー、利用する環境、公開・購読する資産がここに集まる
  • 環境(エンバイロメント): プロジェクトが実際に分析を行う基盤。Athena や Redshift などの利用環境を表す
  • パブリッシュ / サブスクライブ: 提供側が資産を公開(パブリッシュ)し、利用側が申請して購読(サブスクライブ)する共有モデル
  • データソース: Glue データカタログや Redshift などから資産を取り込む接続元

仕様・制限・クォータ

  • データはコピーせず、Glue データカタログや Redshift などのメタデータを取り込んでカタログ化するのが基本
  • アクセス制御は購読の承認に連動し、許可された資産へのアクセスをLake Formation や Redshift の権限として反映する
  • 利用者はコードを書かずにデータポータルから検索・申請でき、技術者は API や CLI でも操作できる
  • ドメイン・プロジェクト・資産・グロッサリなどの個数にはサービスクォータがあり、必要に応じて引き上げを申請できる
  • 機械学習によるメタデータの自動付与など、カタログ整備を補助する機能を備える
データは動かさず、メタデータで束ねる

DataZone は実データを集約するのではなく、各サービスに残ったまま、メタデータとアクセス権の層で横断的に扱えるようにします。データ移動を伴わないため、既存のデータ基盤を活かしたまま導入しやすいのが利点です。

内部の仕組み

DataZone は、データそのものを保持するのではなく、各データソースのメタデータを取り込み、その上にカタログと共有のワークフローを重ねて動作します。

  • データソース(Glue データカタログや Redshift など)から資産のスキーマや場所を取り込み、ビジネス用語を添えてカタログに登録する
  • 提供側プロジェクトが資産をパブリッシュすると、データポータルで検索・閲覧できるようになる
  • 利用側プロジェクトが資産をサブスクライブ申請し、提供側が承認すると、購読が成立する
  • 承認に連動して、利用側の環境(Athena や Redshift など)に実アクセス権が自動で付与され、すぐにクエリできる
  • 個人情報の有無やスキーマ変更などの情報を補助的に整理し、ガバナンスのレビューを支える
権限の実体は連携先サービスにある

DataZone の承認はアクセスの「入口」を統制しますが、実際のデータアクセスは Lake Formation や Redshift など連携先の権限として実現されます。連携先の権限設計を無視して直接アクセスする経路を残すと、カタログ経由の統制を迂回されかねない点に注意します。

設計パターン / ベストプラクティス

  • ドメインとプロジェクトで責任境界を切る: 部門やデータ領域に合わせてドメインを設計し、作業はプロジェクト単位に分ける
  • ビジネスグロッサリを先に整える: 用語の定義を統一してから資産へ付与すると、検索性と意味の一貫性が高まる
  • 公開と購読でデータ提供を仕組み化: 個別の手作業依頼ではなく、パブリッシュ/サブスクライブの申請・承認フローに乗せる
  • 連携先の権限と整合させる: 承認で付与される Lake Formation や Redshift の権限が最小権限になるよう設計する
  • メタデータ整備を継続運用に: スキーマ変更や新規資産の取り込みを定期的に回し、カタログを鮮度高く保つ

運用・監視

  • ドメイン・プロジェクトの操作や購読の承認といったイベントは CloudTrail で監査できる
  • 「誰がどの資産を購読しているか」を棚卸しし、不要になった購読を見直して過剰なアクセスを防ぐ
  • データソースの取り込みを定期実行し、カタログと実データのスキーマのずれを抑える
  • ビジネスグロッサリと用語付与のルールをドキュメント化し、レビューや引き継ぎを容易にする

コスト

  • 費用は主に利用者数(ユーザー単位)やカタログに登録するメタデータの量などに応じて発生する従量制が中心
  • 実際の分析処理やストレージのコストは、クエリを実行する Athena や Redshift、メタデータ基盤の Glue データカタログ、保管先の S3 といった連携先サービスの利用量で決まる
  • データを複製せずメタデータで扱うため、カタログ整備に伴う追加のストレージコストは大きくなりにくい
見積りは連携先サービスとセットで

DataZone 自体の費用に加え、クエリやストレージを担う Athena・Redshift・S3 などの利用量も合わせて見積もると、データ活用全体のコスト感がつかめます。

セキュリティ

  • アクセスは購読の承認を起点に統制され、承認結果が Lake Formation や Redshift の権限として反映される
  • ビジネスグロッサリや分類により、機密度や部門に応じたガバナンスをスケールさせやすい
  • ドメイン管理者やプロジェクト所有者の役割を分け、公開・承認の操作で職務分離を徹底する
  • 保管時の暗号化は連携先の S3 や KMS、通信は TLS で保護し、操作の監査は CloudTrail で行う
  • 連携先サービスへの直接アクセス経路を統制し、カタログ経由の承認フローを迂回されないようにする

関連サービス・比較

メタデータ基盤の AWS Glue データカタログ とよく対比されます。Glue データカタログがテーブルのスキーマを管理する技術メタデータの土台であるのに対し、DataZone はその上にビジネス用語・公開・申請・承認といった組織横断のデータガバナンスと発見の層を重ねる、補完関係にあります。

観点Amazon DataZoneGlue データカタログ
主な役割データの発見・公開・申請承認の統制テーブルのスキーマを管理する技術メタデータ
利用者ビジネス・分析の幅広い利用者主に開発者や分析エンジン
共有モデルプロジェクト単位の公開と購読申請カタログ参照と権限付与
関係Glueカタログ等を取り込んで活用DataZoneの基盤メタデータとして機能

ハンズオン / CLI例

# データドメインを作成(組織のデータ活用の境界)
aws datazone create-domain \
  --name "analytics-domain" \
  --domain-execution-role arn:aws:iam::111122223333:role/DataZoneExecutionRole

# ドメイン内にデータプロジェクトを作成
aws datazone create-project \
  --domain-identifier dzd_xxxxxxxx \
  --name "sales-analytics" \
  --description "売上データの分析プロジェクト"

# カタログ上の資産を名前で検索(データの発見)
aws datazone search \
  --domain-identifier dzd_xxxxxxxx \
  --search-scope ASSET \
  --search-text "orders"

AWS Service

Amazon DataZoneを実務で読む

TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。

解決すること

分析

比較で見る軸

クラウド: AWS / カテゴリ: 分析 / 難易度: intermediate

導入後に効く点

データプロジェクト単位で公開・申請・承認を回し、安全にデータを共有する。

先に潰すリスク

サービス単体ではなく、権限、ネットワーク、監視、課金、バックアップを含めて設計する必要がある。

数字・仕様の読み方
クラウド
AWS
カテゴリ
分析
難易度
intermediate
関連資格
DEA-C01 / SAA-C03
設計柱
security / operational

判断チェックリスト

  • 自社の用途が「分析 / security」に近いか確認する。
  • 強みである「ビジネス用語付きのデータカタログで、必要なデータを部門横断で探せるようにする。」が本当に評価軸になるか確認する。
  • 注意点の「サービス単体ではなく、権限、ネットワーク、監視、課金、バックアップを含めて設計する必要がある。」を運用で吸収できるか確認する。
  • 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
  • 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
  • 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。

次に確認する観点

分析securityoperationalDEA-C01SAA-C03