TL

Cloud Service

Dataplex

Cloud Storage や BigQuery に散在するデータを横断して発見・分類・統制する、Google Cloud のデータガバナンスとカタログのサービス。AWS の Lake Formation 相当。

中級セキュリティ運用上の優秀性
最終更新: 2026-06-14公式ドキュメント ↗
TL;DR要点だけ先に
  • 1.湖や倉庫に散らばるデータを横断管理し、発見・統制・品質を一元化。
  • 2.メタデータ自動収集とカタログ検索で「どこに何があるか」を可視化。
  • 3.AWS の Lake Formation 相当。BigQuery と Cloud Storage をまたいで適用。

解決する課題

  • Cloud Storage と BigQuery に散在するデータを、置き場所を意識せず論理的に一元管理したい
  • どこに何があるか」を組織横断で検索・発見できるようにし、データのサイロ化を防ぎたい
  • データに対するアクセス権・分類・ポリシーを、ストレージごとにバラバラに設定せず横串で統制したい
  • データの**鮮度・品質・リネージ(来歴)**を継続的に把握し、信頼できるデータだけを使いたい
  • データを移動・コピーせず、元の場所に置いたままガバナンスを効かせたい

主要概念と用語

  • レイク (Lake): ガバナンスを適用する最上位の論理的な入れ物。プロジェクトをまたいだデータを一つのドメインとしてまとめる単位
  • ゾーン (Zone): レイク内をデータの成熟度で区切る区画。生データ向けのローゾーンと、整形・正規化済みデータ向けのキュレーテッドゾーンに分けるのが基本
  • アセット (Asset): ゾーンに紐づける実体。具体的には Cloud Storage バケットBigQuery データセットを指す。データ自体は移動せず参照で結びつける
  • データカタログ (Catalog): メタデータの索引。テーブル・ファイル・スキーマを横断検索でき、ビジネス用語や説明(アスペクト / タグ)を付与できる。旧来の Data Catalog 機能はこのカタログへ統合された
  • メタデータの自動収集 (Discovery): ゾーン配下のデータを定期スキャンしてスキーマやパーティションを推定し、BigQuery の外部テーブルや BigLake テーブルとして利用可能にする仕組み
  • データ品質スキャン (Data Quality): 列の充足率・一意性・許容値などのルールを定義し、テーブルに対して継続的に検証するジョブ
  • データプロファイリング (Data Profiling): 列ごとの分布・最小最大・NULL 比率などの統計を自動算出し、データの性質を把握する機能
  • データリネージ (Lineage): テーブルやジョブの間でデータがどう生成・変換されたかの来歴を、上流から下流へ追跡する機能
  • アスペクト / アスペクトタイプ: カタログのエントリに付ける構造化メタデータと、そのスキーマ定義。ガバナンス情報を機械可読な形で付与する

仕様・制限・クォータ

  • Dataplex はサーバーレスで、専用クラスタのプロビジョニングは不要。スキャンやプロファイリングは Google 側のマネージド基盤で実行される
  • 管理対象は主に Cloud StorageBigQuery。データを Dataplex の専用ストレージへコピーするのではなく、元の場所のままメタデータとポリシーで束ねるのが基本思想
  • 自動収集されたメタデータは、BigQuery の外部テーブル / BigLake テーブルとして参照でき、構造化・半構造化データのスキーマを推定する
  • レイク・ゾーン・アセットの数、スキャン頻度、カタログ検索のスループットなどには上限が存在する。具体的な上限値は変動するため、設計時は公式ドキュメントのクォータを確認する
  • 品質・プロファイルスキャンは BigQuery のクエリ実行を伴うため、対象データ量に応じてバックエンドの計算リソースを消費する

内部の仕組み

Dataplex はデータを物理的に取り込まない点が中核です。レイク・ゾーン・アセットという論理階層を定義すると、Dataplex はその配下の Cloud Storage や BigQuery をメタデータのレイヤーとして束ねます。データ本体はあくまで元のストレージに残り、Dataplex はそこへ向けたガバナンスと索引を提供します。

自動収集(Discovery)はゾーン配下を定期的にスキャンし、ファイルのレイアウトやスキーマ、パーティション構造を推定します。推定結果は BigQuery の外部テーブルや BigLake テーブルとして登録され、利用者は置き場所を意識せず SQL で参照できます。カタログはこれらのエントリを横断検索可能な索引として保持し、アスペクトやタグでビジネス的な意味付けを重ねます。

品質スキャンとプロファイリングは、定義したルールや統計計算を BigQuery のジョブとして実行し、結果を時系列で蓄積します。リネージはテーブルとジョブの依存関係をグラフとして記録し、ある列やテーブルの変更がどこへ波及するかを追跡できるようにします。アクセス制御は IAM と連携し、レイクやゾーン単位で付与した権限を、配下の Cloud Storage・BigQuery のアクセスへ反映します。

移動しないガバナンス

Dataplex の発想は「データを集約する」ではなく「データはそのまま、管理だけを集約する」点にあります。湖(Cloud Storage)と倉庫(BigQuery)に分かれたデータを、コピーせずに一つの論理ドメインとして扱えるため、移行コストとデータ重複を避けながらガバナンスを効かせられます。

設計パターン / ベストプラクティス

  • レイクをビジネスドメイン単位(例: 販売、マーケティング)で切り、その中をローゾーンとキュレーテッドゾーンに分けてデータの成熟度を表現する
  • 生データはローゾーンの Cloud Storage に置き、整形・検証済みデータをキュレーテッドゾーンの BigQuery に昇格させるメダリオン的な段階設計にする
  • カタログにはアスペクトやタグで意味付けを行い、機密区分やオーナー、用途を機械可読に残して検索性とガバナンスを両立させる
  • 重要テーブルには品質スキャンを定期実行し、合格したデータだけを下流が参照する運用にして「信頼できるデータ」を担保する
  • アクセス制御はゾーン単位の付与を基本にし、最小権限でデータドメインごとに分離する

運用・監視

  • 品質スキャンの合格 / 不合格の結果を監視し、不合格時には通知やパイプライン停止につなげて、汚れたデータの下流流入を防ぐ
  • プロファイル結果のNULL 比率や分布の急変を、データ異常の早期検知シグナルとして扱う
  • 自動収集ジョブのスキャン状況とエラーを確認し、スキーマ推定の失敗やパーティションの取りこぼしを検知する
  • リネージで影響範囲を可視化し、上流テーブルの変更時に下流への波及を事前に把握する
  • スキャン頻度はデータの更新頻度とコストのバランスで調整し、更新の少ないテーブルを過剰にスキャンしない

コスト

機能カテゴリ課金の考え方コストを抑える指針
カタログ / メタデータ管理管理対象のメタデータ規模に応じた従量不要なアセットを束ねすぎない
自動収集 / スキャンスキャン実行に要した処理量更新頻度に合わせてスキャン間隔を最適化
品質 / プロファイルスキャンBigQuery のジョブ実行に伴う計算量対象列やテーブルを重要なものに絞る
データ本体の保存Cloud Storage / BigQuery 側で別途課金ストレージ層の最適化はそちらで行う
スキャン頻度はコストに直結

品質・プロファイルスキャンは内部で BigQuery のクエリを動かすため、スキャン頻度と対象範囲がそのままコストになります。全テーブルを高頻度でスキャンするのではなく、重要なテーブルと列に絞り、更新頻度に合わせた間隔に調整するのが基本です。具体的な単価は変動するため、運用前に公式の料金表で確認してください。

セキュリティ

  • アクセス制御は IAM と連携し、レイク・ゾーン単位で付与した権限を配下の Cloud Storage・BigQuery へ反映する。AWS の Lake Formation が S3 と Glue 上のデータへ権限を効かせるのと同じ発想
  • データ本体は Cloud Storage / BigQuery 側の暗号化(Google 管理鍵が既定、要件に応じ CMEK / Cloud KMS)に従う。Dataplex はそこへポリシーと分類を重ねる
  • カタログに機密区分のタグを付け、どのデータが個人情報や機密かを横断的に識別できるようにする。**Sensitive Data Protection(旧 DLP)**と組み合わせると機密検出を自動化できる
  • 外部流出対策として VPC Service Controls を併用し、サービス境界を越えたメタデータ・データの持ち出しを防ぐ
アンチパターン

ガバナンスを各ストレージでバラバラに設定すると、権限の付け忘れや分類の不整合が起きやすく、機密データが意図せず広く見える状態になりがちです。Dataplex でレイク / ゾーン単位に権限と分類を集約し、個別バケット・データセットへの直接付与は例外運用に留めるのが安全です。

Well-Architected の観点

  • セキュリティ: データを移動せずに分類・権限・機密検出を横串で適用でき、ガバナンスの抜け漏れを減らす。IAM と VPC Service Controls で境界と最小権限を担保する
  • 運用上の優秀性: メタデータ収集・品質スキャン・リネージを自動化し、データの状態を継続的に観測できる。手作業のカタログ整備や品質チェックから解放され、信頼できるデータを安定供給する運用に寄せられる

試験で問われるポイント

頻出
  • Dataplex はデータを移動・コピーせず、Cloud Storage と BigQuery を論理的に束ねて統制するガバナンス / カタログサービスである点
  • レイク・ゾーン(ロー / キュレーテッド)・アセットの階層と、それぞれが何を指すか(アセットは Cloud Storage バケットや BigQuery データセット)
  • データの発見(カタログ検索)・品質スキャン・プロファイリング・リネージという主要機能の役割の区別
  • 横断的な検索・発見が必要なら Dataplex のカタログ、単に分析クエリを高速に実行したいだけなら BigQuery、という選び分け
  • AWS では Lake Formation(権限・ガバナンス)と Glue Data Catalog(メタデータ索引)に相当する位置付け

関連サービス・比較

観点GCP(Dataplex)AWS(Lake Formation / Glue)
主目的データレイクのガバナンスとカタログデータレイクの権限管理とカタログ
メタデータ索引統合カタログ(旧 Data Catalog を包含)Glue Data Catalog
権限の効かせ方レイク / ゾーン単位の権限を配下へ反映S3 / Glue 上のデータへ権限を付与
管理対象ストレージCloud Storage と BigQuery 中心S3 中心
データ品質 / プロファイル品質スキャン・プロファイリングを内蔵Glue Data Quality 等を併用
データ移動移動せず元の場所のまま管理原則 S3 上のデータをそのまま管理

ハンズオン / CLI例

# 1) レイクを作成(ガバナンスを適用する最上位の論理ドメイン)
gcloud dataplex lakes create sales-lake \
  --location=asia-northeast1 \
  --display-name="Sales Domain"

# 2) ゾーンを作成(生データ向けのローゾーン)
gcloud dataplex zones create raw-zone \
  --location=asia-northeast1 \
  --lake=sales-lake \
  --type=RAW \
  --resource-location-type=SINGLE_REGION \
  --display-name="Raw Zone"

# 3) Cloud Storage バケットをアセットとしてゾーンに紐づける
gcloud dataplex assets create raw-bucket \
  --location=asia-northeast1 \
  --lake=sales-lake \
  --zone=raw-zone \
  --resource-type=STORAGE_BUCKET \
  --resource-name=projects/MY_PROJECT/buckets/sales-raw-bucket \
  --discovery-enabled

# 4) 作成したレイクとゾーンを一覧で確認
gcloud dataplex lakes list --location=asia-northeast1
gcloud dataplex zones list --location=asia-northeast1 --lake=sales-lake

Google Cloud Service

Dataplexを実務で読む

TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。

解決すること

分析

比較で見る軸

クラウド: Google Cloud / カテゴリ: 分析 / 難易度: intermediate

導入後に効く点

メタデータ自動収集とカタログ検索で「どこに何があるか」を可視化。

先に潰すリスク

サービス単体ではなく、権限、ネットワーク、監視、課金、バックアップを含めて設計する必要がある。

数字・仕様の読み方
クラウド
Google Cloud
カテゴリ
分析
難易度
intermediate
関連資格
設計柱
security / operational

判断チェックリスト

  • 自社の用途が「分析 / security」に近いか確認する。
  • 強みである「湖や倉庫に散らばるデータを横断管理し、発見・統制・品質を一元化。」が本当に評価軸になるか確認する。
  • 注意点の「サービス単体ではなく、権限、ネットワーク、監視、課金、バックアップを含めて設計する必要がある。」を運用で吸収できるか確認する。
  • 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
  • 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
  • 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。

次に確認する観点

分析securityoperational