Cloud Service
Microsoft Purview
散在するデータの所在・分類・系譜を一元把握。Microsoft Purview がデータカタログ・自動分類・データ系譜・ガバナンスを統合し、機密情報の発見とコンプライアンスを支える。AWS の Glue Data Catalog や Macie 相当。
- 1.オンプレ・マルチクラウド・SaaS のデータ資産を横断スキャンしてカタログ化し、検索可能にする。
- 2.機密情報を分類子で自動分類し、ラベル付けとアクセス統制でガバナンスを効かせる。
- 3.データの取り込みから加工までの系譜(リネージ)を可視化し、影響範囲や出所を追跡できる。
解決する課題
- データがオンプレ・複数クラウド・SaaS に散在し、どこに何があるか把握できない
- 個人情報や機密データがどのストア・列に存在するかを人手で追えない
- データの出所や加工経路(系譜)が不明で、障害や規制対応時に影響範囲をたどれない
- 部門ごとにデータの意味・定義がバラバラで、共通の用語集や所有者が決まっていない
- 規制やコンプライアンス要件に対し、機密データの保護状況や利用状況を継続的に示せない
主要概念と用語
Microsoft Purview は「データの発見・分類・系譜・統制」を束ねるガバナンス基盤です。中核となる概念を整理します。
- データマップ(Data Map): スキャンで収集したメタデータを保持する基盤。資産・分類・系譜・スキーマを格納するメタデータのグラフにあたる
- データカタログ(Data Catalog): 利用者が資産を検索・閲覧する入口。用語集・所有者・分類を付与してデータを発見しやすくする
- コレクション(Collection): 資産とアクセス権を階層的に整理する単位。RBAC の割り当て境界にもなる
- データソース登録とスキャン(Scan): ストレージや DB などを登録し、メタデータを取り込む処理。ルールセットでスキャン対象や頻度を制御する
- 分類子(Classifier): クレジットカード番号やメールアドレスなどを検出する仕組み。システム分類子(既定の多数のパターン)とカスタム分類子がある
- 機密ラベル(Sensitivity Label): Microsoft Purview Information Protection の秘密度ラベル。検出した機密データへ一貫して付与し、暗号化やアクセス制御につなげる
- データ系譜(Lineage): 取り込みから変換・出力までのデータの流れをグラフで表現したもの。パイプライン連携で自動取得できる
- ビジネス用語集(Glossary): 業務用語の定義を登録し、資産に紐づけて意味を共有する
- データ品質 / データガバナンス(Unified Catalog): 統合カタログ上でデータ製品・品質ルール・健全性を管理する新しい体験
Microsoft Purview は単一サービスではなく、**データガバナンス(旧 Azure Purview のカタログ・系譜)とコンプライアンス(情報保護・データ損失防止・インサイダーリスク管理など)**を束ねたブランドです。本記事は主にデータガバナンス側を扱います。
仕様・制限・クォータ
- マルチクラウド対応: Azure のストレージや SQL に加え、AWS S3、オンプレの DB、Power BI、一部 SaaS など多様なソースを登録・スキャンできる
- スキャンの単位: データソースごとにルールセットと頻度(フル/増分)を設定する。容量課金は処理量に応じた従量が基本で、具体的な単価・上限は変動するため公式料金を参照する
- キャパシティ単位: データマップは保持メタデータ量に応じた容量単位で課金され、一定間隔の操作で自動的にスケールする
- 自動系譜の取得範囲: Azure Data Factory や Synapse、一部の連携先からは系譜が自動取得されるが、未対応の処理は API で系譜を登録する必要がある
- 分類子: 既定で多数のシステム分類子が用意され、正規表現や辞書でカスタム分類子を追加できる
- ネットワーク: Private Endpoint(マネージド仮想ネットワーク)経由でスキャンを構成でき、パブリック到達面を縮小できる
Purview は登録してスキャンしたソースのメタデータだけをカタログ化します。スキャン頻度が低い、または増分スキャン未設定だと、新規・変更された資産がカタログに反映されず古い状態になります。重要なソースは適切な頻度で継続スキャンする設計が前提です。
内部の仕組み
Purview は「メタデータの収集」と「利用者向けの発見」を分離した構造です。スキャンが各データソースに接続してスキーマやサンプル値を読み取り、分類子で機密性を判定し、結果をデータマップに格納します。利用者はカタログ越しにデータマップを検索し、所有者・分類・系譜を確認します。
スキャンはスキャン用の統合ランタイム(クラウド実行、またはオンプレ向けのセルフホスト型)を介してデータソースに到達します。クラウド上のソースはマネージドな実行で、ネットワーク隔離された環境やオンプレ DB はセルフホスト型ランタイムでスキャンします。分類はサンプリングしたデータに対して行われ、データ本体をコピーするのではなくメタデータと分類結果だけを保持します。
- 認証は Microsoft Entra ID とマネージド ID を基本とし、各データソースへの接続資格情報は Key Vault に保管して参照する
- 系譜は連携元(Data Factory / Synapse など)が出力する実行メタデータを取り込み、または Atlas 互換 API で外部から登録する
- 機密ラベルは情報保護基盤と共有され、Office ドキュメントやデータストアへ一貫して適用できる
Purview はデータの実体をコピーしません。スキャンで読むのはスキーマと分類用のサンプルで、保持するのはメタデータと分類結果です。データそのものは元のストアに残るため、ガバナンス導入による複製リスクを抑えられます。
設計パターン / ベストプラクティス
- コレクション階層を組織構造に合わせて設計し、部門・環境ごとにスキャン対象とアクセス権の境界を明確にする
- マネージド ID で各データソースへ接続し、接続資格情報は Key Vault 参照で管理して資格情報のハードコードを排除する
- 重要ソースは増分スキャンを定期実行し、カタログの鮮度を保つ
- カスタム分類子と機密ラベルで自組織固有の機密データ(社員番号・契約番号など)を検出・ラベル付けする
- ビジネス用語集と所有者の割り当てを運用に組み込み、データの意味と責任者を明確にする
- 系譜が自動取得されないパイプラインは API で系譜を登録し、エンドツーエンドの追跡性を担保する
- Private Endpoint / セルフホスト型ランタイムでネットワーク隔離されたソースを安全にスキャンする
運用・監視
- スキャンの実行履歴と失敗を定期確認し、接続エラーや権限不足によるスキャン漏れを早期に検知する
- 分類結果のレビューで誤検知・検知漏れを把握し、カスタム分類子のルールを調整する
- **カタログの鮮度(最終スキャン日時)**を指標にし、増分スキャンの頻度を見直す
- アクセス監査: コレクションへのロール割り当てを定期棚卸しし、過剰な権限を是正する
- データ品質ルールの健全性を統合カタログ上で監視し、品質低下を検知する
- スキャン結果やインサイトは API でエクスポートし、長期保管やダッシュボード化に利用できる
コスト
データマップの容量、スキャンの処理量、リソースセットなどに応じた従量課金が基本です。具体的な単価は変動するため、最新の公式料金を必ず確認してください。
| 項目 | 課金の考え方 | 向いている用途 |
|---|---|---|
| データマップ容量 | 保持メタデータ量に応じた容量単位の従量 | カタログの基盤維持 |
| スキャン処理 | スキャンの処理時間・量に応じた従量 | ソースのメタデータ取り込み |
| リソースセット処理 | パーティション集約などの処理量に応じた従量 | 大量ファイル群の論理集約 |
| 高度な分類・ラベル | 対象データ量や機能利用に応じた従量 | 機密データの自動分類と保護 |
全ソースを高頻度でフルスキャンすると処理量がかさみます。重要ソースは増分スキャン、変更の少ないソースは頻度を下げるなど、鮮度要件に応じてスキャン計画を分けると費用対効果を管理しやすくなります。
セキュリティ
- 最小権限: コレクション単位の RBAC で、データキュレーター・データリーダーなど役割を分離して付与する
- マネージド ID + Key Vault: データソースへの接続資格情報をハードコードせず、Key Vault 参照で安全に管理する
- ネットワーク隔離: Private Endpoint やセルフホスト型ランタイムでスキャン経路を閉域化し、パブリック到達面を縮小する
- 機密データの保護連携: 検出した機密データへ機密ラベルを付与し、情報保護やデータ損失防止の統制につなげる
- 監査ログ: アクセスとスキャンの操作ログを保全し、コンプライアンス対応や調査の証跡を確保する
Purview を導入してスキャンだけ回し、分類結果も系譜も誰もレビューしない状態は危険です。所有者を割り当てず、機密ラベルや用語集も整備しなければ、カタログは可視化されてもガバナンスとして機能しません。「発見」と「統制・運用プロセス」をセットで設計してください。
関連サービス・比較
Purview は、AWS では複数のサービスに分かれているデータカタログ・機密データ発見・系譜の役割を統合的に担います。最も近い関連サービスは AWS Glue Data Catalog(カタログ)と Amazon Macie(機密データ発見)です。
| 観点 | Azure | AWS |
|---|---|---|
| データカタログ | Microsoft Purview(Data Catalog) | Glue Data Catalog |
| 機密データ発見・分類 | Purview の分類子・機密ラベル | Macie |
| データ系譜 | Purview の Lineage | Glue / 周辺サービスで部分対応 |
| ビジネス用語集 | Purview の Glossary | DataZone の用語集 |
| アクセス制御 | コレクション RBAC(Entra ID) | Lake Formation / IAM |
| 接続資格情報の保管 | Key Vault 参照 | Secrets Manager |
AWS では Glue Data Catalog(カタログ)/ Macie(機密データ発見)/ Lake Formation(アクセス統制)/ DataZone(用語集・データ製品) に分かれている役割を、Azure では Microsoft Purview に集約しています。
ハンズオン / CLI例
# リソースグループと Purview アカウントを作成
az group create --name demo-rg --location japaneast
az purview account create \
--name demo-purview-0628 \
--resource-group demo-rg \
--location japaneast \
--managed-resource-group-name demo-purview-mrg
# 作成したアカウントの情報を確認
az purview account show \
--name demo-purview-0628 \
--resource-group demo-rg -o table
# データソース接続用にマネージド ID にロールを付与(例: ストレージへの読み取り)
az role assignment create \
--role "Storage Blob Data Reader" \
--assignee "$(az purview account show --name demo-purview-0628 --resource-group demo-rg --query identity.principalId -o tsv)" \
--scope "$(az storage account show --name demostorage0628 --query id -o tsv)"
# アカウントの一覧を確認
az purview account list --resource-group demo-rg -o table
Azure Service
Microsoft Purviewを実務で読む
TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。
解決すること
セキュリティ・ID
比較で見る軸
クラウド: Azure / カテゴリ: セキュリティ・ID / 難易度: intermediate
導入後に効く点
機密情報を分類子で自動分類し、ラベル付けとアクセス統制でガバナンスを効かせる。
先に潰すリスク
サービス単体ではなく、権限、ネットワーク、監視、課金、バックアップを含めて設計する必要がある。
- クラウド
- Azure
- カテゴリ
- セキュリティ・ID
- 難易度
- intermediate
- 関連資格
- —
- 設計柱
- security / operational
判断チェックリスト
- 自社の用途が「セキュリティ・ID / security」に近いか確認する。
- 強みである「オンプレ・マルチクラウド・SaaS のデータ資産を横断スキャンしてカタログ化し、検索可能にする。」が本当に評価軸になるか確認する。
- 注意点の「サービス単体ではなく、権限、ネットワーク、監視、課金、バックアップを含めて設計する必要がある。」を運用で吸収できるか確認する。
- 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
- 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
- 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。