Cloud Service
Microsoft Fabric
データ統合から DWH・分析・BI までを1つの SaaS 基盤に集約できる。Microsoft Fabric は OneLake を中心に据えた統合分析プラットフォームで、Synapse や Databricks の領域を SaaS としてまとめた位置づけ。
- 1.データ取り込み・DWH・Spark・リアルタイム分析・Power BI を1つの SaaS にまとめる。
- 2.OneLake という単一の論理データレイクを全エンジンが共有し、データのコピーを減らす。
- 3.課金は容量(Capacity)単位で、複数のワークロードが同じ容量を共有する。
解決する課題
データ分析の現場では、取り込み(ETL)・データウェアハウス・ビッグデータ処理・リアルタイム分析・BI が、それぞれ別の製品として分かれて運用されがちでした。製品ごとにデータをコピーして連携し、認証やガバナンスも別々に設定する必要があり、構成と運用が複雑になります。Microsoft Fabric は、これらのワークロードを1つの SaaS(Software as a Service)にまとめ、OneLake という共通のデータレイクを全エンジンで共有することで、つなぎ込みとデータの重複を減らします。
- 取り込み・加工・DWH・リアルタイム分析・BI を 別々の製品で組み合わせる手間をなくしたい
- エンジンごとに 同じデータをコピーして回す運用をやめたい
- インフラのプロビジョニングや管理を意識せず、SaaS として使い始めたい
- 分析結果を Power BI までシームレスにつなぎ、レポートまで一気通貫にしたい
主要概念と用語
- OneLake: テナント全体で1つの論理データレイク。全ワークロードがここを共有し、データの保存場所を統一する。OneDrive のデータ版とよく説明される
- 容量(Capacity): Fabric の計算リソースの購入・課金単位。
Fで始まる SKU(例として小さいものから大きいものまで段階的に存在)で表され、複数のワークロードが同じ容量を共有する - ワークスペース(Workspace): 成果物(アイテム)をまとめる作業領域。チームやプロジェクト単位で権限を管理する
- エクスペリエンス(ワークロード): 用途別の機能群。データ統合(Data Factory)、データエンジニアリング(Spark)、データウェアハウス、リアルタイムインテリジェンス、データサイエンス、Power BI などがある
- レイクハウス(Lakehouse): ファイルとテーブルを同じ場所で扱える格納形態。Spark やノートブックで加工し、SQL でも参照できる
- ウェアハウス(Warehouse): T-SQL でフルに扱える DWH 型のアイテム。トランザクション的な更新やマルチテーブル操作に対応する
- ショートカット(Shortcut): 他の場所(OneLake 内や外部ストレージ)のデータを、物理コピーせずに OneLake から参照する仕組み
- Direct Lake: Power BI が OneLake 上の Delta テーブルを、インポートも DirectQuery も介さず直接読み込むモード
仕様・制限・クォータ
- 複数のワークロードを1つの SaaS に統合する。データ統合・データエンジニアリング・DWH・リアルタイム分析・データサイエンス・BI を同一基盤で扱う
- OneLake が唯一の論理データレイクで、内部のテーブルデータは Delta Lake 形式(オープンな Parquet ベース)で保持される
- 課金とリソースは容量(Capacity)単位で、複数ワークロードが容量を共有する。容量は一時停止・再開ができ、停止中はコンピューティング課金が止まる
- スムージングとバーストにより、短時間の高負荷は平準化されて容量上限に収まりやすい設計になっている
- ワークスペースやアイテム数、同時実行、ファイルサイズなどには上限があり、容量 SKU・リージョン・ワークロードで異なるため、具体的な数値は最新の公式ドキュメントで確認する
- 利用できる リージョンや機能は順次拡大しているため、対象リージョンでの提供状況も併せて確認する
内部の仕組み
Fabric の核心は、すべてのワークロードが OneLake という単一の論理データレイクを共有することにあります。レイクハウスでもウェアハウスでも、内部のテーブルは Delta Lake 形式(オープンな Parquet ベース) で保存されるため、Spark・T-SQL・KQL・Power BI といった異なるエンジンが、同じデータをコピーせずに参照できます。
- ショートカットを使うと、外部の S3 や ADLS Gen2、あるいは別ワークスペースのデータを、物理コピーせずに OneLake から仮想的に参照できる
- Direct Lake モードでは、Power BI が OneLake 上の Delta テーブルを直接読み込むため、インポート(事前読み込み)の鮮度遅延や DirectQuery のクエリ往復を避けつつ、両者の利点に近い性能を狙える
- 各ワークロードは独立したエンジン(Spark、SQL、KQL など)で動くが、計算リソースは共通の容量から消費される
- 容量は スムージングにより、短時間に集中した処理負荷を時間方向にならして上限内に収める
データを各エンジン専用にコピーして回す必要が減るのが、OneLake を中心に据えた設計の狙いです。
Fabric を理解する鍵は、製品の機能の多さではなく「全ワークロードが OneLake を共有する」という一点です。Synapse が同一データレイクを複数エンジンで共有する考え方を、SaaS としてテナント全体に広げたものと捉えると整理しやすくなります。
設計パターン / ベストプラクティス
- メダリオン構成(生データのブロンズ、整形のシルバー、集計のゴールド)でレイクハウスを段階的に整える
- コピーせずショートカットで参照し、データの重複と同期コストを抑える
- BI 用途では Direct Lake を活用し、巨大なインポートモデルの更新負荷や鮮度遅延を減らす
- ワークスペースをチーム / 環境(開発・本番)で分離し、権限と容量の使われ方を管理する
- 容量を用途で分ける(本番用と検証用など)ことで、片方の負荷が他方に波及するのを防ぐ
- T-SQL でのトランザクション的更新が必要ならウェアハウス、ファイル中心の加工や機械学習ならレイクハウス、と用途でアイテムを選ぶ
運用・監視
- 容量メトリクスアプリで、容量の消費状況・スロットリング・スムージングの状態を可視化する
- ワークロードが容量上限を超えそうなときは、容量のスケールアップや負荷の時間分散、不要ジョブの見直しで対処する
- 監視ハブで Spark ジョブ・パイプライン実行・SQL クエリなどの実行状況を横断的に確認する
- 開発成果物は Git 連携やデプロイパイプラインでバージョン管理し、開発から本番への昇格を制御する
- 使わない時間帯は 容量を一時停止してコンピューティング課金を止める
コスト
Fabric のコストは、個々のワークロードごとではなく 容量(Capacity)単位で考えるのが出発点です。1つの容量を複数のワークロードが共有し、消費はならされて(スムージング)上限内に収められます。容量は一時停止でき、止めている間はコンピューティング課金が発生しません(OneLake のストレージは別途)。
| 対象 | 課金の考え方 | コスト最適化のポイント |
|---|---|---|
| 容量 | F SKU 単位のプロビジョンド(停止可) | 検証容量は夜間に一時停止する |
| OneLake ストレージ | 保存したデータ量に応じた従量 | 不要データの削除・ショートカット活用 |
| 共有負荷 | 全ワークロードが容量を共有 | 本番と検証で容量を分け波及を防ぐ |
1つの容量を複数ワークロードで共有するため、重い Spark ジョブや大量クエリが他のワークロードのスループットに影響することがあります。本番と検証で容量を分け、容量メトリクスアプリでスロットリングの兆候を継続的に監視するのが安全です。変動する SKU の料金やクォータ値は時期で変わるため、見積もりは必ず最新の公式情報で確認してください。
セキュリティ
- Microsoft Entra ID 認証を基本とし、ワークスペース単位の役割(ロール)で権限を管理する
- OneLake へのアクセスは ワークスペースの権限とアイテム単位の権限で制御し、共有範囲を最小化する
- 保存データはサービス側で暗号化され、テナント / 容量 / ワークスペースの階層でガバナンスを設定できる
- プライベートリンクなどで通信を閉域化し、テナント設定で外部共有や機能の有効範囲を制御する
- Microsoft Purview と連携し、機密情報のラベル付けやデータカタログによるガバナンスを行う
関連サービス・比較
Fabric は、Azure Synapse Analytics が扱っていた領域を SaaS として再構成し、Power BI までを含めて統合したものです。両者を対応づけると位置づけを整理しやすくなります。
| 観点 | Microsoft Fabric | Azure Synapse Analytics |
|---|---|---|
| 提供形態 | SaaS(容量を購入して利用) | PaaS(ワークスペースを構築) |
| データレイク | OneLake(テナント共通) | Data Lake Storage Gen2 |
| DWH | ウェアハウス | 専用 SQL プール |
| Spark | データエンジニアリング | Apache Spark プール |
| BI 連携 | Power BI を内包・Direct Lake | 外部の Power BI と連携 |
| 課金単位 | 容量(F SKU) | エンジンごと(DWU・スキャン量など) |
新規のレイクハウス志向の構築では、Microsoft は Synapse の発展形として Fabric を案内しています。既存の Synapse 資産は引き続き有効ですが、新規採用では SaaS としての運用容易さと容量課金モデルが要件に合うかを比較検討するとよいでしょう。
ハンズオン / CLI例
# Fabric の主要操作はポータルや Fabric REST API が中心ですが、
# 容量(Capacity)は Azure CLI の汎用リソースコマンドで作成・管理できます。
# リソースグループを作成
az group create --name demo-rg --location japaneast
# Microsoft.Fabric の容量(F SKU)を作成
# sku 名や管理者は環境に合わせて指定する
az resource create \
--resource-group demo-rg \
--name demofabriccap0628 \
--resource-type "Microsoft.Fabric/capacities" \
--location japaneast \
--properties '{
"administration": { "members": ["admin@contoso.com"] }
}' \
--is-full-object false \
--api-version 2023-11-01 \
--properties-sku '{ "name": "F2", "tier": "Fabric" }'
# 不要な時間帯は容量を一時停止してコンピューティング課金を止める
az resource invoke-action \
--resource-group demo-rg \
--name demofabriccap0628 \
--resource-type "Microsoft.Fabric/capacities" \
--action suspend \
--api-version 2023-11-01
# 再開する
az resource invoke-action \
--resource-group demo-rg \
--name demofabriccap0628 \
--resource-type "Microsoft.Fabric/capacities" \
--action resume \
--api-version 2023-11-01
Azure Service
Microsoft Fabricを実務で読む
TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。
解決すること
分析
比較で見る軸
クラウド: Azure / カテゴリ: 分析 / 難易度: intermediate
導入後に効く点
OneLake という単一の論理データレイクを全エンジンが共有し、データのコピーを減らす。
先に潰すリスク
サービス単体ではなく、権限、ネットワーク、監視、課金、バックアップを含めて設計する必要がある。
- クラウド
- Azure
- カテゴリ
- 分析
- 難易度
- intermediate
- 関連資格
- —
- 設計柱
- operational / cost / performance
判断チェックリスト
- 自社の用途が「分析 / operational」に近いか確認する。
- 強みである「データ取り込み・DWH・Spark・リアルタイム分析・Power BI を1つの SaaS にまとめる。」が本当に評価軸になるか確認する。
- 注意点の「サービス単体ではなく、権限、ネットワーク、監視、課金、バックアップを含めて設計する必要がある。」を運用で吸収できるか確認する。
- 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
- 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
- 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。