TL

Cloud Service

Amazon Comprehend Medical

医療文書から病名・投薬・検査値などの医療エンティティと個人健康情報(PHI)を抽出。モデル自作不要のフルマネージド医療向け自然言語処理(NLP)サービスで、診療記録の構造化を API で実現。

中級AIF-C01MLA-C01セキュリティ運用上の優秀性
最終更新: 2026-06-28公式ドキュメント ↗
TL;DR要点だけ先に
  • 1.カルテや退院サマリなどの非構造化テキストから、病名・投薬・検査・解剖部位といった医療エンティティを抽出する。
  • 2.氏名・住所・日付などの個人健康情報(PHI)を検出でき、HIPAA 対象(適格)サービスとして機微データを扱える。
  • 3.管理サーバー不要のフルマネージド。汎用の Amazon Comprehend ではなく医療ドメインに特化している。

解決する課題

診療記録、退院サマリ、医師の所見、治験データといった医療テキストは自由記述が多く、病名・処方・検査結果などが文章の中に埋もれています。これを人手で読み取り台帳化するのは時間がかかり、見落としや表記ゆれも起こりがちです。汎用の自然言語処理では医療特有の専門用語や略語、文脈を正確に捉えきれません。Amazon Comprehend Medical は、医療ドメインに特化した機械学習モデルで、こうしたテキストから意味のある情報を構造化して抽出します。

  • 自由記述のカルテから病名・症状・投薬・検査・処置などの医療エンティティを抽出
  • 投薬であれば用量・経路・頻度といった属性を関連付けて取り出す
  • 氏名・住所・電話番号・日付などの**個人健康情報(PHI)**を検出して匿名化に役立てる
  • 抽出した用語を医療コード体系(ICD-10-CM、RxNorm、SNOMED CT など)に紐づける

医療 NLP モデルの学習やインフラ運用を自前で抱えずに、API 呼び出しだけで医療テキストを構造化できる点が中心的な価値です。

主要概念と用語

  • 医療エンティティ抽出: テキストから病名・投薬・検査・解剖部位・処置などの医療用語を識別する中核機能
  • エンティティの属性と特性: 「アスピリン」に対する用量・頻度・経路や、「陰性」「家族歴」といった文脈の修飾情報を関連付ける仕組み
  • PHI 検出(PHI 識別): 氏名・住所・年齢・日付・ID など、患者を特定し得る個人健康情報を検出する機能。匿名化(脱識別)の前処理に使う
  • オントロジーリンク: 抽出語を標準コード体系に対応付ける機能。病名は ICD-10-CM、医薬品は RxNorm、臨床用語は SNOMED CT などに紐づける
  • 信頼度スコア: 抽出した各要素の確からしさを示す値。後段の人手確認の要否判定に使う
  • 同期 API とバッチ/非同期ジョブ: 短いテキストを即時解析する同期呼び出しと、大量文書を S3 経由でまとめて処理する非同期ジョブの二方式
  • HIPAA 適格サービス: 米国の医療情報保護法(HIPAA)の対象として、機微な医療データの取り扱いに利用できる位置づけ
汎用 Comprehend とは別物

医療テキストには専用の Amazon Comprehend Medical を使います。汎用の Amazon Comprehend の感情分析や一般エンティティ認識は、医療の専門用語・略語・文脈を前提に設計されていません。

仕様・制限・クォータ

  • 入力は主に英語の医療テキストを対象とし、対応言語は機能により異なる
  • 同期 API は1回の呼び出しで扱えるテキストのサイズ上限があり、長文は分割して渡す
  • 大量文書は入力を S3 に置き、結果も S3 へ出力する非同期ジョブで処理する
  • 出力は抽出エンティティ・属性・PHI と、それぞれの信頼度スコアや位置情報を含む構造化データ(JSON)として得られる
  • 同時実行数やジョブ数などにアカウント単位のクォータがあり、引き上げ申請が可能
  • 抽出結果は臨床判断そのものを代替するものではなく、医療従事者によるレビューを前提とする

対応言語・サイズ上限・クォータ値・対応コード体系は更新されるため、最新の公式ドキュメントで確認してください。

内部の仕組み

利用者から見ると、医療テキストを渡すと AWS 側のマネージドな機械学習モデルが推論を行い、構造化された結果を返すブラックボックスとして扱えます。

  • 同期(リアルタイム): 短い医療テキストを API に渡すと、エンティティ・属性・PHI が即座に返る
  • 非同期(バッチ): 入力文書を S3 から読み込んでジョブとして処理し、完了をポーリングまたは通知で受け取り、出力先から結果を取得する
  • オントロジーリンク: 抽出語を ICD-10-CM・RxNorm・SNOMED CT などの標準コードに対応付ける専用の API があり、必要な体系だけを呼び出す
  • 抽出されたエンティティは、属性(用量・頻度など)や特性(陰性・家族歴など)と関連付けられ、文脈を保った構造で返される

モデルの学習基盤やスケーリング、ハードウェアの管理はすべて AWS 側が担います。利用者がモデルを学習させる必要はありません。

設計パターン / ベストプラクティス

  • 匿名化パイプライン: まず PHI 検出で個人情報を特定し、マスキングや置換で脱識別してから、後段の分析・共有・学習に回す疎結合構成
  • 非同期パイプライン化: S3 への文書アップロードをトリガーに Lambda でジョブを起動し、完了通知(EventBridge など)で後続処理へ流す
  • 方式を用途で選ぶ: 1件ずつの即時応答が要る用途は同期 API、夜間の大量解析は非同期ジョブ
  • 信頼度スコアで人手確認を振り分ける: スコアが一定未満の抽出だけ医療従事者のレビューに回し、自動化と正確性を両立する
  • コード体系は必要なものだけ: 病名コード化なら ICD-10-CM、医薬品なら RxNorm と、用途に合うオントロジーリンクだけを呼び出す
まず PHI 検出で匿名化

医療データを分析や共有に使う前に、PHI 検出で個人情報を洗い出して脱識別する段を入れると、後段の取り扱いリスクを大きく下げられます。

運用・監視

  • API 呼び出しやジョブの状態は CloudWatch のメトリクス・ログで監視する
  • 非同期ジョブの状態遷移(完了・失敗)を EventBridge で受け取り、後続処理や通知を自動化する
  • API 操作の監査証跡は CloudTrail に記録される。機微データを扱うため証跡の保全は特に重要
  • 失敗ジョブはエラー理由(非対応言語、サイズ超過、権限不足など)を確認し、入力データと IAM 設定を見直す
非同期前提で設計する

大量文書のバッチ解析は即時に終わりません。結果を同期的に待つ作りにせず、通知やポーリングで完了を待つ非同期設計にしてください。

コスト

  • 課金は基本的に解析したテキスト量に応じた従量制で、サーバーの常時起動費用は発生しない
  • エンティティ抽出・PHI 検出・オントロジーリンクといった機能ごとに単価が設定される傾向がある
  • 同じテキストに複数の機能をかけるとそれぞれに課金されるため、必要な解析だけを選ぶ

具体的な単価は変動するため、料金は公式の料金ページで確認してください。少量のサンプルで検証してから本番のボリュームを見積もるのが安全です。

セキュリティ

  • アクセス制御は IAM で行い、入出力に使う S3 バケットへの最小権限のみを付与する
  • 保存データは S3 側の暗号化(KMS 管理鍵を含む)、転送は TLS で保護する
  • HIPAA 適格サービスであり、対象ワークロードでの利用が想定されているが、適切な構成(暗号化・アクセス制限・BAA など)は利用者の責任で行う
  • VPC 内のリソースからプライベートに到達したい場合は VPC エンドポイント経由のアクセスを検討する
PHI の取り扱いに注意

ジョブ用の IAM ロールに広すぎる S3 権限を与えると、想定外の患者データへアクセスできてしまいます。対象バケット・プレフィックスに絞った最小権限とし、暗号化と監査証跡を徹底してください。

関連サービス・比較

汎用テキストを扱う Amazon Comprehend と混同しやすいため比較します。医療ドメインに特化した抽出が必要なら Comprehend Medical、一般的な文章解析なら Comprehend を使います。

観点Amazon Comprehend MedicalAmazon Comprehend
対象ドメイン医療・臨床テキスト一般的なテキスト全般
代表的な抽出病名・投薬・検査・PHI感情・キーフレーズ・一般エンティティ
コード連携ICD-10-CM・RxNorm・SNOMED CT標準コード連携は持たない
主な用途診療記録の構造化・匿名化レビュー分析・問い合わせ分類

ハンズオン / CLI例

# 医療テキストから病名・投薬などのエンティティを即時抽出(同期)
aws comprehendmedical detect-entities-v2 \
  --text "Patient was prescribed 50 mg of aspirin twice daily for chest pain."

# 同じテキストから個人健康情報(PHI)を検出
aws comprehendmedical detect-phi \
  --text "John Smith, born 1980-01-01, visited the clinic on 2026-06-20."

# 抽出した病名を ICD-10-CM コードに紐づける
aws comprehendmedical infer-icd10-cm \
  --text "The patient has type 2 diabetes mellitus and hypertension."

AWS Service

Amazon Comprehend Medicalを実務で読む

TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。

解決すること

AI / 機械学習

比較で見る軸

クラウド: AWS / カテゴリ: AI / 機械学習 / 難易度: intermediate

導入後に効く点

氏名・住所・日付などの個人健康情報(PHI)を検出でき、HIPAA 対象(適格)サービスとして機微データを扱える。

先に潰すリスク

サービス単体ではなく、権限、ネットワーク、監視、課金、バックアップを含めて設計する必要がある。

数字・仕様の読み方
クラウド
AWS
カテゴリ
AI / 機械学習
難易度
intermediate
関連資格
AIF-C01 / MLA-C01
設計柱
security / operational

判断チェックリスト

  • 自社の用途が「AI / 機械学習 / security」に近いか確認する。
  • 強みである「カルテや退院サマリなどの非構造化テキストから、病名・投薬・検査・解剖部位といった医療エンティティを抽出する。」が本当に評価軸になるか確認する。
  • 注意点の「サービス単体ではなく、権限、ネットワーク、監視、課金、バックアップを含めて設計する必要がある。」を運用で吸収できるか確認する。
  • 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
  • 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
  • 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。

次に確認する観点

AI / 機械学習securityoperationalAIF-C01MLA-C01