幻覚（ハルシネーション）の発生機構と抑制

幻覚とは何か：流暢さと真偽のずれ

幻覚（hallucination） とは、LLM が 文法的にも文脈的にももっともらしいのに、事実として誤っている、あるいは根拠のない内容を生成する現象です。注意すべきは、これがバグや故障ではなく、現在の訓練・推論の枠組みから必然的に出てくる帰結だという点です。モデルは「正しいことを言う機械」ではなく「次の語をもっともらしく続ける機械」であり、その目的関数の中に「真偽」という軸が直接は存在しません。

幻覚は性質で分けると整理しやすくなります。

分類	中身	典型例
事実性幻覚	世界の事実と矛盾する生成	存在しない論文や API を実在のように引用
忠実性幻覚	与えた文脈・指示と矛盾	要約に原文にない数値を混入
内在的（intrinsic）	入力情報を捻じ曲げる	原文「増加」を「減少」と要約
外在的（extrinsic）	入力にない情報を補完	出典のない人物の経歴を捏造

機構1：最尤訓練の本質的限界

LLM は基本的に 次トークン予測の交差エントロピーを最小化（＝尤度を最大化） するよう訓練されます（詳細は損失関数の数理）。ここに幻覚の最も深い根があります。

目的: θ* = argmax Σ log p_θ(x_t | x_<t)
  → 最適化されるのは「次の語の当てやすさ＝流暢さ」
  → 「言明が事実か」は損失に直接現れない

訓練コーパスには大量の 断定文 が含まれます。モデルはその表層分布を再現するため、確信の有無に関わらず断定口調を出力するように学習します。さらに最尤目的のもとでは、出力分布が真の条件付き分布に近づくほど損失が下がるため、「分からない」と沈黙するより、それらしい高確率語を埋める方が訓練上は有利になりがちです。RLHF による整合化（RLHF と DPO）は有用性・流暢さを強化する一方、しばしば 自信過剰（over-confidence）を助長し、報酬モデルが「断定的で滑らかな回答」を好むと幻覚を増やす方向に働くこともあります。

無知を空白にできない構造

ソフトマックス出力は語彙全体で必ず和が1になります。つまりモデルはどんな入力に対しても必ず何らかの語に確率質量を割り当てる——「該当なし」という選択肢を構造的に持てません。知識が無い領域でも、相対的に高い確率の語が選ばれ、それが断定文として表に出ます。これが「知らないのに答えてしまう」最小単位の仕組みです。

機構2：分布外と知識境界

訓練データの分布から外れた入力（分布外, OOD）では、モデルの内部表現が信頼できる領域を外れ、出力が不安定になります。隣接する概念は埋め込み空間上で近接するため、学習済みの近傍パターンを誤って当てはめることで、もっともらしい誤答が生まれます。

もう一つが 知識境界（knowledge boundary） です。モデルの事実知識はパラメータに圧縮格納されており、(1) 訓練カットオフ以降の情報、(2) ロングテールな稀少事実、(3) 細かい数値・固有名詞・引用——これらはそもそも格納されていないか、低信頼でしか格納されていません。境界の外を問われると、モデルは近傍の知識を補間して**埋め合わせ（confabulation）**を起こします。

知識境界は『知らないことを知らない』

本質的な難しさは、モデルが自分の知識境界を内省的に正確には把握できないことです。あるパラメトリック知識が「正確」か「うろ覚え」かを出力時に区別する明示的な信号を持たないため、低信頼の知識も高信頼の知識と同じ断定トーンで出てしまいます。だからこそ後段の検証と較正が要ります。

機構3：自己回帰の誤差累積

LLM は1トークンずつ逐次生成する 自己回帰（autoregressive） モデルです。ここに 誤差累積（exposure bias） が潜みます。

訓練時: 常に「正解の過去系列」を条件にして次を予測（teacher forcing）
推論時: 自分が生成した（誤りを含む）系列を条件に次を予測
  → ひとたび誤った語が出ると、それを前提に後続が生成される
  → 誤りが「既定の事実」として系列に固定され、雪だるま式に拡大

訓練と推論で条件付けする系列の分布が食い違うため、初期の小さな逸脱が後続で増幅されます。たとえば架空の著者名を一度出力すると、モデルはそれを所与として架空の著書・所属・受賞歴まで一貫して捏造します。系列全体としては自己整合的なので、表面上は極めて自然に見えるのが厄介です。デコーディング設定もここに効き、温度や top-p を上げると多様性と引き換えに低確率＝低信頼の語を選ぶ確率が上がり、幻覚が増えます（デコーディング戦略）。

抑制1：RAG で知識境界の外を埋める

最も直接的な対策は、パラメトリック知識に頼らず外部知識を文脈に注入する Retrieval-Augmented Generation（RAG）です。知識境界の外の問いを、検索で取得した根拠の上での要約・抽出タスクへと変換します。

[質問] → 検索（密＋疎ハイブリッド）→ 関連チャンク取得
       → プロンプトに根拠として連結 → LLM が根拠を引用しつつ生成
狙い: 事実の出所をパラメータ内部から「検証可能な外部文書」へ移す

ただし RAG は万能ではありません。検索が的外れ（低再現率）なら根拠を欠いたまま生成し、逆に 根拠を渡しても無視して内部知識で答える（忠実性幻覚） ことも起きます。検索品質・チャンク設計・再ランクの良し悪しが回答の上限を決めます（RAG の内部設計）。

抑制2：検証と自己整合性

生成結果を事後に点検する層を挟みます。中核は、同じ問いに対する複数生成の一貫性を信頼性の代理指標とみなす考え方です。

手法	原理	効く幻覚
自己整合性	高温で複数回生成し多数決。揺れる答えは低信頼と判断	事実性・推論誤り
引用照合	生成文を出典チャンクと文単位で突き合わせ未根拠文を棄却	外在的・忠実性
検証連鎖	主張を検証質問に分解し個別に再確認（Chain-of-Verification）	事実性
外部ツール照合	計算・検索・コード実行で客観的に検算	数値・計算系

自己整合性が効くのは、正解は経路が収束しやすく、捏造は生成のたびに揺れやすいという経験則に基づきます（推論過程の引き出しは思考の連鎖を参照）。複数サンプル間の分散そのものが、不確実性の安価な推定量になります。

抑制3：不確実性較正

最後の柱は 不確実性較正（calibration）——モデルの「自信」を、実際の正答率と一致した確率として表に出すことです。較正されたモデルは、確率0.8と答えた事象が実際に約80%正しい状態を指します。

較正のずれ:
  過信  … 高確率を出すのに正答率が伴わない（幻覚の温床）
  指標  … ECE（期待較正誤差）= |予測信頼度 − 実測精度| の平均

具体策:
  ・温度スケーリング（出力ロジットを温度Tで割り直す事後較正）
  ・系列の対数尤度/エントロピーを信頼度スコアに利用
  ・低信頼時は「分からない」と棄権（abstention）させる方策学習

較正は幻覚を消すのではなく、幻覚に確率という値札を付ける技術です。これにより下流で「閾値未満なら回答せず人間に回す」「RAG で再検索する」といった運用上の分岐が設計でき、自信過剰な断定を抑えられます。RLHF 後のモデルは較正が崩れやすいため、事後較正や棄権学習が特に重要になります。

試験・面接で問われる勘所

「幻覚はなぜ起きるか」と問われたら、原因を一つに帰さないのが要点です——(1)最尤訓練は真偽でなく流暢さを最適化、(2)ソフトマックスは無知を空白にできない、(3)知識境界の外を補間（confabulation）、(4)自己回帰の誤差累積（exposure bias）。対策はRAG（知識注入）・検証（自己整合性/引用照合）・較正（棄権）の三層で答えると堅いです。「RAG だけで消える」は誤り——検索失敗や忠実性幻覚が残ります。

まとめ：消すのではなく管理する

機構	根本原因	対応する抑制
最尤訓練の限界	真偽でなく尤度を最適化	較正・棄権で自信を値札化
知識境界	未格納・低信頼の事実を補間	RAGで外部知識を注入
自己回帰の累積誤差	誤りを前提に後続を捏造	デコーディング調整・検証連鎖
分布外入力	近傍パターンの誤適用	棄権・人間へのエスカレーション

幻覚は、LLM が 真偽の検証器ではなく確率的な系列生成器 である以上、訓練・アーキテクチャの枠組みが現状のままなら原理的にゼロにはなりません。だからこそ実務の構えは「根絶」ではなく「確率として可視化し、許容水準まで下げて管理する」ことです。RAG で知識境界を外へ押し広げ、検証で出力を点検し、較正で自信を実態に合わせる——この三層を組むことで、もっともらしい誤りを体系的に減らせます。背景の仕組みは LLM と Transformer とインコンテキスト学習はなぜ起きるのかを合わせて読むと、点が線でつながります。

幻覚（ハルシネーション）の発生機構と抑制

幻覚とは何か：流暢さと真偽のずれ

機構1：最尤訓練の本質的限界

機構2：分布外と知識境界

機構3：自己回帰の誤差累積

抑制1：RAG で知識境界の外を埋める

抑制2：検証と自己整合性

抑制3：不確実性較正

まとめ：消すのではなく管理する

幻覚（ハルシネーション）の発生機構と抑制を実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点