LLM と Transformer

LLM は結局「次の単語当て」をしている

スマホの予測変換が「今日はいい」の次に「天気」を出すのと、原理は同じです。LLM は、与えられた文章（プロンプト）の続きとして最も確率の高いトークンを1つ選び、それを末尾に足して、また次の1トークンを選ぶ——これを繰り返して文章を生成します。これを 自己回帰（autoregressive） といいます。

入力: 「日本の首都は」
  → 次トークンの確率を計算: 「東京」(92%) / 「大阪」(3%) / 「...」
  → 「東京」を採択 → 「日本の首都は東京」
  → さらに次を予測: 「です」(88%) / 「。」(7%) / ...
  → 繰り返して文を伸ばす

驚くべきは、「次の1語を当てる」という単純な課題を極限まで突き詰めるだけで、文法・常識・要約・簡単な推論まで“ついでに”身についてしまう点です。続きを正確に当てるには、結局それらを理解せざるを得ないからです。「知能を持たせた」のではなく、予測の副産物として知的に見える振る舞いが現れる、という捉え方が実態に近いです。

“理解している”わけではない、を頭の片隅に

LLM は意味を人間のように「理解」しているのではなく、膨大な文章で観測された単語の並びの統計的なパターンを再現しています。だからこそ流暢なのに、後述のように平気で事実を間違える（ハルシネーション）ことがあります。「賢い検索」でも「考える主体」でもなく、“もっともらしい続き”を生成する装置として扱うのが安全です。

トークン化：モデルは「文字」も「単語」も見ていない

LLM は文章をそのまま読みません。まず トークン（token） という単位に区切ります。トークンは単語より細かく、文字より大きい「サブワード」が中心で、英語ならおおむね 1 トークン ≒ 4 文字、日本語は 1 文字が複数トークンになることもあります。

"Tokenization"     → ["Token", "ization"]   （2トークン）
"こんにちは世界"     → ["こん", "にち", "は", "世界"] のように分割（モデル依存）

各トークンには ID（番号）が振られ、モデルはこの数列を入力として受け取り、出力も「次のトークンID」を確率で返すだけです。料金やコンテキスト長（一度に扱える長さ）が「文字数」ではなく「トークン数」で測られるのはこのためです。

横にスクロール

LLMは文章をそのまま読むのではなく、トークンIDの列として処理します。Transformerは文脈上どの語を見るかを重み付けし、次の1トークンを選んで末尾に足す処理を繰り返します。

トークン単位ゆえの“弱点”

「strawberry に r は何個？」のような文字数えを LLM が苦手とするのは、単語が straw / berry のような塊で入っていて、1文字ずつを直接“見ていない”からです。能力が低いのではなく、入力の粒度の問題。文字レベルの厳密な操作は、LLM 単体ではなくコード実行やツールに任せるのが定石です。

Transformer とアテンション：文脈を「重み付け」で捉える

では、なぜ Transformer はそんなに賢く次の単語を当てられるのか。鍵が アテンション です。

人間も文を読むとき、ある単語の意味を確定するのに別の単語を参照します。例えば次の2文の「それ」を考えてみてください。

A: 「箱が棚に入らなかった。それが大きすぎたからだ。」  → それ = 箱
B: 「箱が棚に入らなかった。それが小さすぎたからだ。」  → それ = 棚

「それ」が箱か棚かは、離れた位置にある「大きすぎ／小さすぎ」を見て初めて決まります。アテンションは、まさにこの「いまの単語を解釈するために、文中のどの単語にどれだけ注目するか」を重み（0〜1のスコア）として計算するしくみです。「それ」を処理するとき「箱」への重みを高くする、といった具合に、文脈に応じて参照先を動的に切り替えます。

ここが、それ以前の手法との決定的な違いです。

観点	RNN / LSTM（旧来）	Transformer（現在の主流）
文の読み方	前から1語ずつ順番に処理	全トークンを一度に見て相互参照
遠い単語の関係	間が長いほど忘れやすい	アテンションで距離に関係なく直接結べる
並列計算	前の結果待ちで直列、遅い	まとめて計算でき GPU で高速化しやすい
位置の扱い	順番に処理するので自然に分かる	位置エンコーディングで明示的に与える
大規模化	長文・大規模で頭打ちになりやすい	スケールさせやすく大規模化に向く

要点は2つ。(1) 距離に関係なく単語どうしを直接結べるので長い文脈を捉えやすい。(2) 1語ずつ待たずまとめて計算できるので、GPU で大量データを高速に学習できる——この「並列化しやすさ」こそ、後述の大規模化を可能にした立役者です。なお実際のアテンションは複数の観点（文法的なつながり、意味的な近さ等）を同時に見る マルチヘッド 構成ですが、「注目先を重みで決める」という本質は同じです。

アテンションの一言要約

アテンション＝「この単語を理解するのに、他のどの単語をどれだけ見るか」を毎回その場で計算する動的な重み付け。固定のルールではなく文脈ごとに参照先が変わる点が、Transformer を柔軟にしています。土台のニューラルネットの考え方はニューラルネットワークを参照。

事前学習：ラベルなしの大量テキストで“穴埋め”を学ぶ

LLM の賢さの源泉が 事前学習（pre-training） です。Web やコードや書籍など膨大な文章を集め、「途中まで見せて次のトークンを当てさせる」という課題を、何兆トークンも繰り返します。

ここが効率的なのは、人間が正解ラベルを付ける必要がないこと。文章そのものが「次に何が来るか」の正解を含んでいるので、テキストを用意するだけで無限に問題が作れます（自己教師あり学習）。間違えるたびに、内部の膨大な数値（パラメータ＝重み）を少しずつ調整し、予測のズレを縮めていきます。

学習の段階を分けて捉えると、全体像がつかめます。

段階	何をするか	目的
事前学習（Pre-training）	大量の文章で次トークン予測をひたすら学習	言語・知識・パターンの“土台”を作る
ファインチューニング / 指示調整	対話形式や特定タスクの例で追加学習	“続きを書く機械”を“指示に従う助手”にする
RLHF（人間の好みで強化）	人が良し悪しを評価し、好まれる応答に寄せる	有用で安全な自然な受け答えに整える

事前学習だけのモデルは「文章の続きを書く」ことしかできません。チャットとして指示に従い、丁寧に答えてくれるのは、その後の指示調整や人間のフィードバックによる調整（RLHF）で“しつけ”られた結果です。手元のデータで土台モデルを目的に寄せる手法はファインチューニングと RAG にまとまっています。

なぜ「大規模化」で賢くなるのか

LLM の "L"（Large）は伊達ではありません。経験的に、モデルのパラメータ数・学習データ量・計算量を増やすほど、予測誤差が滑らかに下がり続けることが知られています。これを スケール則（Scaling Laws） と呼びます。

さらに興味深いのが 創発的能力（emergent abilities） ——ある規模を超えると、小さいモデルにはできなかった芸当（多段の推論、翻訳、コード生成など）が急に現れる現象です。「次トークン予測」という課題は変わらないのに、容量と経験が一定量を超えると質的な飛躍が起きる、と理解されています。

“大きくすれば何でも解決”ではない

スケール則は強力ですが万能ではありません。規模を上げると学習・推論のコスト（GPU・電力・お金）が跳ね上がり、頭打ち（収穫逓減）もあります。近年は「ただ大きく」より、良質なデータ・効率的な学習・推論時の工夫（じっくり考えさせる等）で性能を引き出す方向も重視されています。大きさは強さの一因であって、すべてではありません。

ハルシネーション：流暢な“もっともらしい嘘”

LLM の最重要の注意点が ハルシネーション（hallucination＝幻覚） です。事実ではない内容を、自信たっぷりに・もっともらしく生成してしまう現象を指します。実在しない論文や URL、誤った日付、存在しない API などを、まるで本当のように書きます。

なぜ起きるのか。LLM は「真実かどうか」を判定しているのではなく、「学習データ的に、ここに来そうな“もっともらしいトークン”」を出しているだけだからです。正しさより“尤もらしさ”を最適化している以上、知識の空白を統計的にありそうな作り話で埋めてしまうのは、バグというよりしくみの帰結です。流暢さと正しさは別物で、文章が自然なことは内容が正しい保証になりません。

ハルシネーションと付き合う実務のコツ

検証可能な用途で使う：下書き・要約・アイデア出しなど、人間が最終確認できる作業に向く。事実確認や数値は鵜呑みにしない。
根拠を持たせる（RAG）：信頼できる文書を検索して渡し、「この資料の範囲で答えて」と縛ると、作り話が大きく減る。詳しくはファインチューニングと RAG。
厳密処理はツールに委譲：計算・最新情報・正確なコード実行などは、LLM 単体ではなく外部ツールや検索に任せる。関連ツールは /ai/tools/ を参照。
聞き方を整える：曖昧な指示はハルシネーションを誘発しがち。文脈と条件を具体的に渡す工夫はプロンプトエンジニアリング。

まとめ：LLM を正しく見立てる

最後に、要点を一枚に整理します。

論点	実態	そこから言えること
LLM がしていること	次トークンを確率で予測しているだけ	会話も要約も、すべてその繰り返し
Transformer の核心	アテンションで参照先を動的に重み付け	遠い語も結べ、並列計算で大規模化できる
賢さの源泉	大量テキストの事前学習＋スケール則	規模で伸びるが、コストと頭打ちもある
最大の弱点	ハルシネーション（もっともらしい嘘）	人間の検証・根拠付与(RAG)・ツール併用で抑える

LLM は「考える人工知能」ではなく、“次に来そうな言葉”を圧倒的なスケールで予測する装置です。その心臓部が、文脈を重みで捉える Transformer のアテンション。この見立てを持つと、得意（流暢な生成・下書き・要約）と苦手（厳密な事実・計算・文字操作）の境目が腑に落ち、過信も過小評価もせずに使いこなせます。土台となる概念は機械学習・ディープラーニング・単語の埋め込み（Embedding）も合わせて読むと、点が線でつながります。

LLM と Transformer

LLM は結局「次の単語当て」をしている

トークン化：モデルは「文字」も「単語」も見ていない

Transformer とアテンション：文脈を「重み付け」で捉える

事前学習：ラベルなしの大量テキストで“穴埋め”を学ぶ

なぜ「大規模化」で賢くなるのか

ハルシネーション：流暢な“もっともらしい嘘”

まとめ：LLM を正しく見立てる

LLM と Transformerを実務で読む

解決すること

比較で見る軸

導入後に効く点

先に潰すリスク

判断チェックリスト

次に確認する観点