トークン化（トークナイザ）とは？仕組みと要点をわかりやすく解説

トークンとは何か

トークンは、テキストを機械が扱いやすいように分割した最小の単位です。トークナイザがこの分割を担い、文章を一連のトークンの列に変換してからモデルに渡します。

大規模言語モデル（LLM）は文字や単語をそのまま読むのではなく、各トークンに割り当てられた数値（ID）の列として処理します。つまりトークン化は、人間の文章とモデルの内部表現をつなぐ入り口にあたります。

横にスクロール

トークナイザは文章をモデル固有の語彙で分割し、各部分をIDへ変換します。モデルはIDに対応するベクトル列を処理するため、入力上限・料金・生成時間は文字数ではなくトークン数で見積もります。

トークンは必ずしも単語1つとは限りません。代表的なのは、語をさらに細かいサブワードに分ける方式です。

英語ではおおむね「単語の一部」程度の粒度になり、日本語では文字単位に近く分割されることが多く、同じ文字数でも言語によってトークン数が変わります。

単語をそのまま語彙にすると、未知語に対応できず語彙数も膨大になります。逆に文字単位だと列が長くなりすぎます。サブワード分割はその中間で、限られた語彙で未知語も部分の組み合わせで表現できる利点があります。

代表的なアルゴリズムに BPE（Byte Pair Encoding）や WordPiece、Unigram などがあり、頻出するまとまりを1トークンに統合していく考え方が共通します。

API利用では、入力（プロンプト）と出力のトークン数に応じて料金が決まるのが一般的です。また、モデルが一度に扱えるコンテキスト長の上限もトークン数で規定されます。

長文をそのまま投げるとコストや上限に響くため、不要部分を削る・要約するといった工夫が効きます。

文字数とは一致しない

トークン数は文字数や単語数とは一致しません。コストや上限を見積もるときは、各モデルが提供するトークナイザやAPIの使用量表示で実数を確認すると安全です。

トークン化はふだん意識しにくい裏方の処理ですが、料金・速度・入力できる長さのすべてに関わります。LLMを実務で使うなら、「自分の入力が何トークンになるか」を把握しておくとコスト管理がしやすくなります。