全文検索とは？仕組みと要点をわかりやすく解説

全文検索とは

商品の説明文、記事、メールの本文といった 長い文章の集まり から、「この言葉を含むものはどれか」を探したい場面は多くあります。全文検索（Full-Text Search） は、こうした文章群から検索語にマッチする文書を 高速に 見つけ出す技術です。

素朴にやるなら全文書を頭から読んで照合すればよいのですが、文書が数百万件あればとても間に合いません。全文検索が速いのは、検索のたびに本文を読むのではなく、あらかじめ作っておいた索引を引くからです。

転置インデックスの仕組み

全文検索の心臓部が 転置インデックス（inverted index） です。これは「文書 → 含まれる単語」ではなく、逆向きの 「単語 → その単語を含む文書の一覧」 という辞書です。

たとえば 3 つの文書があったとします。

文書	本文
doc1	データベース入門
doc2	検索エンジン入門
doc3	データベース設計

これを単語ごとにばらして整理すると、次のような転置インデックスができます。

単語	含む文書
データベース	doc1, doc3
入門	doc1, doc2
検索	doc2
設計	doc3

「データベース」で検索すれば、辞書を 1 回引くだけで doc1 と doc3 に直行できます。文書をすべて読み直す必要はありません。日本語のように単語が空白で区切られない言語では、文章を単語に分割する 形態素解析 や、機械的に N 文字ずつ区切る N-gram という前処理を挟んで、この辞書を作ります。

横にスクロール

索引作成時と検索時に同じ解析規則を使い、単語ごとのポスティングリストを集合演算します。索引は正本から再構築できる派生データですが、文書更新への追随と同期遅延の管理が必要です。

LIKE 検索との違い

RDB で部分一致を書くなら LIKE が思い浮かびます。

SELECT * FROM articles WHERE body LIKE '%データベース%';

これは動きますが、毎回テーブルの全行を頭から走査 して照合します。前後に % が付く中間一致は通常のインデックスも効かないため、行数が増えるほど線形に遅くなります。

観点	LIKE 検索	全文検索（転置インデックス）
事前準備	不要	索引の構築が必要
速度（大量データ）	遅い（全件走査になりがち）	速い（索引を引くだけ）
単語の認識	文字列の並びとして扱う	単語単位で扱える
関連度の並べ替え	できない	スコア順に並べられる
あいまい一致・表記ゆれ	苦手	同義語・ゆらぎ吸収が可能

LIKE は手軽で件数が少なければ十分ですが、文章をまともに検索するなら全文検索の仕組みが要ります。

LIKE は単語の境界を知らない

LIKE '%data%' は database や metadata にもヒットします。文字の並びとしてしか見ていないからです。全文検索は本文を単語に分けて索引化するため、「data という語」を狙って検索でき、無関係な部分一致を拾いにくくなります。「とりあえず LIKE」で精度に困ったら、全文検索への切り替えを検討する合図です。

専用エンジンを使う場面

PostgreSQL の tsvector / tsquery や MySQL の全文索引など、RDB にも全文検索機能はあります。データ量が中規模で、検索が機能の一部に過ぎないなら、まずはこれで十分なことも多いです。

一方で、検索そのものが中心的な機能になると、Elasticsearch / OpenSearch などの専用検索エンジンが選ばれます。

関連度スコアリング: 一致の強さで結果を並べ替え、「より関連の高い順」に出せる。
あいまい検索・表記ゆれ: タイプミス許容（ファジー）や同義語辞書、活用形の正規化に強い。
ファセット・集計: カテゴリ別の件数集計など、検索結果の絞り込み UI を作りやすい。
スケール: 大量の文書を複数ノードに分散し、検索負荷を横に広げられる。

検索エンジンは“正”ではなく“写し”として使う

専用エンジンを導入する際は、データの正本（マスター）は RDB に置いたまま、その内容を検索エンジンへ同期して 検索専用の写し として使う構成が一般的です。こうすると検索が落ちても本体データは無事ですし、索引の作り直しも安全に行えます。RDB と検索エンジンは置き換えではなく、役割分担で組み合わせるのが定石です。

全文検索は「全文を毎回読む」発想から「索引を引く」発想への転換です。転置インデックスという辞書さえ押さえれば、LIKE との違いも専用エンジンを足す理由も、すっきり腑に落ちるはずです。

全文検索