モデル評価（精度・適合率・再現率）

正解率だけでは足りない

正解率（Accuracy）は「全体のうち正しく当てた割合」で直感的ですが、これだけに頼ると判断を誤ります。とくにクラスの偏りが大きい不均衡データでは危険です。

たとえば99%が陰性のデータで「常に陰性」と答えるモデルは、正解率99%になります。一見高性能ですが、見つけたい陽性を一つも検出できておらず役に立ちません。何を当てたいのかに応じた指標が必要です。

評価の出発点が混同行列です。予測と実際の組み合わせを4つに整理します。

	実際が陽性	実際が陰性
予測が陽性	TP（真陽性）	FP（偽陽性）
予測が陰性	FN（偽陰性）	TN（真陰性）

FP は「陽性と誤って判定」、FN は「陽性を見逃した」ケースです。多くの指標はこの4つの数から計算されます。

適合率（Precision）と再現率（Recall）は、見る角度が異なる指標です。

迷惑メール判定なら、重要メールを誤って弾かない適合率を重視します。病気のスクリーニングなら、見逃しを減らす再現率が重要です。目的によってどちらを優先するかが変わります。

適合率と再現率は多くの場合トレードオフの関係にあります。判定の閾値を厳しくすると適合率は上がりますが再現率は下がり、緩めると逆になります。

両者のバランスを一つの数値で見たいときは、調和平均である F1値を使います。

F1 = 2 × (適合率 × 再現率) / (適合率 + 再現率)

どちらか一方が極端に低いと F1 も低くなるため、偏りを見つけやすい指標です。

横にスクロール

閾値を緩めると見逃しが減り、厳しくすると誤検出が減ります。F1は両者を同じ重さでまとめますが、最終的な閾値は偽陽性と偽陰性の業務コストから決めます。

不均衡データの落とし穴

クラスが偏ったデータでは正解率が高く見えがちです。少数クラスを当てたい場合は、適合率・再現率・F1や、混同行列そのものを必ず確認してください。

代表的な指標と着眼点をまとめます。

評価は単一の数値で済ませず、目的に沿った複数の指標と混同行列を併せて見ることが大切です。まず「何を間違えると困るのか」を決めると、見るべき指標が自然に定まります。