モデル評価(精度・適合率・再現率)
分類モデルの良し悪しは正解率だけでは測れません。混同行列をもとにした適合率・再現率・F1値の意味と、不均衡データでの落とし穴を整理します。
- 1.正解率(Accuracy)だけでは不均衡データで誤った安心につながります。
- 2.混同行列からPrecision(適合率)とRecall(再現率)を計算します。
- 3.両者はトレードオフの関係にあり、調和平均のF1値でバランスを見ます。
正解率だけでは足りない
正解率(Accuracy)は「全体のうち正しく当てた割合」で直感的ですが、これだけに頼ると判断を誤ります。とくにクラスの偏りが大きい不均衡データでは危険です。
たとえば99%が陰性のデータで「常に陰性」と答えるモデルは、正解率99%になります。一見高性能ですが、見つけたい陽性を一つも検出できておらず役に立ちません。何を当てたいのかに応じた指標が必要です。
混同行列
評価の出発点が混同行列です。予測と実際の組み合わせを4つに整理します。
| 実際が陽性 | 実際が陰性 | |
|---|---|---|
| 予測が陽性 | TP(真陽性) | FP(偽陽性) |
| 予測が陰性 | FN(偽陰性) | TN(真陰性) |
FP は「陽性と誤って判定」、FN は「陽性を見逃した」ケースです。多くの指標はこの4つの数から計算されます。
適合率と再現率
**適合率(Precision)と再現率(Recall)**は、見る角度が異なる指標です。
- 適合率 =
TP / (TP + FP):陽性と予測したうち本当に陽性だった割合(誤検出の少なさ) - 再現率 =
TP / (TP + FN):実際の陽性のうち拾えた割合(見逃しの少なさ)
迷惑メール判定なら、重要メールを誤って弾かない適合率を重視します。病気のスクリーニングなら、見逃しを減らす再現率が重要です。目的によってどちらを優先するかが変わります。
F1値とトレードオフ
適合率と再現率は多くの場合トレードオフの関係にあります。判定の閾値を厳しくすると適合率は上がりますが再現率は下がり、緩めると逆になります。
両者のバランスを一つの数値で見たいときは、調和平均である F1値を使います。
F1 = 2 × (適合率 × 再現率) / (適合率 + 再現率)
どちらか一方が極端に低いと F1 も低くなるため、偏りを見つけやすい指標です。
クラスが偏ったデータでは正解率が高く見えがちです。少数クラスを当てたい場合は、適合率・再現率・F1や、混同行列そのものを必ず確認してください。
指標の使い分け
代表的な指標と着眼点をまとめます。
| 指標 | 計算の意味 | 重視する場面 |
|---|---|---|
| 正解率 | 全体の正答割合 | クラスが均衡している |
| 適合率 | 誤検出の少なさ | 誤った陽性が困る |
| 再現率 | 見逃しの少なさ | 見逃しが困る |
| F1値 | 適合率と再現率の調和平均 | 両者を両立したい |
評価は単一の数値で済ませず、目的に沿った複数の指標と混同行列を併せて見ることが大切です。まず「何を間違えると困るのか」を決めると、見るべき指標が自然に定まります。
AI/機械学習 Article
モデル評価(精度・適合率・再現率)を実務で読む
TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。
解決すること
機械学習
比較で見る軸
難易度: intermediate / カテゴリ: AI/機械学習 / タグ数: 4
導入後に効く点
混同行列からPrecision(適合率)とRecall(再現率)を計算します。
先に潰すリスク
用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。
- 難易度
- intermediate
- カテゴリ
- AI/機械学習
- タグ数
- 4
判断チェックリスト
- 自社の用途が「機械学習 / モデル評価」に近いか確認する。
- 強みである「正解率(Accuracy)だけでは不均衡データで誤った安心につながります。」が本当に評価軸になるか確認する。
- 注意点の「用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。」を運用で吸収できるか確認する。
- 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
- 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
- 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。