TL

モデル評価(精度・適合率・再現率)

分類モデルの良し悪しは正解率だけでは測れません。混同行列をもとにした適合率・再現率・F1値の意味と、不均衡データでの落とし穴を整理します。

中級機械学習モデル評価適合率再現率最終更新: 2026-06-06
TL;DR要点だけ先に
  • 1.正解率(Accuracy)だけでは不均衡データで誤った安心につながります。
  • 2.混同行列からPrecision(適合率)とRecall(再現率)を計算します。
  • 3.両者はトレードオフの関係にあり、調和平均のF1値でバランスを見ます。

正解率だけでは足りない

正解率(Accuracy)は「全体のうち正しく当てた割合」で直感的ですが、これだけに頼ると判断を誤ります。とくにクラスの偏りが大きい不均衡データでは危険です。

たとえば99%が陰性のデータで「常に陰性」と答えるモデルは、正解率99%になります。一見高性能ですが、見つけたい陽性を一つも検出できておらず役に立ちません。何を当てたいのかに応じた指標が必要です。

混同行列

評価の出発点が混同行列です。予測と実際の組み合わせを4つに整理します。

実際が陽性実際が陰性
予測が陽性TP(真陽性)FP(偽陽性)
予測が陰性FN(偽陰性)TN(真陰性)

FP は「陽性と誤って判定」、FN は「陽性を見逃した」ケースです。多くの指標はこの4つの数から計算されます。

適合率と再現率

**適合率(Precision)再現率(Recall)**は、見る角度が異なる指標です。

  • 適合率 = TP / (TP + FP):陽性と予測したうち本当に陽性だった割合(誤検出の少なさ)
  • 再現率 = TP / (TP + FN):実際の陽性のうち拾えた割合(見逃しの少なさ)

迷惑メール判定なら、重要メールを誤って弾かない適合率を重視します。病気のスクリーニングなら、見逃しを減らす再現率が重要です。目的によってどちらを優先するかが変わります。

F1値とトレードオフ

適合率と再現率は多くの場合トレードオフの関係にあります。判定の閾値を厳しくすると適合率は上がりますが再現率は下がり、緩めると逆になります。

両者のバランスを一つの数値で見たいときは、調和平均である F1値を使います。

F1 = 2 × (適合率 × 再現率) / (適合率 + 再現率)

どちらか一方が極端に低いと F1 も低くなるため、偏りを見つけやすい指標です。

不均衡データの落とし穴

クラスが偏ったデータでは正解率が高く見えがちです。少数クラスを当てたい場合は、適合率・再現率・F1や、混同行列そのものを必ず確認してください。

指標の使い分け

代表的な指標と着眼点をまとめます。

指標計算の意味重視する場面
正解率全体の正答割合クラスが均衡している
適合率誤検出の少なさ誤った陽性が困る
再現率見逃しの少なさ見逃しが困る
F1値適合率と再現率の調和平均両者を両立したい

評価は単一の数値で済ませず、目的に沿った複数の指標と混同行列を併せて見ることが大切です。まず「何を間違えると困るのか」を決めると、見るべき指標が自然に定まります。

AI/機械学習 Article

モデル評価(精度・適合率・再現率)を実務で読む

TL;DRは入口です。実際に選ぶ・使う段階では、何を解決するか、何と比較するか、導入後にどこで詰まるかまで見る必要があります。

解決すること

機械学習

比較で見る軸

難易度: intermediate / カテゴリ: AI/機械学習 / タグ数: 4

導入後に効く点

混同行列からPrecision(適合率)とRecall(再現率)を計算します。

先に潰すリスク

用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。

数字・仕様の読み方
難易度
intermediate
カテゴリ
AI/機械学習
タグ数
4

判断チェックリスト

  • 自社の用途が「機械学習 / モデル評価」に近いか確認する。
  • 強みである「正解率(Accuracy)だけでは不均衡データで誤った安心につながります。」が本当に評価軸になるか確認する。
  • 注意点の「用語だけ覚えても、設計・実装・運用でどこに効くかを確認しないと判断を誤る。」を運用で吸収できるか確認する。
  • 公開値や仕様値は、対象プラン・対象機種・対象リージョンまで確認する。
  • 既存システム、ID、ネットワーク、監視、バックアップとの接続方法を先に洗い出す。
  • 小さく試してから、本番移行、権限設計、障害時手順、コスト監視を決める。

次に確認する観点

機械学習モデル評価適合率再現率機械学習モデル評価適合率再現率
参考: 公式情報