mikemoke blog

ビジネスに関心があるデータ解析系さらりーまん。データ解析・ビジネス・エンジニアリングについての知見を纏めています。

ROC分析とPrecision-Recall分析の使い分け

結論

主にROC分析を利用する。
Positive群よりNegative群が著しく大きい場合や、Positive群の検出が重要な場合については、Precision-Recallを利用する。

なんで?

Precision-Recall分析はPositive群検出に秀でているため、この特性が求められるときはPrecision-Recall分析を行う。

ROC分析の場合

f:id:mikemoke:20180909235639p:plain
{\displaystyle     TPR=\frac{TP}{TP+FN}     }    {\displaystyle     FPR=\frac{FP}{FP+TN}     }

Positive群の検出感度と、Negative群の検出感度による分析。
Positive判定の閾値の変化によってTP→FN,FP→TNへとデータが移行し、TPRとFPRのトレードオフが発生する。ROCではこれを分析・可視化が可能。
同一の現象において、複数の指標の判別精度の比較評価他したり、偽陽性率を考慮しながら感度の調整が実施可能。
弱点として、Negative群のデータが多い場合、FPの数が増加することでPrecisionが低下した場合においても、FPRの変化が小さくなり気づきにくい。

Precision-Recall分析の場合

f:id:mikemoke:20180909235648p:plain
{\displaystyle     Precision=\frac{TP}{TP+FP}     }    {\displaystyle     Recall=\frac{TP}{TP+FN}     }

Positive群の正答率と検出感度による分析。
Positive判定の閾値の変化によってTP→FN,FP→TNへとデータが移行し、PrecisionとRecallのトレードオフが発生する。Precision-Recallではこれを分析・可視化が可能。
正答率とPositive群の検出感度に重点を置くことで、Positive群に対してなんらかの介入をする時などの性能評価しやすい。
一方でTNを無視しており、偽陽性率・特異度を考慮しないため、Negative群に対して介入する時などの性能評価が難しそう。