指标
混淆矩阵¶
真阳率(True positive): \(TP_{r} = \frac{TP}{(TP+FN)}\) 真正的1中,被预测为1的比例
假阳率(False positive):\(FP_{r} = \frac{FP}{(FP+TN)}\) 真正的0中,被预测为1的比例
精确率(Precision):\(Precision = \frac{TP}{(TP+FP)}\) 预测出来的1中,真正为1的比例
召回率(Recall):\(Recall = \frac{TP}{(TP+FN)}\) 真正的1中,被预测为1的比例
准确率(Accuracy):\(Accuracy = \frac{(TP+TN)}{(TP+FN+FP+TN)}\) 所有样本中能被正确识别为0或者1的概率
F1 Score¶
人们通常用精准率和召回率这两个指标,来评价二分类模型的分析效果。
但是当这两个指标发生冲突时,我们就很难进行判断,因此使用 调和平均数。
\[
F_1 = 2 \cdot \frac{precision \cdot recall}{precision + recall}
\]
Reveiver Operating Characteristic¶
因为预测出来的评分需要有一个阈值,才能把他划分为1或者0。
一个阈值对应一组(TPR, FPR),多个阈值就能够得到多组(TPR, FPR),就能得到 ROC曲线。我们希望一组(TPR, FPR)中,TPR越大越好,FPR越小越好。
Area Under the Curve¶
就是ROC曲线下的面积。