• ROC曲线的意义
    (1)ROC曲线能很容易的查出任意阈值对学习器的泛化性能影响
    (2)有助于选择最佳的阈值。ROC曲线越靠近左上角,模型的准确性就越高。最靠近左上角的ROC曲线上的点是分类错误最少的最好阈值,其假正例和假反例总数最少
    (3)可以对不同的学习器比较性能。将各个学习器的ROC曲线绘制到同一坐标中,直观地鉴别优劣,靠近左上角的ROC曲所代表的学习器准确性最高
  • 该方法简单、直观、通过图示可观察分析学习器的准确性,并可用肉眼作出判断。ROC曲线将真正例率和假正例率以图示方法结合在一起,可准确反映某种学习器真正例率和假正例率的关系,是检测准确性的综合代表。ROC曲线不固定阈值,允许中间状态的存在,利于使用者结合专业知识,权衡漏诊与误诊的影响,选择一个更加的阈值作为诊断参考值
  • 如果两条ROC曲线没有相交,我们可以根据哪条曲线最靠近左上角哪条曲线代表的学习器性能就最好。但是在实际情况下若两条曲线发生交叉就难以判断哪个好,于是就出现了AUC
  • AUC(Area Under Curve):ROC曲线下方的面积大小,表预测的正例排在负例前面的概率,是一个评估模型,衡量学习器优劣性能指标的一种手段
  • 注意:
    (1)因为是在1x1的方格里求面积,AUC必在0~1之间。
    (2)假设阈值以上是阳性,以下是阴性;
    (3)若随机抽取一个阳性样本和一个阴性样本,分类器正确判断阳性样本的值高于阴性样本的概率 = AUC 。
    (4)简单说:AUC值越大的分类器,正确率越高。
  • 从AUC 判断分类器(预测模型)优劣的标准:

数值范围

性能

AUC = 1

完美分类器

AUC = [0.85, 0.95]

效果很好

AUC = [0.7, 0.85]

效果一般

AUC = [0.5, 0.7]

效果较低,但用于预测股票已经很不错了

AUC = 0.5

跟随机猜测一样,模型没有预测价值

AUC < 0.5

比随机猜测还差;但只要总是反预测而行,就优于随机猜测