一、ROC曲线

ROC曲线(Receiver Operating Characteristic),是一个二维的曲线图,横坐标是FPR(即实际为负例样本,被错误判断为正例的比率),纵坐标TPR(即实际为正例样本,被正确判断为正例的比率)。ROC是怎么画出来的?遍历所有的概率值,例如取概率大于0.7的判断为正例,小于0.7的判断为负例,对应可以算出一组(FPR,TPR),阈值最大时,对应坐标点为(0,0),阈值最小时,对应坐标点(1,1)。曲线距离左上角越近,证明模型效果越好。如下图红线。

roc 曲线 阈值 threshold roc曲线最佳阈值_正例


主要作用:

  1. ROC曲线能很容易的查出任意阈值对学习器的泛化性能影响。
  2. 有助于选择最佳的阈值(即界定正负样本的概率)。ROC曲线越靠近左上角,模型的查全率就越高。最靠近左上角的ROC曲线上的点是分类错误最少的最好阈值,其假正例和假反例总数最少。
  3. 可以对不同的学习器比较性能。将各个学习器的ROC曲线绘制到同一坐标中,直观地鉴别优劣,靠近左上角的ROC曲所代表的学习器准确性最高。

ROC曲线用在多分类中是没有意义的。只有在二分类中Positive和Negative同等重要时候,适合用ROC曲线评价。如果确实需要在多分类问题中用ROC曲线的话,可以转化为多个“一对多”的问题。即把其中一个当作正例,其余当作负例来看待,画出多个ROC曲线。
参考来源:

二、AUC值

ROC只能通过图形判断,AUC则是用标量来衡量ROC的值。AUC值为ROC曲线所覆盖的区域面积,显然,AUC越大,分类器分类效果越好。

当AUC=1,这个分类器可以完美的分类,但是这个是不存在;

当0.5<AUC<1,比随机猜测好,设定好的阈值,预测价值会高;

当AUC=0.5时,模型没有预测价值;

当AUC<0.5时,比随机猜测差,可以反过来预测;

AUC值是一个概率值,即当你随机挑选一个正样本以及负样本,根据算法计算出来的概率得分值score,判断这个两个样本为正样本的概率就是AUC值。

AUC计算的三种方法:

1、根据ROC曲线,计算它的面积,即得到该算法的AUC值,AUC越大说明模型越好;

2、统计一下所有的 M×N(M为正类样本的数目,N为负类样本的数目)个正负样本对中,有多少个组中的正样本的score大于负样本的score。当二元组中正负样本的score相等的时候,按照0.5计算(大于0.5则是正样本,反之负样本)。然后除以M*N。实现这个方法的复杂度为O(n^2)。n为样本数(即n=M+N)

3、首先对概率得分从大到小排序,最大score有n-1组样本组合,在n-1样本组中有M-1个正样本组合需要减去,令最大score对应的样本的rank为n(实际n-1组),需要减去的正样本组合为M(实际M-1组),第二大score对应样本的rank为n-1,需要减去的正样本组合为M-1,其中以此类推。然后把所有的正类样本的rank相加,再减去M-1种两个正样本组合的情况。得到的就是所有的样本中有多少对正类样本的score大于负类样本的score。然后再除以M×N 。时间复杂度为O(N+M)。

roc 曲线 阈值 threshold roc曲线最佳阈值_roc 曲线 阈值 threshold_02

三、KS曲线

KS曲线和ROC曲线类似,KS值是KS图中两条线之间最大的距离,其可以判断分类器的划分能力。模型输出一般为概率,我们会设定一个阈值来界定发生与不发生,比如50%以上表示发生,50%一下表示不发生。这个阈值就是KS曲线的横轴。

KS的纵轴分别表示FPR(红线)、TPR(绿线)与TPR与FPR的距离。从下图可以看出,当阈值为0.41的时候,差距最大及粉色线的顶点。

roc 曲线 阈值 threshold roc曲线最佳阈值_复杂度_03