今天早上看了一下阈值的问题,后来来了ROC受试者工作特征,发现可以测试多组数据,然后得到每个阈值下的真正例(True positive)和假正例(False positive),发现可以用这个曲线进行统计从而得到每个阈值的情况下分类器的性能,并且进行拟合,最后找到这个均衡点,即ROC曲线与y=-x+1的交点,这样可以做到真正例最多,假正例最少。。。




ROC曲线


对于ROC曲线,其有一个很好的特性:当测试集中的正负样本的分布变换的时候,ROC曲线能够保持不变。在实际的数据集中经常会出现样本类不平衡,即正负样本比例差距较大,而且测试数据中的正负样本也可能随着时间变化。下图是ROC曲线和Presision-Recall曲线的对比:






a,c为ROC曲线,b,d为precision-recall曲线。(a)和(b)展示的是分类其在原始测试集(正负样本分布平衡)的结果,(c)(d)是将测试集中负样本的数量增加到原来的10倍后,分类器的结果,可以明显的看出,ROC曲线基本保持原貌,而Precision-Recall曲线变化较大。

而P-R曲线是precision-recall查准率-查重率曲线,其标准图为下图所示:



P-R曲线


在两个曲线的交点处取得最佳阈值。

下午开会结束回来,发现了一 个问题!随手打开之前写好的程序,想再看看效果,意想不到的事情出现了,居然运行不了了!main.o发生错误! 这是个什么鬼!

我查了一下,main.o是个目标文件,是二进制文件,在还没转换成exe前的一个目标文件。而这个错误又是个什么问题呢,貌似是编译器的路径问题,没有成功编译啊。后来回想起来,昨天一起的同学在电脑上好像在捣鼓什么编译器之类的,大概就是那个时候就弄出事了吧,这样还能转换回去吗。。。谁也不知道了。晚上尝试着修改了工程的pro文件和makefile文件,似乎也不能解决问题。

倒腾了一晚上想恢复回来,还是没有成功!明天只能继续了,是不是看我这几天没事干,上天给我加了一难。颇有种九九八十一难,还差一难的感觉。