一、分类
1、精确率、精度(Precision)
精确率(precision)定义为:
它表示的是预测为正的样本中有多少是对的。
2、召回率(Recall)
R = TP/(TP+FN)
它表示的是样本中的正例有多少被预测正确了。
3、混淆矩阵(又叫做误差矩阵)
4、kappa系数
用于一致性检验,也可以用于衡量分类精度。越接近于1越好。
5、map(mean average precision)
MAP的计算步骤(eg.10类)
检测为例:
1.先把所有bounding box找出来 并加上confidence
2.然后每一类根据confidence从大到小排列
3.每个confidence算出其recall和precision得到每一类的ap曲线
4.取mean
具体来看
precision 和 recall 的计算:
图中上部分,左边一整个矩形中(false negative和true positive)的数表示ground truth之中为1的数据(即标签为正确的,有正确标签和错误),右边一整个矩形中的数表示ground truth之中为0的数据。
精度precision的计算:是用 检测正确的数据个数/总的检测个数。
召回率recall的计算:是用 检测正确的数据个数/ground truth之中所有正数据个数。
ground true:参考标准\标准答案\真实值,设定的一个正确的基准(标签)
AP:average precision
一共20个图像,20行,第一列是图像index(索引), 第二列是检测confidence(置信), 第三列是ground truth(标签)。根据confidence从大到小排列。
圆圈内(true positives + false positives)是我们选出的元素,它对应于分类任务中我们取出的结果,比如对测试样本在训练好的car模型上分类,我们想得到top-5的结果。
在这个例子中,true positives就是指第4和第2张图片,false positives就是指第13,19,6张图片。方框内圆圈外的元素(false negatives和true negatives)是相对于方框内的元素而言,在这个例子中,是指confidence score排在top-5之外的元素,其中,false negatives是指第9,16,7,20张图片,true negatives是指第1,18,5,15,10,17,12,14,8,11,3张图片。
那么,这个例子中Precision=2/5=40%,意思是对于car这一类别,我们选定了5个样本,其中正确的有2个,即准确率为40%;Recall=2/6=30%,意思是在所有测试样本中,共有6个car,但是因为我们只召回了2个,所以召回率为30%。
实际多类别分类任务中,我们通常不满足只通过top-5来衡量一个模型的好坏,而是需要知道从top-1到top-N(N是所有测试样本个数,本文中为20)对应的precision和recall。显然随着我们选定的样本越来也多,recall一定会越来越高,而precision整体上会呈下降趋势。把recall当成横坐标,precision当成纵坐标,即可得到常用的precision-recall曲线。
AP的计算
假设这N个样本中有M个正例,那么我们会得到M个recall值(1/M, 2/M, …, M/M),对于每个recall值r,我们可以计算出对应(r’ > r)的最大precision,然后对这M个precision值取平均即得到最后的AP值。计算方法如下:
相应的Precision-Recall曲线(这条曲线是单调递减的)
AP衡量的是学出来的模型在每个类别上的好坏,
mAP的计算
mAP衡量的是学出的模型在所有类别上的好坏,得到AP后
就是取所有AP的平均值。