遥感图像的分类解译结果往往需要一定的精度评价指标进行精度验证,只有进行精度验证,我们才能知道分类解译的结果是否准确可靠。

Kappa系数就经常被用于影像分类的空间一致性检验,是一种衡量分类精度的指标。

Section 1:Kappa系数的概念

Kappa系数是一个用于一致性检验的指标,也可以用于衡量分类的效果。

在分类问题中,一致性就是指模型的预测结果和实际分类结果是否一致。

Kappa系数的计算是基于混淆矩阵的,取值为-1到1之间,通常大于0。

基于混淆矩阵的Kappa系数计算公式如下:

怎样针对kappa架构数据不准确性进行优化 kappa数据分析_混淆矩阵

其中:

怎样针对kappa架构数据不准确性进行优化 kappa数据分析_数据集_02

P0实际上就是准确率(Accuracy)

怎样针对kappa架构数据不准确性进行优化 kappa数据分析_深度学习_03

 即所有类别分别对应的“实际数量与预测数量的乘积”之和,除以“样本总数的平方”。

Section 2:为什么要使用Kappa系数

在分类问题中,最常见的评价指标是准确率(Accuracy),准确率能直接反应分类正确的比例,同时准确率的计算非常简单。

但是在实际的分类问题数据集中,各个类别的样本数量往往不太平衡。

对于这种存在类别不平衡问题的数据集,如果不加以调整,模型很容易偏向大类别而放弃小类别。

例如:数据集中正负样本比例为1:9,即使模型直接全部预测为负,准确率(Accuracy)也有90%,但这样正样本就完全被抛弃了。

虽然此时整体的准确率(Accuracy)很高,但是部分类别完全不能被召回。

这时就需要一种能够惩罚模型的“偏向性”的指标来代替准确率(Accuracy)。

而根据Kappa系数的计算公式,越不平衡的混淆矩阵,pe越高,Kappa值就越低,正好可以给“偏向性”强的模型打低分。

Section 3:Kappa系数计算示例

混淆矩阵:

怎样针对kappa架构数据不准确性进行优化 kappa数据分析_混淆矩阵_04

 

怎样针对kappa架构数据不准确性进行优化 kappa数据分析_混淆矩阵_05

 

Section 4:Kappa系数的指标解释

Kappa系数的计算结果位于[-1,1],但通常Kappa系数是落在[0,1]之间。

Kappa系数的结果可以分为五组来表示不同级别的一致性:

  • 0.00到0.20:极低的一致性(Slight)
  • 0.21到0.40:一般的一致性(Fair)
  • 0.41到0.60:中等的一致性(Moderate)
  • 0.61到0.80:高度的一致性(Substantial)
  • 0.81到1.00:几乎完全一致(Almost Perfect)

Link:

https://zhuanlan.zhihu.com/p/67844308

Section 5:混淆矩阵

混淆矩阵(Confusion Matrix)又称误差矩阵(Error Matrix),是ROC曲线绘制的基础,同时它也是衡量分类模型准确度中最基本,最直观,计算最简单的方法。

混淆矩阵的简单解释就是:分别统计分类模型归错类,归对类的观测值个数,然后把结果放在一个表里展示出来,这个表就是混淆矩阵。

怎样针对kappa架构数据不准确性进行优化 kappa数据分析_数据集_06

Link: