分类于预测算法评价

  • 分类与预测模型对训练集进行预测而得出得准确率并不能很好得反映预测模型未来得性能,为了有效判断一个预测模型得性能表现,需要一组没有参与预测模型建立得数据集并在该数据集上评价预测模型得准确率,这组独立耳朵数据集叫做测试集,模型预测效果评价,通常用相对绝对误差,平均绝对误差,均方误差,均方根误差来衡量.
  1. 绝对误差与相对误差
  • 设Y表示实际值, Ý表示预测值, 则称E为绝对误差,计算公式如下:
  • Ε = Y - Ý
  • e为相对误差, 计算公式如下
  • e = (Y - Ý) / Y
  • 有时也可以用误差百分数来表示
  • e = (Y - Ý) / Y * 100%
  • 这是一种直观得误差表示方法
  1. 平均绝对误差
  • 平均绝对误差定义如下:
  • MAE = 1/n ∑nn=1i| = 1/n ∑i=1n | Υi - Ýi|
  • 公式中含义如下:
  • MAE : 平均绝对误差
  • Ei : 第i个实际值与预测值得绝对误差
  • Yi : 第i各实际值
  • Ýi : 第i各预测值
  • 由于预测误差有正有负,为了避免正负向抵消,故取误差绝对值进行综合并取其平均数,这是误差分析得综合指标法之一
  1. 均方误差
  • 均方误差定义如下:
  • MSE = 1/n∑ni=1Ε2i = 1/n∑nn=1i - Ýi)2
  • 上式中,MSE表示均方差,其他符号同前, 本方法用于还原平方失真程度
  • 均方误差是预测误差平方之和得平均数, 它避免了正负误差不能相加得问题,由于对误差E进行了平方,加强了数值大得误差在指标中得作用,从而提高了这个指标得灵敏度,十一大优点,均方误差是误差分析得综合指标法之一.
  1. 均方根误差
  • 均方根误差定义如下:
  • RMSE = (1/n∑ni=1Ε2i)1/2 = (1/n∑ni=1i - Ýi)2)1/2
  • 上式中, RMSE表示均方根误差, 其他符号同前,这是均方误差得平方根,代表了预测值得离散程度, 也称为标准误差,最佳拟合情况为RMSE = 0.均方根误差也是误差分析得综合指标之一
  1. 平均绝对百分误差
  • 品骏绝对误差定义如下:
  • MAPE = 1/n∑ni=1 | Εi / Υi |  = 1/n ∑nn=1 | (Υi - Ýi) / Υi |
  • 上式中, MAPE表示平均绝对百分误差,一般认为认为MAPE小于10时, 预测精度较高
  1. Kappa统计
  • Kappa统计式比较两个或多个观测者对同一事物,或观测者对同一事物的两次或多次观测结果是否一致, 以由于机遇造成的一致性和实际观测的一致性之间的差别大小作为评价基础的统计指标, Kappa统计量和加权Kappa统计量不仅可以用于无序和有序分类变量资料的一致性, 重现性检验, 而且能给出一个反映一致大小的"量"值.
  • Kappa取值在[-1, 1]之间, 其值的大小均有不同意义
  • Kappa = +1 说明两次判断结果完全一致
  • Kappa = -1 说明两次判断的结果完全不一致
  • Kappa = 0 说明两次判断的结果式基于造成
  • Kappa < 0 说明一致程度比机遇造成的还差, 两次检查结果很不一致, 在实际应用中无意义
  • Kappa > 0 说明有意义, Kappa越大, 说明一致性很好
  • Kappa >= 0.75 说明已经取得相当满意的一致程度
  • Kappa < 0.4 说明一致程度不够
  • 识别准确度
  1. 识别准确度定义如下:
  • Accuracy = (TP + FN) / (TP + TN + FP + FN) * 100%
  • TP (True Positives): 正确的肯定表示正确肯定的分类数.
  • TN (True Negatives): 正确的否定表示正确否定的分类数.
  • FP (False Positives): 错误的肯定表示错误肯定的分类数.
  • FN (False Negatives): 错误的否定表示错误否定的分类数 .
  1. 识别精准率
  • 是呗精准率如下:
  • Precision = TP / (TP + FP) * 100%
  1. 反馈率:
  • 反馈率定义如下
  • ec  all = TP / (TP + FP) * 100%
  1. ROC曲线
  • 受试者工作特性曲线是一种非常有效的模型评价方式,可为选定临界值给出定量提示.将灵敏度,设在纵轴, 1-特异性,设在横轴, 就可以得出ROC曲线图,该曲线下的积分面积大小,与每种方法优劣密切相关,反映分类器正确的统计概率,其值越接近1说明该宣发效果越好.
  1. 混淆矩阵
  • 混淆矩阵式模式识别领域中一种常用的表达形式,它描绘样本数据的真实属性与识别结果类型证件的关系,式评价分类器性能的一种常用方法,假设对于N类模式的分类任务,识别数据集D包括T0个样本,每类模式分别含有Ti个数据(i=1,...,N).采用某种识别计算法构造分类器C,cmij表示第i类模式被分类器C判断成第j类模式的数据占第i类模式样本总数的百分率,则可疑得到NxN维混淆矩阵.
  • CM(CD) =  cm11 cm12 ... cm1i ... cm1n
    cm21 cm22 ... cm2i ... cm2n
    cmi1 cmi2 ... cmii ... cmin
    cmn1 cmn2 ... cmni ... cmnn
  • 混淆矩阵中元素的行下标对应目标的真实属性,列下标对应分类器产生的识别属性,对角线元素表示各模式能够被分类器C正确识别的百分率,而非对角线元素则表示发生错误判断的百分率
  • 通过混淆矩阵,剋获得分类器的正确识别率和错误识别率
  • 各模式正确识别率:
  • Ri = cmii, i = 1,...,N
  • 平均正确识别率:
  • Ra = ∑(cmii • Τi) / Τ0
  • 各模式错误识别率:
  • Wi = ∑nj=1,j≠i cmij = 1 - cmij = 1 - Ri
  • 平均错误识别率:
  • Wa = ∑ni=1nj=1,j≠i(cmij • Ti)/T0 = 1 - Ra
  • 对于一个二分类预测模型, 分类结束后的混淆矩阵如下:

混淆矩阵

预测类

类 = 1

类= 0

实际类

类 = 1

A

B

类 = 0

C

D

  • 如有150个样本数据,这些数据分成3类,每类50个,分类结束后得到的混淆矩阵如下:

43

5

2

0

1

49

2

45

3

  • 第一行的数据说明有43个样本正确分类,有5个样本应该属于第一类,却错误分到了第二类,有2个样本应该属于第一类,却错误的分到第三类.