模型预测效果评价,通常用相对/绝对误差、平均绝对误差、均方误差、均方根误差等指标来衡量。
1)绝对误差与相对误差
设 表示实际值, 表示预测值,则称
有时相对误差也用百分数表示。
以上是一种直观的误差表示方法。
2)平均绝对误差(MeanAbsoluteError, MAE):
:平均绝对误差。
:第 个实际值与预测值的绝对误差。
:第 个实际值。
:第
3)均方误差(Mean Squared Error, MSE):
均方差用于还原平方失真度,它避免了正负误差不能相加的问题。由于对误差
4)均方根误差(Root Mean Squared Error,RMSE):
均方误差的平方根,代表了预测值的离散程度。最佳拟合情况为 。
5)平均绝对百分误差(Mean Absolute Percentage Error, MAPE):
一般认为
6) Kappa 统计
Kappa 统计是比较两个或多个观测者对同一事物,或观测者对同一事物的两次或多次观测结果是否一致,以由于机遇造成的一致性和实际观测的一致性之间的差别大小作为评价基础的统计指标。
Kappa 取值在 之间,其值大小均有不同意义。
Kappa = +1 说明两次判断的结果完全一致。
Kappa = -1 说明两次判断的结果完全不一致。
Kappa =0 说明两次判断的结果是机遇造成的。
Kappa < 0 说明一致程度比机遇造成的还差,两次检查结果很不一致,在实际应用中无意义。
Kappa >0 此时说明有意义,Kappa 越大,说明一致性越好。
Kappa >=0.75 说明已经取得相当满意的一致程度。
Kappa < 0.4 说明一致程度不够。
7)识别准确度(Accuracy):
:正确的肯定表示正确肯定的分类数。
:正确的否定表示正确否定的分类数。
:错误的肯定表示错误肯定的分类数。
:错误的否定表示错误否定的分类数。
8)识别精确率(Precision):
9)反馈率(Recall):
10)ROC 曲线(受试者工作特性,Receiver Operating CHaracteristic)
将灵敏度(Sensitivity)设在纵轴,1-特异性(1-Specificity)设在横轴,就可得出ROC曲线图。该曲线下的积分面积(Area)大小与每种方法优劣密切相关,反映分类器正确分类的统计概率,其值越接近 1 说明该算法效果越好。
11)混淆矩阵(Confusion Matrix):
混淆矩阵是模式识别领域中一种常用的表达形式。他描绘样本数据的真实属性与识别结果类型之间的关系,是评价分类器性能的一种常用方法。假设对于 类模式的分类任务,识别数据集 包括 个样本,每类模式分别含有 个数据。采用某种识别算法构造分类器 , 表示第 类模式被分类器 判断成第 类模式的数据占第 类模式样本总数的百分率,则可得到 维混淆矩阵 。
混淆矩阵中元素的行下标对应目标的真实属性,列下标对应分类器产生的识别属性。对角线元素表示各模式能够被分类器 正确识别的百分率,而非对角线元素则表示发生错误判断的百分率。
通过混淆矩阵,可以获得分类器的正确识别率和错误识别率。
各模式正确识别率:
平均正确识别率:
各模式错误识别率:
平均错误识别率:
对于一个二分类预测模型,分类结束后的混淆矩阵如下:
如有 个样本数据,这些数据分成
第 行数据说明有 个样本正确分类,有 个样本应该属于第 类,却错误分到了第二类,有
分类预测模型特点
不管是在 Scikit-Learn 还在 Kersa 中,建模的第一个步骤就是建立一个对象买这个对象是空白的,需要进一步训练的,然后我们要设置模型参数,接着就是通过 **fit( )方法对模型进行训练,最后通过 predict( ) 方法预测结果。当然,还有一些方法有助于我们完成对模型的评估,如score( )**等。