模型评价:分类模型的常用评价指标
1) 基本指标:误差率
指标解释:错分类样本占总样本的比例
2) 基本指标:准确率
指标解释:正确分类样本占总样本的比例
指标解读:准确率越接近1,模型越准确
3) 混淆矩阵(二分类问题
)
4) 衍生指标:查准率(precision)
指标解释:所有真正例占所有预测为正的样本的比例(TP/(TP+FP)
)
指标举例:在商品推荐的过程中,我们会关心所有推荐给用户的商品(预测为正)中有多少是客户真正喜欢的(真正例)
5) 衍生指标:查全率(recall)
指标解释:所有真正例占所有真实为正的样本的比例(TP/(TP+FN)
)
指标举例:在银行用户风险识别中,我们会关心,所有有风险的用户,有多少能被我们的模型识别出来
6) 其他指标:ROC曲线与AUC值
ROC曲线:以真正例比率为纵轴、假正例率为横轴,采用不同的截断点,来绘制ROC曲线
AUC值:ROC曲线与坐标轴构成的图形面积
指标解读:auc指标越接近1
,则代表模型准确率越高
,auc值等于0.5,代表模型准确率与随机猜测准确率一致,auc值小于0.5:模型效果不如随机猜测
使用sklearn查看回归模型的各项指标
由于这里是分类问题,那么指标就不再是之前的数值指标,而应该是类型指标,这里按照平均价格的中位数来进行房价高低的划分,其他的和上一个回归模型的处理是一致的,都需要先处理掉共线数据
1) 加载数据并对数据进行处理
–> 输出的结果为:
2) 划分数据集
–> 输出的结果为:(和之前的不同就是在于这里的y值)
3) 建立分类模型
使用pipeline整合数据处理、特征筛选与模型
–> 输出的结果为:(回归选择的逻辑回归,惩罚系数选择L1
,相当于是逻辑回归版本的lasso
模型)
4) 查看模型表现
–> 输出的结果为:(全部的指标都可以调用sklearn的模块)