统计学习(2.2)-评价模型精度
❝ 在统计学中没有免费的午餐:没有任何算法能在各种数据集中完胜其他所有的算法。
❞
不同的统计学习方法对不同的数据集有不同的效果,为了评价模型的表现,需要一些方法评估模型的预测结果
与实际数据在结果上
的一致性。
1. 拟合效果检验
均方误差(Mean Squared Error)
评价准则:
- 如果「predicted response」与「true response」很接近,那么MSE会很小;如果二者存在实质上的差别,则MSE会非常大
通过用来拟合模型的训练数据集计算的「training MSE」
- 我们更应该关心将模型用于「test data」会获得怎样的预测精度
- 原因:根据过去六个月的股票(train)收益去建立模型预测未来股票(test)的价格,我们只希望今天的预测结果和明天的真实结果很接近!
通过对训练数据集中的观测值拟合不同模型
计算新的测试数据集的MSE,选择MSE最小的模型
不能选择训练集中MSE最小的模型
一个模型的「training MSE」最小无法保证「test MSE」最小!
- 过拟合:当光滑度水平「the level of flexibility」增加时,拟合的曲线与训练集中实际观测的数据更接近「small training MSE」却产生了较大的「test MSE」
TOO HARD to find patterns in the training data, and may be picking up some patterns that are just caused by RANDOM chance rather by TRUE properties of the unknown function
. And because the supposed patterns that the method found in the training data simply don't exist in the test data, the test MSE may be very large
❞
2. 方差-偏差权衡(variance-bias)
「方差」:用一个不同的训练数据集估计
时,估计函数的改变量
- 如果一个模型有较大的方差,那么训练数据集微小的变化会导致 较大的改变
- 光滑度越高的统计模型有更高的方差(过拟合),因为改变训练集任何一个数据点将会使最后训练的估计函数有相当大的变化
- 光滑度小的(线性回归)方差较小,当移动某一个观测值只会引起拟合线位置的少许变化
「偏差」:选择一个简单的模型逼近真实函数而被带入的误差
- 真实世界很少有简单的线性关系,因此尝试简单的光滑度低的线性回归模型一定会有一些偏差
- 一般而言,使用光滑度更高的方法,所得的模型方差会增加,偏差会减少,偏差减少的
是模型的期望测试均方误差
- 选择一个拥有最小的方差和最小的偏差的模型,需要权衡(tradeoff):
- 小偏差大方差: 画一条通过所有训练数据点的曲线;
- 小方差大偏差: 直接对一切数据套线性回归
3. 分类模型
在分类问题中,最常用的量化估计
精度的方法是训练错误率,即对训练数据使用模型所得到的误差比例:
The Bayes Classifier
将每一个观测值分类到概率最大的类别中:
to the class
for which conditional probability
is largest
❞
贝叶斯分类器输出最低的「test error rate」,因为贝叶斯分类器总是选择每个点条件概率最大的类别
- 在 的错误率是:
- 因为真实情况中某些 同属于两个类别,因此必然有 小于1,整体的贝叶斯错误率为: where the expectation averages the probability over all possible values of
K-Nearest Neighbors
在真实数据中,并不知道给定
之后
的条件分布,所以很难计算贝叶斯分类器
KNN通过「估计」条件概率分布,然后将一个观测值
分类到估计分布概率最大的类别中:
- KNN分类器首先识别最靠近 的K个数据点集合
- 然后对每个类别j估计条件概率
- 最后对KNN方法运用贝叶斯规则将测试观测值 分类概率最大的类别中
- KNN可以接近于贝叶斯(K=10),无需知道真实的条件概率,但测试误差仍然存在。
「K的选择」
K=1时,决策边界很不规则,偏差低但方差大。K增加,模型但光滑性降低,从而得到一个接近线性但决策边界,方差低但偏差大
正如回归中,KNN的训练错误率和测试错误率并没有确定的关系
- K=1时,KNN的训练错误率为0但测试错误率也许很高
- 使用光滑度高的分类方法(降低K值)可以减小训练错误率,但测试错误率未必会降低(U-shape),先减(Optimal K=10)后增是因为过拟合和过度光滑
4. 总结
无论是回归还是分类建模,选择「optimal level of flexibility」非常重要。然而「the bias-variance tradeoff」和「resulting U-shape in the test error」是需要解决的问题……