优化基础模型

(1) 训练均方误差与测试均方误差:
在回归中,我们最常用的评价指标为均方误差,即: 𝑀𝑆𝐸
当我们的模型的训练均方误差达到很小时,测试均方误差反而很大,但是我们寻找的最优的模型是测试均方误差达到最小时对应的模型,因此基于训练均方误差达到最小选择模型本质上是行不同的。
一般会出现以下情况

  • 如果训练误差远小于测试误差,说明模型已经过拟合了,考虑如何避免过拟合。
  • 如果训练误差和测试误差差不多,但是测试误差太大,说明模型复杂度很可能不够。

(2) 偏差-方差
偏差:为了选择一个简单的模型去估计真实函数所带入的误差。
偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力。偏差度量的是单个模型的学习能力,而方差度量的是同一个模型在不同数据集上的稳定性。
我们的测试均方误差的期望值可以分解为 𝑓̂ (𝑥0) 的方差、 𝑓̂ (𝑥0) 的偏差平方和误差项 𝜖 的方差。
一般来说,模型的复杂度越高,f的方差就会越大,但是会减少模型的偏差,我们要找到一个方差–偏差的权衡。
(3) 特征提取

  • 对测试误差进行估计

(a)训练误差修正:
当我们的训练误差随着特征个数的增加而减少时,惩罚项因为特征数量的增加而增大,抑制了训练误差随着特征个数的增加而无休止地减小。
(b)交叉验证:
交叉验证是对测试误差的直接估计。
以K折交叉验证为例:把训练样本分成K等分,然后用K-1个样本集当做训练集,剩下的一份样本集为验证集去估计由K-1个样本集得到的模型的精度,这个过程重复K次取平均值得到测试误差的一个估计值。

  • 特征选择
    (a)最优子集选择:
    (i) 记不含任何特征的模型为 𝑀0 ,计算这个 𝑀0 的测试误差。
    (ii) 在 𝑀0 基础上增加一个变量,计算p个模型的RSS,选择RSS最小的模型记作 𝑀1 ,并计算该模型 𝑀1 的测试误差。
    (iii) 再增加变量,计算p-1个模型的RSS,并选择RSS最小的模型记作 𝑀2 ,并计算该模型 𝑀2 的测试误差。
    (iv) 重复以上过程知道拟合的模型有p个特征为止,并选择p+1个模型 {𝑀0,𝑀1,…,𝑀𝑝} 中测试误差最小的模型作为最优模型。
    (b)向前逐步选择:
    最优子集选择虽然在原理上很直观,但是随着数据特征维度p的增加,子集的数量为 2𝑝 ,计算效率非常低下且需要的计算内存也很高,在大数据的背景下显然不适用。因此,我们需要把最优子集选择的运算效率提高,因此向前逐步选择算法的过程如下:
    (i) 记不含任何特征的模型为 𝑀0 ,计算这个 𝑀0 的测试误差。
    (ii) 在 𝑀0 基础上增加一个变量,计算p个模型的RSS,选择RSS最小的模型记作 𝑀1 ,并计算该模型 𝑀1 的测试误差。
    (iii) 在最小的RSS模型下继续增加一个变量,选择RSS最小的模型记作 𝑀2 ,并计算该模型 𝑀2 的测试误差。
    (iv) 以此类推,重复以上过程知道拟合的模型有p个特征为止,并选择p+1个模型 {𝑀0,𝑀1,…,𝑀𝑝} 中测试误差最小的模型作为最优模型。
    (4)压缩估计(正则化):
    正则化就是对最小化经验误差函数上加约束,这样的约束可以解释为先验知识(正则化参数等价于对参数引入先验分布)。约束有引导作用,在优化误差函数的时候倾向于选择满足约束的梯度减少的方向,使最终的解倾向于符合先验知识(如一般的l-norm先验,表示原问题更可能是比较简单的,这样的优化倾向于产生参数值量级小的解,一般对应于稀疏参数的平滑解)。
    同时,正则化解决了逆问题的不适定性,产生的解是存在,唯一同时也依赖于数据的,噪声对不适定的影响就弱,解就不会过拟合,而且如果先验(正则化)合适,则解就倾向于是符合真解(更不会过拟合了),即使训练集中彼此间不相关的样本数很少。
    简单来说,正则化是一种为了减小测试误差的行为(有时候会增加训练误差)。
    (5) 降维
  • 主成分分析(PCA):

通过最大投影方差 将原始空间进行重构,即由特征相关重构为无关,即落在某个方向上的点(投影)的方差最大。