本文主要以线性回归为切入点,分析了过拟合出现的原因以及正则化的理解,并从MLE和MAP两个方面重新对线性回归进行了求解,揭示了MLE,MAP与正则化之间的关系。

一、最小二乘的简要回顾

假设输入空间为:

\(x_{m \times n} = (x_{1}, x_{2},...,x_{i},...,x_{m})^T\)

那么每个输入向量的特征维度为\(n\),相应地,训练样本表示为:

\(T=((x_{1}, y_{1}),(x_{2}, y_{2}),...,(x_{m}, y_{m}))\)

我们的目的就是找到一组参数\(w_{n \times 1}=(w_{1}, w_{2},..., w_{n})\),使输入向量与\(w\)的线性组合能够尽可能地拟合输出\(y\),于是模型可以定义为:
\(xw = y\)

于是根据上篇文章定义的\(L_{2}\)损失函数,模型的经验风险Loss可以定义为:

\(Loss = \dfrac{1}{2} \sum (y_{i}-x_{i}w)^{2} = \dfrac{1}{2} (y-xw)^{2}\)

于是参数的求解就转化成最小化\(Loss\),因此\(Loss\)对\(w\)求导,便可取得极小值。

\(\dfrac{\partial Loss}{\partial w} = \dfrac{\partial (y-xw)^{T}(y-xw)}{\partial w} = 2x^{T}(xw-y) = 0\)

因此,解得\(w = (x^{T}x)^{-1}x^{T}y\)

然而,当\(x^{T}x\)不可逆时,则不存在唯一的解析解,反映到机器学习中就是过拟合。从图像去噪来考虑,输入的带噪声图像可以展开成一个\(hw \times 1\)的向量,通过神经网络来拟合对应清晰图像每一个像素位置的值,那么所学到的参数矩阵可以简单地定义为\(\theta_{1 \times hw}\),以线性回归的视角得到参数\(\theta\)的解析解为:

\(\theta_{1 \times hw} = (xx^{T})^{-1}xy^{T}\)

若\(xx^{T}\)不为满秩,则不存在逆。由于深度学习需要大量的外部图像样本不断学习参数\(\theta\),相当于网络在求解这\(n\)多个非线性方程组。若方程组的个数小于特征的维度,那么得到的解的假设空间也就越多,在\(Loss\)的约束下很容易学到过拟合的解。解决这一问题的根本办法就是使样本个数远大于特征维度,这样就可以约束解空间,更容易得到较好的模型。要达到这种效果有很多:

1)增加样本数(数据增广等)2)减少特征个数(dropout,PCA降维等)3)加正则化进行约束

正则化通过使模型中某些参数为0从而降低模型参数复杂度,从广义上讲也属于第二种降低过拟合的方法。通常,\(L_{1}\)范数会使得模型参数变得稀疏,\(L_{2}\)范数能够使模型参数集中分布在0附近,因此都能实现参数\(w\)的降维。

在最小二乘法中加入\(L_{2}\)正则化项对参数\(w\)进行约束后,得到结构风险的表达式:

\(Loss = \dfrac{1}{2} \sum (y_{i}-x_{i}w)^{2} + \lambda w^{T}w= \dfrac{1}{2} (y-xw)^{2} + \lambda w^{T}w\)

同理,可得:

\(\dfrac{\partial Loss}{\partial w} = 2(x^{T}x+\lambda I)-2x^{T}y = 0\)
解得:\(w = (x^{T}x+\lambda I)^{-1}x^{T}y\)

关于矩阵求导的相关知识,请移步下一篇文章。

二、从概率的角度来理解最小二乘估计

统计学习中,拟合的误差分为可减少误差(reducible error)与不可减少误差(irreducible error)。可减少误差可以通过提出更合适的模型来减少,而由于数据本身存在一定的扰动,会受到其他非客观因素的影响,导致观测样本会有一些波动,这些波动导致所提出的模型无法准确无误地进行拟合,产生的误差称为不可减少误差。

我们假设不可减少误差为\(\delta \sim N(0,\sigma^{2})\),那么估计出来的样本:

\(y = xw + \delta\),并且:\(y \sim N(xw, \sigma^{2})\)

根据高斯分布的概率,可以得到:

\(p(y|x,w) = \dfrac{1}{\sigma \sqrt{2\pi}} exp (-\dfrac{(y-xw)^{T}(y-xw)}{2\sigma^{2}})\)

目的就是求出\(p(y|x,w)\)最大时,参数\(w\)的取值,因此可以采用最大似然估计(MLE)的角度,来求上式的最大似然估计。

\(MLE = log \prod p(y_{i}|x_{i}, w)=\sum log p(y_{i}|x_{i}, w) = \sum log \dfrac{1}{\sigma \sqrt{2\pi}}-\dfrac{(y-xw)^{T}(y-xw)}{2\sigma^{2}}\)

于是:
\(w = argmax(MLE) = argmin(y-xw)^{T}(y-xw)\),与前文定义的经验风险损失一致。

若给参数\(w\)增加一个先验信息,即\(w \sim N(0, \sigma_{w}^{2})\),于是按照最大后验概率的观点:

\(w = argmax(MAP) = argmax(p(y|x,w)p(w))\),进一步可得:

\(p(y|x,w)p(w) = \dfrac{1}{\sigma \sqrt{2\pi}} exp (-\dfrac{(y-xw)^{T}(y-xw)}{2\sigma^{2}}) \times \dfrac{1}{\sigma_{w} \sqrt{2\pi}} exp (-\dfrac{w^{T}w}{2\sigma_{w}^{2}})\)

整理得:

\(w = argmax(MAP) = argmin((y-xw)^{T}(y-xw)+\dfrac{\sigma^{2}}{\sigma_{w}^{2}}w^{T}w)\)

设\(\lambda = \dfrac{\sigma^{2}}{\sigma_{w}^{2}}\),公式与前文定义的结构风险损失一致