参照台大机器学习教程
https://mp.weixin.qq.com/s/vus2mp2RhCL0kPamXVKnAg
- 过拟合的概念:过拟合就是训练出来的模型在训练集上表现很好,但是在测试集上表现较差的一种现象!下图给出例子:

CNN过拟合怎么办 cnn过拟合的表现_线性模型


我们将上图第三个模型解释为出现了过拟合现象,过度的拟合了训练数据,而没有考虑到泛化能力。在训练集上的准确率和在开发集上的准确率画在一个图上如下:

CNN过拟合怎么办 cnn过拟合的表现_机器学习_02


从图中我们能够看出,模型在训练集上表现很好,但是在交叉验证集上表现先好后差。这也正是过拟合的特征!

- 发生条件:VC维数过高,例如5个样本点,你用了4次多项式函数取拟合,可能出现过拟合。

- 从以下图观测VC维数和拟合程度的对比。

CNN过拟合怎么办 cnn过拟合的表现_线性模型_03


- 产生原因:训练模型过度导致模型非常复杂,资料本身的noise,资料量少。

影响见图:

CNN过拟合怎么办 cnn过拟合的表现_机器学习_04


红色表示过拟合程度大,蓝色过拟合程度底,左图中,x轴表示数据量,y轴表示服从高斯分布的噪声,模型复杂度为20.右图中,x轴表示数据量,y轴表示模型复杂度,高斯分布固定。

- 处理方式:简单模型开始,数据清洗、数据修剪,增加数据(根据领域知识产生更多数据),正则化操作(regularization),时时刻刻进行模型验证(validation)

(1)数据有噪声

为什么数据有噪声,就可能导致模型出现过拟合现象呢?

所有的机器学习过程都是一个search假设空间的过程!我们是在模型参数空间搜索一组参数,使得我们的损失函数最小,也就是不断的接近我们的真实假设模型,而真实模型只有知道了所有的数据分布,才能得到。

往往我们的模型是在训练数据有限的情况下,找出使损失函数最小的最优模型,然后将该模型泛化于所有数据的其它部分。这是机器学习的本质!

那好,假设我们的总体数据如下图所示:

CNN过拟合怎么办 cnn过拟合的表现_CNN过拟合怎么办_05


(我这里就假设总体数据分布满足一个线性模型y = kx+b,现实中肯定不会这么简单,数据量也不会这么少,至少也是多少亿级别,但是不影响解释。反正总体数据满足模型y)

此时我们得到的部分数据,其中还有噪声的话,如图所示:

CNN过拟合怎么办 cnn过拟合的表现_CNN过拟合怎么办_06


(红色数据点为噪声)

那么由上面训练数据点训练出来的模型肯定不是线性模型(总体数据分布下满足的标准模型),比如训练出来的模型如下:

CNN过拟合怎么办 cnn过拟合的表现_数据_07


那么我拿着这个有噪声训练的模型,在训练集合上通过不断训练,可以做到损失函数值为0,但是拿着这个模型,到真实总体数据分布中(满足线性模型)去泛化,效果会非常差,因为你拿着一个非线性模型去预测线性模型的真实分布,显而易得效果是非常差的,也就产生了过拟合现象!