深度学习中过拟合和欠拟合过拟合与欠拟合的区别

转载

小鱼儿 2023-09-27 11:18:56

文章标签 深度学习中过拟合和欠拟合深度学习人工智能数据集复杂度 文章分类 深度学习人工智能

文章目录

定义
两个影响因素
常用的解决办法

权重衰减
丢弃法

定义

欠拟合（underfitting)：模型无法得到较低的训练误差(训练误差和泛化误差都很高)
过拟合（overfitting）：模型的训练误差远小于其在测试数据集上的误差，即泛化误差

这里我们可简单理解下两种误差，训练误差可以认为是做往年高考试题（训练题）时的错误率，泛化误差则可以通过真正参加高考（测试题）时的答题错误率。

两个影响因素

有诸多因素可导致这两种拟合问题，这里重点讨论模型复杂度和训练数据集的大小两个因素。

针对模型复杂度
给定训练数据集，模型复杂度和误差之间的关系通常如图所示

深度学习中过拟合和欠拟合过拟合与欠拟合的区别_深度学习中过拟合和欠拟合

基本上，给定训练数据集的情况下，复杂度过低很容易出现欠拟合，复杂度过高，则容易过拟合。
训练数据集的大小
对于该因素，一般若训练数据集中样本数过少，特别是比模型参数数量(按元素计)更少时，过拟合更容易发生。
此外，泛化误差不会随训练数据集里样本数量增加而增大。因此，在计算资源允许的范围之内，我们通常希望训练数据集大一些，特别是在模型复杂度较高时

常用的解决办法

权重衰减

虽然增大训练数据集可能会减轻过拟合，但获取额外训练数据往往代价高昂。

常用方法之一是：权重衰减(weight decay)

权重衰减等价于 $深度学习中过拟合和欠拟合过拟合与欠拟合的区别_人工智能_02$ 范数正则化(regularization)。其通过为模型损失函数添加惩罚项使学出的模型参数值较小。

$深度学习中过拟合和欠拟合过拟合与欠拟合的区别_复杂度_03$ 范数正则化就是在模型原损失函数的基础上添加 $深度学习中过拟合和欠拟合过拟合与欠拟合的区别_复杂度_03$ 范数惩罚项，该惩罚项是模型权重参数每个元素的平方和与一个正的常数的乘积。
如：线性回归中的原损失函数为：
$深度学习中过拟合和欠拟合过拟合与欠拟合的区别_数据集_05$ = $深度学习中过拟合和欠拟合过拟合与欠拟合的区别_深度学习中过拟合和欠拟合_06$
将权重参数用向量 $深度学习中过拟合和欠拟合过拟合与欠拟合的区别_人工智能_07$ 表示，则带有 $深度学习中过拟合和欠拟合过拟合与欠拟合的区别_复杂度_03$ 范数惩罚项的新损失函数为：
$深度学习中过拟合和欠拟合过拟合与欠拟合的区别_深度学习中过拟合和欠拟合_09$
有了 $深度学习中过拟合和欠拟合过拟合与欠拟合的区别_复杂度_03$ 范数惩罚项后，小批量梯度下降过程中， $深度学习中过拟合和欠拟合过拟合与欠拟合的区别_深度学习中过拟合和欠拟合_11$ 和 $深度学习中过拟合和欠拟合过拟合与欠拟合的区别_深度学习中过拟合和欠拟合_12$ 的迭代方式将更改为：
$深度学习中过拟合和欠拟合过拟合与欠拟合的区别_深度学习中过拟合和欠拟合_13$
$深度学习中过拟合和欠拟合过拟合与欠拟合的区别_深度学习中过拟合和欠拟合_14$

由此可见， $深度学习中过拟合和欠拟合过拟合与欠拟合的区别_复杂度_03$ 范数正则化令权重 $深度学习中过拟合和欠拟合过拟合与欠拟合的区别_深度学习中过拟合和欠拟合_11$ 和 $深度学习中过拟合和欠拟合过拟合与欠拟合的区别_深度学习中过拟合和欠拟合_12$ 先自乘小于1的数，再减去不含惩罚项的梯度。所以 $深度学习中过拟合和欠拟合过拟合与欠拟合的区别_复杂度_03$ 范数正则化又叫权重衰减。权重衰减通过惩罚绝对值较大的模型参数为需要学习的模型增加了限制，这可能会对过拟合有效。