1、 定义:
观测值:Y
特征值:X
且,假设
,其中误差服从均值为0的正态分布
,我们用线性回归或者其他模型来估计真实模型
为
,则对于x处的误差定义为:
用偏差和方差来表述:
(公式2) 则,
最后一项为系统噪声,是无法通过模型降低的。
1.1 偏差Bias与方差Variance,他们的基本定义如下:
预测模型的期望与理论模型之间的差距,偏差越大偏离理论值越大。
Bias[f^(x)]=E[f^(x)]−f(x) (公式3)
预测模型得离散程度,方差越大离散程度越大。
Var[f^(x)]=E[(f^(x)−E[f^(x)])2] (公式4)
2、公式推导:
对公式(2)推导过程如下:
、常用结论:
图像化表示如下:
偏差、方差与过拟合、欠拟合之间的关系为:
利用较少参数,简单的模型进行预测,通常会得到低方差,高偏差,通常出现欠拟合;
利用较多参数,复查的模型进行预测,通常会得到高方差,低偏差,通常出现过拟合;
3.1
在模型预测中,模型可能出现的误差来自两个主要来源,即:因模型无法表示基本数据的复杂度而造成的偏差(bias),
或者因模型对训练它所用的有限数据过度敏感而造成的方差(variance)。
如果模型具有足够的数据,但因不够复杂而无法捕捉基本关系,则会出现偏差。这样一来,模型一直会系统地错误表示数据,
从而导致预测准确率降低。这种现象叫做欠拟合(underfitting)。简单来说,如果模型不适当,就会出现偏差。或者,我们可能有
本质上是多项式的连续数据,但模型只能表示线性关系。在此情况下,我们向模型提供多少数据并不重要,因为模型根本无法表示
其中的基本关系,我们需要更复杂的模型。那是不是拟合程度越高越好呢?也不是,因为还会有方差。
2)方差就是指模型过于贴近训练数据,以至于没办法把它的结果泛化(generalize)。而泛化是正事机器学习要解决的问题,如
果一个模型只能对一组特定的数据有效,换了数据就无效了,我们就说这个模型过拟合。
3.2
3.3
泛化误差可分解为偏差、方差和噪声。
偏差度量了学习算法的期望预测与真实结果的偏离程度,即刻画了学习算法本身的拟合能力;方差度量了同样大小的训练集的
变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响;噪声则表达了在当前任务上任何学习算法所能达到的期望误差的下界,
即刻画了学习问题本身的难度。
参考文章:
http://www.csuldw.com/2016/02/26/2016-02-26-choosing-a-machine-learning-classifier/#mjx-eqn-3
https://www.zhihu.com/question/27068705