参数估计(Parameter Estimation)。常用的估计方法有 最大似然估计、最大后验估计、贝叶斯估计等。

x=(x1,…,xn)是来自概率密度函数p(x|θ)的独立采样,则其乘积

p(x|θ)=∏i=1np(xi|θ)

θ给定时,p(x|θ)是样本x的联合密度函数;当样本x的观察值给定时,p(x|θ)是未知参数θ的函数,称为样本的似然函数,常记作L(θ)

对数似然函数


ℓ(θ)=lnL(θ)=∑i=1nlnp(xi|θ)

θ的过程即最大似然估计(MLE, maximum-likelihood estimation):

θ^=argmaxθℓ(θ)

θ求导,导数为0时,即似然函数的极值点,可求得待估计的参数。

最大似然估计、最小二乘法和正态分布均由高斯发展而来,它解决了求解误差的概率密度分布问题,是19世纪统计学最重要的成就。下面依葫芦画瓢的简单贯通一下它们之间的联系。

正态分布的最大似然估计

θ是正态分布的均值和方差θ=(μ,σ2),其中θ1=μ,θ2=σ2,可得单个样本的对数似然函数:

p(xi|θ)ℓ(xi|θ)=12πθ2−−−−√e−(xi−θ1)22θ2=−12ln2πθ2−12θ2(xi−θ1)2

θ求导,即对参数各自求偏导数

`$$
 \nabla_{\theta}\ell =
 \begin{bmatrix}
 \frac{\partial \ell(x_i | \theta)}{\partial \theta_1} \
 \frac{\partial \ell(x_i | \theta)}{\partial \theta_2}
 
[xi−θ1θ2 −12θ2+(xi−θ1)22θ22]



$$`

θ

⎧⎩⎨⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪⎪∑i=1n(xi−θ^1)θ^2=0−∑i=1n1θ^2+∑i=1n(xi−θ^1)2θ^22=0

θ^1θ^2分别是对θ1θ2的最大似然估计。把θ^1θ^2分别用μ^σ^2替代,就可以得到正态分布的均值和方差的最大似然估计结果:

μ^σ^2=1n∑i=1nxi=1n∑i=1n(xi−μ^)2

可以看出参数均值的最大似然估计就是样本均值,参数方差的最大似然估计就是样本方差。

误差平方和最小假设

在特定前提下,任一学习算法如果使输出的假设预测和训练数据之间的误差平方最小化,它将输出极大似然假设

平方损失函数(quadratic loss function)


L(Y,f(X))=(Y−f(X))2

X、输出空间Y和假设空间H上,假设H为是XY的映射函数 f:X→Y。给定n个训练样本的集合,每个样本的输出值被随机噪声干扰,即每个训练样本可表示为 (xi,yi),其中yi=f(xi)+ei为观察到的输出值,ei是代表噪声的随机变量。假定 ei是独立抽取且服从零均值的正态分布,即样本输出值yi服从均值f(xi)方差σ2的正态分布。要得到极大似然假设 yML即对数似然函数 ℓ(x|μ,σ2)取得极大值:

yML=argmaxy∈Yℓ(x|μ,σ2)=argmaxy∈Y∏i=1np(xi|μ,σ2)=argmaxy∈Y∏i=1n12πσ2−−−−√exp(−12σ2(yi−μ)2)=argmaxy∈Y∏i=1n12πσ2−−−−√exp(−12σ2(yi−f(xi))2)=argmaxy∈Y∑i=1n{ln12πσ2−−−−√−12σ2(yi−f(xi))2}=argmaxy∈Y∑i=1n−12σ2(yi−f(xi))2=argminy∈Y∑i=1n12σ2(yi−f(xi))2=argminy∈Y∑i=1n(yi−f(xi))2

yML 是使训练值 yi 和假设预测值 f(xi)

也可以参考 第一章第12~13页的推导。

参考

  • 模式分类 Duda 第三章 最大似然估计和贝叶斯参数估计
  • 机器学习 Mitchell T.M. 第六章 贝叶斯学习
  • PRML 3.1.1 Maximum likelihood and least squares
  • MLAPP 7.3 Maximum likelihood estimation (least squares)