在机器学习算法中,你能经常看到极大似然估计这个词语。比如在对逻辑回归求解全局最小值的时候就需要用上极大似然估计。极大似然估计是机器学习算法中必须掌握的一个知识点。
极大似然估计是什么意思?
首先,根据字面上来看,极大和估计都比较好理解,极大即最大化,估计即大约计算出来的样子。那么似然是什么意思呢?似然,即(likelihood),牛津词典的解释为可能性(同义词为probability)。所以极大似然估计的字面意思就是最大可能性的情况就是我们需要大约计算出来的样子。
举个例子来说:
有一个箱子,里面总共有100个形状相同但是有两种颜色,分别为黑色和白色的球。其中一种颜色是99个,另一种颜色是1个。现从箱里任取一球,颜色为黑色。那么,我们通过极大似然估计会认为箱子里极有可能黑色球99个。
若实验中有n个可能结果,A1,A2……An,现做了一次试验,若事件Ai发生了,则认为事件Ai在这n个可能结果中出现的概率最大。
总的来说,极大似然估计是建立在这样的思想上:已知某个参数能使这个样本出现的概率最大,我们当然不会再去选择其他小概率的样本,所以干脆就把这个参数作为估计的真实值。
极大似然估计的表现形式
1.若总体X为离散型,其概率分布为P{X=x}=p(x;Θ);其中Θ是未知参数。设(X1,X2,……Xn)是取自总体的样本容量为n的样本,则(X1,X2,……Xn)的联合分布律为
。又设(X1,X2,……Xn)的一组观测值为(x1,x2……xn),易知样本X1,X2,……Xn取到的观测值x1,x2……xn的概率为
这一概率随Θ的取值而变化,它是Θ的函数,称L(Θ)为样本的似然函数。
2.若总体X为连续型,其概率密度函数为f(x;Θ), 其中Θ是未知参数。设(X1,X2,……Xn)是取自总体的样本容量为n的样本,则(X1,X2,……Xn)的联合概率密度为为
。又设(X1,X2,……Xn)的一组观测值为(x1,x2……xn),易知样本X1,X2,……Xn取到的观测值x1,x2……xn的概率为
同样,L(Θ)为样本的似然函数。
极大似然估计法原理就是固定样本观测值(x1,x2……xn),挑选参数Θ使得
这样得到的与样本值有关,
称为参数Θ的极大似然估计值,其相应的统计量
称为Θ的极大似然估计量。极大似然估计简记为MLE或。
极大似然估计求解
那么要如何把参数Θ的极大似然估计值求出来呢。一般情况下:
- 构造似然函数L(Θ)
- 取对数ln L(Θ)
- 令
- 求解