文章目录
- 参考资料
- 1. 最大似然估计
- 1.1 原理
- 1.2 示例
- 2. EM算法
- 2.1 原理
- 2.2 示例
参考资料
1. 最大似然估计
1.1 原理
统计中许多问题的计算最终都归结为一个最优化问题, 典型代表是最大似然估计(MLE)、各种拟似然估计方法、 非线性回归、惩罚函数方法(如svm、lasso)等。
最大似然估计经常需要用最优化算法计算, 最大似然估计问题有自身的特点, 可以直接用一般优化方法进行最大似然估计的计算, 但是利用最大似然估计的特点可以得到更有效的算法。
设总体 有概率密度(连续型随机变量)或概率分布(离散型随机变量)
为
维的分布参数。有了一组样本
后,似然函数 为
对数似然函数为
最大化的步骤通过对求导等于0来解得。
1.2 示例
- 例1:设
是来自
的一个样本,
为观察值。试求参数
的最大似然 估计。
解:可知的分布律为:
故似然函数为:
对待估参数求导为 0 , 有:
解得的最大似然估计值为
,最大估计量为
.
- 例2: 设
为未知参数,
为来自
的一组观察值, 求
的最大似然估计量。
解:的概率密度为
似然函数为:
最后解得:
因此得到的最大似然估计量分别为
- 例3 (多项分布): 设
取值于
, 分布概率为
设次试验得到的
值有
个
,求参数
解:观测数据的对数似然函数为(去掉了与参数无关的加性常数)
令得到一个关于
的二次方程,由此写出
的解析表达式:
令,即求解二次方程
得最大似然估计为
其中
2. EM算法
2.1 原理
EM算法最初用于缺失数据模型参数估计,现在已经用在许多优化问题中。设模型中包含 两个 随机成分, 有联合密度函数或概率函数
为未知参数。称
为完全数据的 密度,一般具有简单的形式。实际上我们只有
的观测数据
不能观测得到, 这一 部分可能是缺失观测数据,也可能是潜在影响因素。所以实际的似然函数为
这个似然函数通常比完全数据的似然函数复杂得多,所以很难直接从
EM算法的想法是,已经有了参数的近似估计值 后, 假设
近似服从完全密度
, 这里
已知,所以认为
近似服从由
导出的条件分 布
其中 是由
决定的边缘密度。据此近似条件分布,在完全数据对数似然函数
中, 把
看成已知, 关于未知部分
按密度
求期 望,得到
的函数
,再求
的最大值点作为下一个
EM算法每次迭代有如下的E步(期望步)和M步(最大化步):
- E步: 计算完全数据对数似然函数的期望
, 其中期望针对随机变量
, 求期望时假定
服从条件密度
- M步: 求
的最大值点,记为
定理1: EM算法得到的估计序列 使得公式(1)中的似然函数值
单调不减。
证明: 对任意参数 ,有
由信息不等式知
又EM迭代使得 , 所以
定理证毕。
在适当正则性条件下, EM算法的迭代序列依概率收敛到的最大值点。 但是, 定理(1)仅保证EM算法最终能收敛, 但不能保证EM算法会收敛到似然函数的全局最大值点, 算法也可能收敛到局部极大值点或者鞍点。
在实际问题中, 往往E步和M步都比较简单, 有时E步和M步都有解析表达式, 这时EM算法实现很简单。 EM算法优点是计算稳定, 可以保持原有的参数约束, 缺点是收敛可能很慢, 尤其是接近最大值点时可能收敛更慢。 如果公式(1)中的似然函数不是凸函数, 算法可能收敛不到全局最大值点, 遇到这样的问题可以多取不同初值比较, 用矩估计等合适的近似值作为初值。
原理暂时看不懂没关系,结合后面例题看就更容易懂了。
2.2 示例
(混合分布) EM算法可以用来估计混合分布的参数。 设随机变量 ,
独立。记
的密度为
。设随机变量
与
独立,令
则 条件下
条件下
, 但
的边缘密度为
其中
设 有样本
, 样本值为
, 实际观测数据的似然函数为
这个函数是光滑函数但是形状很复杂, 直接求极值很容易停留在局部极值点。
用EM算法,以 为没有观测到的部分, 完全数据的似然函数和对数似然函数为
在E步,设已有 的近似值
, 以
为分布参数,在
条件下,
的 条件分布为
这里的推导类似于逆概率公式。利用 的条件分布求完全数据对数似然的期望,得
令 ,求得
的最大值点
为
适当选取初值 用公式(3)和(4)迭代就可以计算
- (多项分布): 设
取值于
, 分布概率为
设次试验得到的
值有
个
,求参数
这时
代表结果12和结果4的出现次数, 这两种结果出现概率为
,其它结 果
的出现概率为
令
,则
。
数据的全似然函数为
对数似然函数 (差一个与无关的常数项) 为
在EM迭代中, 假设已经得到的参数近似值为
, 设
, 在给定
条件下求
的 条件期望, 这时
的条件分布为
于是
从而完全对数似然函数的条件期望为
求解的最大值,令
得下一个参数近似值为
于是, EM迭代步骤从某个出发,比如
, 在第
步计算
迭代到两次的近似参数值变化小于