一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇

原创

云端FFF 2022-11-27 10:30:28 博主文章分类：概率论与数理统计 ©著作权

文章标签 最大后验估计参数估计 MAP 后验概率先验概率 文章分类 Storm 大数据

©著作权归作者所有：来自51CTO博客作者云端FFF的原创作品，请联系作者获取转载授权，否则将追究法律责任

文章目录

4. 最大后验估计（MAP）

4.1 后验概率密度
4.2 样本条件概率密度 $p(X∣D)$

4.2.1 贝叶斯分类器
4.2.2 联系参数后验概率密度 $p(θ∣D)$
4.2.3 小结

4.3 最大后验估计的步骤
4.4 示例

4.4.1 已知先验概率和条件概率
4.4.2 朴素贝叶斯

5. MLE和MAP的联系

4. 最大后验估计（MAP）

考虑这个问题：贾跃亭老板下周回国的概率为多少？如果从频率派的角度看，因为贾老板跑路后从未回国，只要他不回来，概率就始终为0；但事实上贾老板下周回国的概率可能只是很小而非零，若哪天他的造车计划大获成功或者乐视网情况转好，其回国的可能性还会大大提升，这就比较符合贝叶斯学派的观点。 频率派的一个问题，就是在小的的观测数据集下，最大化似然函数值的方法容易与观测数据过度拟合
记贾老板下周回国为事件 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP$ ，现在我们认为这是一个小概率事件，概率为小量 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_02$ ，可以看作一种先验知识。随着时间的推移，发生了事件 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_03$ ，比如法拉第新车开始量产，或者法拉第资金链断裂，这时贾老板回国的可能性就会变化，对 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP$ 的估计也应当有相应调整，变成后验概率 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_05$
最大后验估计寻求使后验概率最大的参数值，相比最大似然估计，这种方法融入了要估计量的先验分布。先验概率包含了人们根据以往经验对事件的一些初步认识，当某些事件 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_06$
最大后验估计的示意图如下

4.1 后验概率密度

利用贝叶斯公式，可以得到先验概率 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_07$ 和后验概率 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_08$ 之间的关系如下
$一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_09$ 这个公式提供了利用先验概率 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_07$ 和条件概率函数值 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_11$ 来计算后验概率 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_08$
在后验概率公式中，分母 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_13$ ，由于对 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_14$ 所在的参数空间整体进行了积分，因此不影响，有
$一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_15$ 可见，当事件 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_16$ 发生时，最大后验估计通过条件概率函数值 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_17$ 对先验 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_18$ 进行修正。经过整个数据集 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_19$ 的修正后，后验概率密度
$一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_20$ 将在合理的估计值 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_21$

一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_22

我们的目标是找出最大后验估计值 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_23$ ，即
$一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_24$

4.2 样本条件概率密度 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_25$

1.1 节中我们分析过，参数估计的目的是为了得到模型分布，即数据集条件下的样本分布 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_26$ ，这时我们必须明确 MAP 和 MLE 的区别

MLE 中，参数 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_27$ 是一个定值，模型分布仅由其取值 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_28$ 决定，而 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_28$ 仅由数据集 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_30$ 决定，也就是只有一个样本条件概率密度 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_31$ （似然函数）
MAP 中，参数 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_27$ 是一个分布 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_33$ ， $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_34$ 的每一个取值 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_35$ 都唯一地决定了一个模型分布，为了整体考虑需要对 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_28$ 做积分，即 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_37$ ，因此 MAP 方法最终往往要做一个复杂的积分

下面通过一个贝叶斯决策的例子说明 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_26$

4.2.1 贝叶斯分类器

考虑构造一个贝叶斯分类器，使用贝叶斯公式计算 类后验概率 如下
$一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_39$ 贝叶斯分类器使用这个类后验概率密度函数预测任意样本 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_40$ ，下面化简符号
1. 通常我们认为类先验概率可以事前得到，所以把 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_41$ 简写为 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_42$
2. 像 1.1 节中一样将数据集 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_30$ 按样本类别划分为，并假设第 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_44$ 类的样本对第 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_45$ 类的类条件概率 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_46$ 没有任何影响，这样 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_47$ 就可以简化为 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_48$
符号化简后，上式变为
$一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_49$ 假设一共有 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_50$ 个类别，这里计算类后验概率密度的核心是估计 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_51$ 个类条件概率密度 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_47$ ，根据我们的假设，这里相当于处理 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_51$ ，每个问题都在单一的类别下发生，形式为
已知一组从 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_54$ 中 i.i.d 采样的样本 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_30$ ，估计条件概率 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_56$

4.2.2 联系参数后验概率密度 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_57$

考虑上一节最后提出的任意一个独立问题，基本目标是计算 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_58$ ，并且使得它尽量靠近 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_59$ ，这里可以把它表示为 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_60$ 的边缘概率密度，即
$一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_61$ 注意其中出现了 MAP 过程中得到的后验概率分布 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_62$ 。这是贝叶斯估计中最核心的公式，它将类条件概率密度 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_56$ （注意这是 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_64$ 的简写）和未知参数的后验概率密度 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_65$ 联系起来。如果 MAP 的估计结果为 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_21$ （即 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_62$ 在 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_21$
1. $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_69$ 光滑
2. $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_65$ 积分拖尾的影响足够小（就是说 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_65$ 在 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_35$
则可以如下估计类条件概率密度为 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_73$ 当以上两条件不满足时，即我们对 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_21$ 的把握不是很强时，上面的式子指导我们应该对所有的 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_75$ 求积分来得到满意的 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_58$ （注意其实是类条件概率密度 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_77$

4.2.3 小结

欲基于贝叶斯估计方法构造贝叶斯分类器，一些基本假设如下
1. 条件概率密度 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_78$ 的数学形式完全已知，只是 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_27$ 取值 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_28$
2. 参数向量 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_27$ 的先验概率 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_82$ 包含了我们对 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_28$
3. 其余的关于参数向量 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_27$ 的信息包含在 i.i.d 采样的数据集 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_30$ 中，他们都服从未知的概率密度函数 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_54$
问题的核心在于计算后验概率密度函数 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_62$ ，一旦得到就能如下计算（类）后验概率
$一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_88$ 根据贝叶斯公式，有
$一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_89$ 再利用样本间独立性假设，有
$一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_90$ 这样就完成了对问题的正式解答。构造的贝叶斯分类器示意图如下

一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_91

这里可以考虑和最大似然估计的关系
1. 假设 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_92$ 在 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_35$
2. 若先验概率 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_94$ 非零且在附近邻域变化不大，则根据等式 (2) ， $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_95$
3. 则根据等式（1）， $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_96$ 将趋近于 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_97$ ，后者就是最大似然法优化的最大似然函数

4.3 最大后验估计的步骤

找出参数的最大后验估计

和最大似然估计步骤类似，先找出后验概率密度 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_65$ （或其正相关形式）的表示，然后通过令偏导数为 0 找出使后验概率最大的估计值 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_35$
有时我们也可以直接从数据集 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_30$ 中估计出先验概率 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_101$ 和条件概率函数 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_92$ ，进而直接计算 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_35$

如有需要，可以进一步计算类条件概率密度构造贝叶斯分类器

4.4 示例

4.4.1 已知先验概率和条件概率

假设有5个袋子，每个袋子中都有无限饼干（樱桃或柠檬味），已知5个袋子中两种口味混合比例和被拿到的概率如下
1. 10%概率拿到；樱桃100%
2. 20%概率拿到；樱桃75% + 柠檬25%
3. 40%概率拿到；樱桃50% + 柠檬50%
4. 20%概率拿到；樱桃25% + 柠檬75%
5. 10%概率拿到；柠檬100%
现在从同一个袋子中连续拿到了两个柠檬饼干，那么这个袋子最可能是哪个袋子？
分析：设 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_104$ 表示拿到第 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_44$ 个袋子，各个袋子被拿到的概率就是先验 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_106$ ，我们需要根据事件 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_107$ ：“连续从一个袋子中拿到两个饼干” 这件事在每个袋子中发生的似然性来调整它们。
设从第 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_108$ 个袋子中拿出柠檬饼干的概率为 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_109$ ，拿到第 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_108$ 个袋子的概率为 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_111$ ，根据后验概率公式，优化目标是：
$一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_112$

4.4.2 朴素贝叶斯

朴素贝叶斯是一种基于最大后验估计的分类算法。设输入空间 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_113$ 为 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_114$ 维向量集合，输出空间 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_115$ 。 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_116$ 分别是定义在 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_117$ 上的随机向量/变量，从真实分布 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_118$ 独立同分布地采样得到训练数据集 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_119$
这是一种生成式方法，利用数据分布估计先验概率 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_120$ 和条件概率函数 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_121$ ，进而得到联合概率分布 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_118$ 用于预测

条件独立性假设：考察条件概率分布 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_123$ 假设 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_124$ 可取值有 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_125$ 个， $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_126$ ， $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_127$ 可取值有 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_128$ 个，那么参数个数最多为 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_129$ ，参数数量为指数级，因此直接估计 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_130$ 是不可行的。为此朴素贝叶斯作了条件独立性假设，即
$一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_131$

得到联合分布 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_132$ ，即
$一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_133$ 其中先验概率 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_134$ 和样本每一维（特征）的条件概率 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_135$ ，即
$一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_136$ 设第 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_137$ 个特征 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_138$ 可能取值的集合为 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_139$ ，条件概率估计为
$一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_140$ 式中 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_141$ 是第 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_142$ 个样本的第 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_137$ 个特征； $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_144$ 是第 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_137$ 个特征可能取的第 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_146$
示例

一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_147

一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_148

5. MLE和MAP的联系

看贝叶斯公式
$一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_149$ 随着数据量的增加，条件概率函数值 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_150$ 对先验 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_151$ 的修正越来越大，参数分布会越来越向数据靠拢，先验的影响力会越来越小。因此在数据量趋向无限时，MAP 得到的参数后验概率一般会收敛到狄拉克函数，这时 MLE 和 MAP 最终会得到相同的估计

一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_152

如果先验是均匀分布，则贝叶斯方法MAP等价于频率方法MLE，因为先验是均匀分布本质上表示对事物没有任何预判
看最大后验估计的优化目标
$一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_153$ 可见这里第二项 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_154$ 正是最大似然估计的优化目标 NLL，所以MLE和MAP在优化时的不同就是在于先验项 $一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_155$ 。如果我们假设先验是一个高斯分布，即
$一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_156$ 于是有
$一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_157$ 可见，在MAP中使用一个高斯分布的先验等价于在MLE中使用一个L2正则项

上一篇：论文理解【RL - Exp Replay】—— An Equivalence between Loss Functions and Non-Uniform Sampling in Exp Replay

下一篇：论文理解【RL - Episodic Control】 ——【MFEC】Model Free Episodic Control

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯