文章目录

  • ​​4. 最大后验估计(MAP)​​
  • ​​4.1 后验概率密度​​
  • ​​4.2 样本条件概率密度 p(X∣D)
  • ​​4.2.1 贝叶斯分类器​​
  • ​​4.2.2 联系参数后验概率密度 p(θ∣D)
  • ​​4.2.3 小结​​
  • ​​4.3 最大后验估计的步骤​​
  • ​​4.4 示例​​
  • ​​4.4.1 已知先验概率和条件概率​​
  • ​​4.4.2 朴素贝叶斯​​
  • ​​5. MLE和MAP的联系​​

4. 最大后验估计(MAP)

  • 考虑这个问题:贾跃亭老板下周回国的概率为多少?如果从频率派的角度看,因为贾老板跑路后从未回国,只要他不回来,概率就始终为0;但事实上贾老板下周回国的概率可能只是很小而非零,若哪天他的造车计划大获成功或者乐视网情况转好,其回国的可能性还会大大提升,这就比较符合贝叶斯学派的观点。 频率派的一个问题,就是在小的的观测数据集下,最大化似然函数值的方法容易与观测数据过度拟合
  • 记贾老板下周回国为事件 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP,现在我们认为这是一个小概率事件,概率为小量 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_02,可以看作一种先验知识。随着时间的推移,发生了事件一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_03,比如法拉第新车开始量产,或者法拉第资金链断裂,这时贾老板回国的可能性就会变化,对 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP 的估计也应当有相应调整,变成后验概率 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_05
  • 最大后验估计寻求使后验概率最大的参数值,相比最大似然估计,这种方法融入了要估计量的先验分布。先验概率包含了人们根据以往经验对事件的一些初步认识,当某些事件 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_06
  • 最大后验估计的示意图如下

4.1 后验概率密度

  • 利用贝叶斯公式,可以得到先验概率 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_07 和 后验概率 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_08 之间的关系如下
    一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_09 这个公式提供了利用先验概率 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_07 和条件概率函数值 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_11 来计算后验概率 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_08
  • 在后验概率公式中,分母 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_13,由于对 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_14 所在的参数空间整体进行了积分,因此不影响,有
    一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_15 可见,当事件 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_16 发生时,最大后验估计通过条件概率函数值 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_17 对先验 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_18 进行修正。经过整个数据集 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_19 的修正后,后验概率密度
    一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_20 将在合理的估计值 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_21
  • 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_22


  • 我们的目标是找出最大后验估计值 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_23,即
    一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_24

4.2 样本条件概率密度 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_25

  • 1.1 节中我们分析过,参数估计的目的是为了得到模型分布,即数据集条件下的样本分布 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_26,这时我们必须明确 MAP 和 MLE 的区别
    1. MLE 中,参数 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_27 是一个定值,模型分布仅由其取值 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_28 决定,而 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_28 仅由数据集 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_30 决定,也就是只有一个样本条件概率密度 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_31(似然函数)
    2. MAP 中,参数 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_27 是一个分布 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_33一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_34 的每一个取值 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_35 都唯一地决定了一个模型分布,为了整体考虑需要对 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_28 做积分,即 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_37,因此 MAP 方法最终往往要做一个复杂的积分
  • 下面通过一个贝叶斯决策的例子说明 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_26

4.2.1 贝叶斯分类器

  • 考虑构造一个贝叶斯分类器,使用贝叶斯公式计算 ​类后验概率​​ 如下
    一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_39 贝叶斯分类器使用这个类后验概率密度函数预测任意样本 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_40,下面化简符号

    1. 通常我们认为类先验概率可以事前得到,所以把 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_41 简写为 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_42
    2. 像 1.1 节中一样将数据集 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_30 按样本类别划分为,并假设第 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_44 类的样本对第 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_45 类的类条件概率 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_46 没有任何影响,这样 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_47 就可以简化为 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_48

    符号化简后,上式变为
    一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_49 假设一共有 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_50 个类别,这里计算类后验概率密度的核心是估计 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_51类条件概率密度 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_47,根据我们的假设,这里相当于处理 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_51,每个问题都在单一的类别下发生,形式为

    已知一组从 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_54 中 i.i.d 采样的样本 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_30,估计条件概率 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_56

4.2.2 联系参数后验概率密度 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_57

  • 考虑上一节最后提出的任意一个独立问题,基本目标是计算 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_58,并且使得它尽量靠近 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_59,这里可以把它表示为 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_60 的边缘概率密度,即
    一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_61 注意其中出现了 MAP 过程中得到的后验概率分布 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_62这是贝叶斯估计中最核心的公式,它将类条件概率密度 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_56(注意这是 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_64 的简写)和​未知参数的后验概率密度​ 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_65 联系起来。如果 MAP 的估计结果为 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_21(即 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_62一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_21

    1. 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_69 光滑
    2. 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_65 积分拖尾的影响足够小(就是说 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_65一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_35

    则可以如下估计类条件概率密度为 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_73 当以上两条件不满足时,即我们对 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_21 的把握不是很强时,上面的式子指导我们应该对所有的 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_75 求积分来得到满意的 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_58 (注意其实是类条件概率密度 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_77

4.2.3 小结

  • 欲基于贝叶斯估计方法构造贝叶斯分类器,一些基本假设如下

    1. 条件概率密度 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_78 的数学形式完全已知,只是 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_27 取值 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_28
    2. 参数向量 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_27 的 先验概率 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_82 包含了我们对 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_28
    3. 其余的关于参数向量 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_27 的信息包含在 i.i.d 采样的数据集 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_30 中,他们都服从未知的概率密度函数 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_54
  • 问题的核心在于计算后验概率密度函数 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_62,一旦得到就能如下计算(类)后验概率
    一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_88 根据贝叶斯公式,有
    一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_89 再利用样本间独立性假设,有
    一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_90 这样就完成了对问题的正式解答。构造的贝叶斯分类器示意图如下
  • 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_91

  • 这里可以考虑和最大似然估计的关系

    1. 假设 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_92一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_35
    2. 若先验概率 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_94 非零且在附近邻域变化不大,则根据等式 (2) ,一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_95
    3. 则根据等式(1),一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_96 将趋近于 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_97,后者就是最大似然法优化的最大似然函数

4.3 最大后验估计的步骤

  • 找出参数的最大后验估计
    1. 和最大似然估计步骤类似,先找出后验概率密度 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_65 (或其正相关形式)的表示,然后通过令偏导数为 0 找出使后验概率最大的估计值 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_35
    2. 有时我们也可以直接从数据集 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_30 中估计出先验概率 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_101 和条件概率函数 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_92,进而直接计算 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_35
  • 如有需要,可以进一步计算类条件概率密度构造贝叶斯分类器

4.4 示例

4.4.1 已知先验概率和条件概率

  • 假设有5个袋子,每个袋子中都有无限饼干(樱桃或柠檬味),已知5个袋子中两种口味混合比例和被拿到的概率如下

    1. 10%概率拿到;樱桃100%
    2. 20%概率拿到;樱桃75% + 柠檬25%
    3. 40%概率拿到;樱桃50% + 柠檬50%
    4. 20%概率拿到;樱桃25% + 柠檬75%
    5. 10%概率拿到;柠檬100%

    现在从同一个袋子中连续拿到了两个柠檬饼干,那么这个袋子最可能是哪个袋子?

    分析:设 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_104 表示拿到第 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_44 个袋子,各个袋子被拿到的概率就是先验 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_106,我们需要根据事件 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_107:“连续从一个袋子中拿到两个饼干” 这件事在每个袋子中发生的似然性来调整它们。

  • 设从第 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_108 个袋子中拿出柠檬饼干的概率为 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_109,拿到第 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_108 个袋子的概率为 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_111,根据后验概率公式,优化目标是:
    一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_112

4.4.2 朴素贝叶斯

  • 朴素贝叶斯是一种基于最大后验估计的分类算法。设输入空间 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_113一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_114 维向量集合,输出空间 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_115一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_116 分别是定义在 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_117 上的随机向量/变量,从真实分布 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_118 独立同分布地采样得到训练数据集 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_119
  • 这是一种生成式方法,利用数据分布估计先验概率 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_120 和条件概率函数 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_121,进而得到联合概率分布 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_118 用于预测
  • 条件独立性假设​​:考察条件概率分布 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_123 假设 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_124 可取值有 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_125 个,一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_126一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_127 可取值有 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_128 个,那么参数个数最多为 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_129,参数数量为指数级,因此直接估计 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_130 是不可行的。为此朴素贝叶斯作了条件独立性假设,即
    一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_131

  • 得到联合分布 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_132,即
    一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_133 其中先验概率 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_134 和样本每一维(特征)的条件概率 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_135,即
    一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_136 设第 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_137 个特征 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_138 可能取值的集合为 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_139,条件概率估计为
    一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_140 式中 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_141 是第 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_参数估计_142 个样本的第 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_137 个特征;一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_144 是第 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_137 个特征可能取的第 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_146
  • 示例
  • 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_147


  • 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_148


5. MLE和MAP的联系
  1. 看贝叶斯公式
    一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_149 随着数据量的增加,条件概率函数值 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_150 对先验 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_151 的修正越来越大,参数分布会越来越向数据靠拢,先验的影响力会越来越小。因此在数据量趋向无限时,MAP 得到的参数后验概率一般会收敛到狄拉克函数,这时 MLE 和 MAP 最终会得到相同的估计
  2. 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_152

  3. 如果先验是均匀分布,则贝叶斯方法MAP等价于频率方法MLE,因为先验是均匀分布本质上表示对事物没有任何预判

  4. 看最大后验估计的优化目标
    一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_MAP_153 可见这里第二项 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_154 正是最大似然估计的优化目标 NLL,所以MLE和MAP在优化时的不同就是在于先验项 一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_最大后验估计_155。如果我们假设先验是一个高斯分布,即
    一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_先验概率_156于是有
    一文看懂 “极大似然估计” 与 “最大后验估计” —— 最大后验估计篇_后验概率_157 可见,在MAP中使用一个高斯分布的先验等价于在MLE中使用一个L2正则项