概率论:其关注的焦点是无处不在的可能性

概率分类

古典概率

使用公式通俗表示,即为
人工智能入门-02概率论_概率论

条件概率

条件概率(conditional probability)是根据已有信息对样本空间进行调整后得到的新的概率分布。假定有两个随机事件A和B,条件概率就是指事件A在事件B已经发生的条件下发生的概率,用以下公式表示
人工智能入门-02概率论_人工智能入门_02
P(AB): 联合概率(joint probability),表示的是A和B两个事件共同发生的概率

基于条件概率可以得出全概率公式(law of total probability)。全概率公式的作用在于将复杂事件的概率求解转换为不同情况下发生的简单事件的概率求和,即
人工智能入门-02概率论_人工智能入门_03
全概率公式代表了频率学派解决概率问题的思路,即先做出一些假设P(Bi),再在这些假设下讨论随机事件的概率P(A|Bi).

知识小课堂
贝叶斯公式其实解决的就是“逆概率”问题,由于指套理论首先由英国牧师托马斯.贝叶斯提出,因为其通用公式称为贝叶斯公式

贝叶斯定理
人工智能入门-02概率论_概率论_04
P(H):先验概率,即预先设定的假设成立的概率
P(D | H):似然概率,是在假设成立的前提下观测到结果的概率
P(H | D):后验概率,即在观测到结果的前提下假设成立的概率。

从科学研究的方法论来看,贝叶斯定理提供了一种全新的逻辑。它根据观测结果寻找合理的假设,或者说根据观测数据寻找最佳的理论解释,其关注的焦点在于后验概率。概率论的贝叶斯学派正是诞生于这中理念。

学派划分

频率学派

频率学派认为假设是客观存在且不会改变的,即存在固定的先验分布,只是作为观察者的我们无从知晓,因而在计算时间的概率时,要先确定概率分布的类型和参数,以此为基础进行概率推演。

贝叶斯学派

贝叶斯学派则认为固定的先验分布是不存在的,参数本身也是随机数。换言之,假设本身取决于观察结果,是不确定并且可以修改的。数据的作用就是对假设做出不断的修正,使观察者对概率的主观认识更加接近客观实际。

概率估计方式

概率的估计有两种方法:最大似然估计法(maximum likelihood estimation)和最大后验概率法(maximum a posteriori estmation),两者分别体现出频率学派和贝叶斯学派对概率的理解方式。

最大似然估计法

最大似然估计的思想是是训练数据出现的概率最大化,依次确定概率分布中的未知参数,估计出的概率分布也就最符合训练数据的分布。

最大后验概率法

最大后验概率法的思想是根据训练数据和已知的其他条件,使未知参数出现的可能性最大化,并选取最可能的未知参数作为估计值。

在估计参数时,最大似然估计法只需要使用训练数据,最大后验法除了数据外还需要额外的信息,这就是贝叶斯公式中的先验概率。

参考文章

1,订阅极客时间专栏《人工智能基础课》