1、二项分布(Binomial Distribution);
参考wiki,在统计学和概率学中,二项分布是n个独立的0/1(是/非)试验中“成功次数”的离散概率分布,其中每次成功的概率记为p。这种单次成功/失败的试验又称为伯努利分布,事实上,当n被归一化为1时,这种分布被称为伯努利分布。
如果一个随机变量X是服从参数为n,p的二项分布,我们记为X~b(n,p),n次试验中恰好成功k次的概率质量函数(离散随机变量在各个取值上的概率)是:
二项分布的期望和方差如下:
2、多项分布;
多项分布是二项分布的拓展。扔骰子是一个比较简单的多项分布的问题,标准的骰子有6个面对应6个不同的点数,这样单次每个点数朝上的概率都是1/6。更加一般的问题可能是“点数1,2,3,4,5,6依次出现次数为(x1,x2,x3,x4,x5,x6)的概率为多少,其中x1+x2+x3+x4+x5+x6=N”。要理解多项分布,先回顾一下我们以前接触过的多项式定理:
其中n1+n2+...+nt=n,n1,n2,...,nt是满足上式的所有非负数组合,即为一组组合解。
再来看多项分布,某一个随机试验有K中可能的结果r1,r2,...,rk,对应的概率分别是p1,p1,...,pk;那么在N次采样中,r1出现n1次,r2出现n2次,...,rk出现nk次的概率质量函数可以表示为:
我们可以分析一下这个式子,我们知道,(***)式是k个变量和N次试验的展开式,是一个多项式(多项分布),如果这k个变量恰好代表所有各个事件的发生概率,那么这些概率的和就是一个必然事件----即是对一个必然事件做了N次相同的试验。多项式展开的每一项都代表了一个事件的出现概率,即我们上文中提到的r1,r2,...,rk,这就是多项分布的由来。
3、Beta分布;
wiki直接给出了Beta分布的概率函数:
是GAMMA函数,α,β是参数。我们还是分析一下抛硬币这个最经典的例子:有一枚均匀的硬币,抛了5次,结果是3次head,2次tail,要求的是这枚硬币抛出head的概率。这是一个典型的已知观测结果求最适参数的问题,设head概率为t,则tail概率为1-t,构造似然方程如下:
M(t)=t3(1-t)2 当t=3/5时似然方程取到最大值
所以我们预测这枚硬币抛出head的概率是3/5.如果试验中抛出5次head的话,似然方程告诉我们,这枚硬币抛出head的概率是1,这显然是不符合常理的,这也是似然方程估计的过拟合现象。
贝叶斯方法给似然方程乘上了一个先验概率项,用来修正似然方程的片面性。我们选择Beta分布作为先验概率的分布方式,我们要求的后验概率正比于先验概率和似然方程的乘积:
θ|a,b); 似然方程p(x|θ)=10θ3(1-θ)2
求得后验概率p(θ|x)=Beta(θ|a+3,b+2),求解过程在这里省略了,wiki上给出了简单明了的计算方法。我们很明显的看到,在观测前后,先验概率和后验概率都满足Beta分布(所谓的共轭分布),而且参数a和b有很明显的相关性(3次head,2次tail),这就是Beta分布的神奇之处,十分奇妙。
4、狄利克雷分布(Dirichlet Distribution);
狄利克雷分布是Beta分布的拓展版,将二项分布(伯努利试验)变成了多项分布(多元变量),将二项分布对应的先验分布(Beta)也替换成了狄利克雷分布。即Beta分布是二项分布的共轭先验分布,那么狄利克雷分布就是多项分布的共轭先验分布。Dirichlet分布也可可以看做是分布之上的分布。如何理解这句话,我们可以先举个例子:假设我们有一个骰子,其有六面,分别为{1,2,3,4,5,6}。现在我们做了10000次投掷的实验,得到的实验结果是六面分别出现了{2000,2000,2000,2000,1000,1000}次,如果用每一面出现的次数与试验总数的比值估计这个面出现的概率,则我们得到六面出现的概率,分别为{0.2,0.2,0.2,0.2,0.1,0.1}。现在,我们还不满足,我们想要做10000次试验,每次试验中我们都投掷骰子10000次。我们想知道,出现这样的情况使得我们认为,骰子六面出现概率为{0.2,0.2,0.2,0.2,0.1,0.1}的概率是多少(说不定下次试验统计得到的概率为{0.1, 0.1, 0.2, 0.2, 0.2, 0.2}这样了)。这就是Dirichlet分布(Ditribution of distribution)。
例如,如果我们有一个能够取K = 6种状态的变量,这个变量的某次特定的观测恰好对应于x3 = 1的状态,那么x就可以表式为x=(0,0,1,0,0,0)T,如果用参数μk表示xk=1的次数,那么x的分布如下:
然后考虑一个有N次观测的数据集D,对应的似然函数可以表达为:
其中mk表示的是xk=1的次数。下面是标准归一化的狄利克雷分布公式,也是多项分布的共轭先验:
上式乘上多项分布的似然方程得到下面的后验分布:
可以发现,后验分布和先验分布有着共轭的形式,便于计算和分析。
了解Beta分布首先要了解一个叫做“共轭先验(Conjugate Priors)”的问题。共轭先验是属于贝叶斯统计流派,指的是“如果后验分布和先验分布属于同一类型(同一簇),则先验分布和后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验”。共轭先验的好处在于代数上计算和分析的方便,可以直接给出后验分布的封闭形式