共轭分布、gamma分布、beta分布、dirichlet分布、卡方分布、t分布

1.共轭分布

在贝叶斯统计中,如果后验分布与先验分布属于同类(分布形式相同),则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验。

先验分布(prior):在没有看到观测数据时,由我们的经验给出来的参数的概率分布称为先验分布
似然函数(likelihood):关于统计模型中的参数的函数,表示模型参数中的可能性
后验分布(Posterior):考虑和给出相关证据或数据后所得到的条件概率分布

python估计BETA分布的参数 beta分布后验分布_python估计BETA分布的参数
这里分母可以理解为是正则化,使得最终概率相加为1,符合基本约束的作用(分母这里一直纠结,还不太理解)
这里后验分布 就正比于 先验分布*似然函数,如果当我们将似然函数和先验分布式子对应代入,正则化后所得后验分布与先验分布形式相同,那就说明他们是共轭分布。

举例:
就拿最简单的抛硬币来说,通常我们认为一枚硬币正常情况下,正面朝上的概率为1/2,这种在没有看到观测数据的情况下,由我们经验给出的概率值就是先验概率,但是贝叶斯统计中,正面朝上的概率是一个分布,即可能有很高的概率是1/2,也有一定的概率是其他值,这样的一个给定初始参数的一个概率分布就是先验分布,我们假设他服从beta分布python估计BETA分布的参数 beta分布后验分布_概率论_02

紧接着我们抛了n次硬币发现,结果x次正面,这时候我们就会根据我们的实验结果得到一个似然函数python估计BETA分布的参数 beta分布后验分布_似然函数_03,这个似然函数反应了当前参数下出现这种结果的似然性,(极大似然估计中的参数theta是未知的,这里theta是有了先验分布的)

python估计BETA分布的参数 beta分布后验分布_概率论_04
这里得到的便是与后验分布成正比的一个新的参数公式,即后验分布仍然是一个beta分布,所以beta分布就是一个共轭分布,同样二项分布也是一个共轭分布,(之前一直纳闷看到beta分布和二项分布是共轭分布,原来指的是beta分布是共轭分布,二项分布也是共轭分布,还以为他们两个是1和-1是相反数这种关系一样,所以一直和概念对不上,现在明白了)

共轭分布的意义在于因为后验分布和先验分布形式相近,只是参数有所不同,这意味着当我们获得新的观察数据时,我们就能直接通过参数更新,获得新的后验分布,此后验分布将会在下次新数据到来的时候成为新的先验分布。如此一来,我们更新后验分布就不需要通过大量的计算,十分方便。

2.beta分布

beta分布其实是一个对概率求概率分布的分布,就比如上面的硬币正面朝上概率的概率分布
概率密度函数:python估计BETA分布的参数 beta分布后验分布_自然语言处理_05
其中python估计BETA分布的参数 beta分布后验分布_似然函数_06

期望:python估计BETA分布的参数 beta分布后验分布_概率论_07
方差:python估计BETA分布的参数 beta分布后验分布_机器学习_08

3.gamma分布

前一篇文章,我们讲了指数分布,他是用来描述要等到一个随机事件的发生需要多长时间,相比于指数分布,gamma分布就是指数分布的拓展,他描述的是要等到n个随机事件都发生需要多长时间

概率密度函数:python估计BETA分布的参数 beta分布后验分布_机器学习_09
其中python估计BETA分布的参数 beta分布后验分布_python估计BETA分布的参数_10

期望:python估计BETA分布的参数 beta分布后验分布_自然语言处理_11
方差:python估计BETA分布的参数 beta分布后验分布_似然函数_12

关于gamma分布,这篇答文写的比较好

4.狄利克雷分布(Dirichlet)

狄利克雷分布 是beta分布在多维度上的推广,Beta分布是二项式分布的共轭先验,Dirichlet分布是多项式分布的共轭先验,其实将我们上述硬币的例子改为骰子,也就是将beta分布改为了Dirichlet分布

他的密度函数为:

python估计BETA分布的参数 beta分布后验分布_概率论_13

5.卡方分布(Chi-squared)与 卡方检验

若n个相互独立的随机变量python估计BETA分布的参数 beta分布后验分布_机器学习_14均服从标准正态分布,则这n个服从标准正态分布的变量的平方和构成一个新的随机变量,这个新的随机变量分布规律服从卡方分布

概率密度函数:

python估计BETA分布的参数 beta分布后验分布_机器学习_15

期望:python估计BETA分布的参数 beta分布后验分布_概率论_16
方差:python估计BETA分布的参数 beta分布后验分布_机器学习_17

自由度(degree of freedom, df) 指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本数量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数
性质:

1.卡方分布在第一象限内,都是正值,随着参数python估计BETA分布的参数 beta分布后验分布_python估计BETA分布的参数_18的增大,卡方分布逐渐趋向于正态分布
2.卡方分布随着自由度v的增大,卡方分布向正无穷方向延伸,因为均值v越来越大,同时方差2v也越来越大,所以也更宽阔
3.不同的自由度决定不同的卡方分布,自由度越小,分布越偏斜。
4.若python估计BETA分布的参数 beta分布后验分布_机器学习_19服从卡方分布,并且自由度为python估计BETA分布的参数 beta分布后验分布_似然函数_20

卡方分布的一个应用在于卡方检验:
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。

卡方检验的计算公式为python估计BETA分布的参数 beta分布后验分布_机器学习_21
举个卡方检验的例子:
这篇文章的例子举得很好

在假设检验中,拒绝域就是拒绝该假设的取值范围,拒绝域的大小和检验水平取值python估计BETA分布的参数 beta分布后验分布_自然语言处理_22有关,常用python估计BETA分布的参数 beta分布后验分布_自然语言处理_22取值由0.1,0.05,0.01,python估计BETA分布的参数 beta分布后验分布_自然语言处理_22越小,表示拒绝域就越小,就越难拒绝原假设。假设我们现在单边检验python估计BETA分布的参数 beta分布后验分布_机器学习_25,拒绝域的边界就是该假设检验的临界值,也就是我们通常查表的值,查表的值就代表,当前我们这个分布在这一点x, python估计BETA分布的参数 beta分布后验分布_机器学习_26, 对于大于x的点,就落入了拒绝域,所以平时我们求得的值如果小于临界值就接受,否则就拒绝

6.t分布与t检验

假设X服从标准正态分布N(0,1),Y服从python估计BETA分布的参数 beta分布后验分布_自然语言处理_27分布,那么python估计BETA分布的参数 beta分布后验分布_似然函数_28就称为自由度为n的t分布,随着自由度n的逐渐增大,它更趋向于标准正态分布,常常用于根据小样本来估计呈正态分布且方差值未知的样本的均值,

概率密度函数:python估计BETA分布的参数 beta分布后验分布_python估计BETA分布的参数_29
期望:python估计BETA分布的参数 beta分布后验分布_似然函数_30
方差:python估计BETA分布的参数 beta分布后验分布_机器学习_31

t分布可以应用在t检验:
t检验,通常会应用于三种情况的检验,分别是单样本t检验、双样本t检验和配对样本t检验。

1.单样本t检验: 单样本t检验就是用于检验一列变量均值与某一特定数字间有无统计学差异,单样本t检验也称为样本均值(xbar)和总体均值(μ)的比较性检验,对于该检验方法而言,要求样本满足两个前提假设,分别是样本服从正态分布假设,以及样本之间满足独立性假设(即样本之间不存在相关性)。下面利用统计学中的四步法完成单样本t检验:

例题:工商局在检验某厂商生成的矿泉水时,需要验证矿泉水的净含量是否如厂商所说的550ml?

python估计BETA分布的参数 beta分布后验分布_python估计BETA分布的参数_32

第一步:提出原假设和备择假设

原假设:H(0):样本均值和总体均值相等
		 	备择假设:H(1):样本均值和总体均值不等

第二步:构造统计量
python估计BETA分布的参数 beta分布后验分布_python估计BETA分布的参数_33
其中,s为样本标准差。在原假设满足的情况下,t统计量服从自由度为n-1的t分布。

第三步:计算t统计量
根据如上数据,可计算样本均值python估计BETA分布的参数 beta分布后验分布_似然函数_34为550.75,样本标准差s为4.25,所以t统计量的值为0.706

第四步:查表
对比计算的t统计量和理论t分布的临界值,如果统计量的值大于临界值,则拒绝原假设(即认为样本均值与总体均值之间存在显著的差异),否则接受原假设。参照t分布的临界值表,在置信水平为0.05,自由度为15的情况下,对应的临界值为0.821。对比发现,t统计量0.706是小于临界值0.821的,故不能拒绝原假设,即认为饮料净含量的检验结果是合格的。

2.独立样本t检验
独立样本t检验,是针对两组不相关样本(各样本量可以相等也可以不相等),检验它们在某数值型指标上,均值之间的差异。对于该检验方法而言,同样需要满足两个前提假设,即样本服从正态分布,且样本之间不存在相关性。与单样本t检验相比,还存在一个非常重要的差异,就是构造t统计量时需要考虑两组样本的方差是否满足齐性(即方差相等)。

例题:在某次校园体检中,校长很关心初二年级和初三年级学生在视力方面是否存在一定的差异?
第一步:提出原假设和备择假设

原假设:两独立样本变量均值相等
备择假设:两独立样本变量均值不等

第二步:构建统计量

当两组样本方差相等时:

python估计BETA分布的参数 beta分布后验分布_概率论_35


其中,n1为样本组1的样本量,n2为样本组2的样本量,python估计BETA分布的参数 beta分布后验分布_python估计BETA分布的参数_36由两组样本的方差构成,它的计算公式为:

python估计BETA分布的参数 beta分布后验分布_python估计BETA分布的参数_37

在原假设满足的情况下,t统计量服从自由度为n1+n2-2的t分布。

当两组方差不等时:

python估计BETA分布的参数 beta分布后验分布_python估计BETA分布的参数_38

其中,df为方差不相等时,t统计量的自由度,其计算公式如下:

python估计BETA分布的参数 beta分布后验分布_概率论_39

第三步:计算统计量
在计算t统计量之前,应该检验两样本之间的方差是否相等。方差齐次性检验
第四步:查表

3.配对样本t检验

配对样本t检验,是针对同一组样本在不同场景下,某数值型指标均值之间的差异。实际上读者也可以将该检验理解为单样本t检验,检验的是两配对样本差值的均值是否等于0,如果等于0,则认为配对样本之间的均值没有差异,否则存在差异。所以,该检验也遵循两个前提假设,即正态性分布假设和样本独立性假设。下面利用统计学中的四步法完成配对样本的t检验

第一步:提出原假设和备择假设

原假设:两配对样本均值相等
备择假设:两配对样本均值不等

第二步:构造t统计量
python估计BETA分布的参数 beta分布后验分布_自然语言处理_40
其中,python估计BETA分布的参数 beta分布后验分布_似然函数_34为配对样本差的均值,s为配对样本差的标准差。在原假设满足的情况下,t统计量服从自由度为n-1的t分布。

第三步:计算统计量
根据步骤二中的计算公式,可以计算得到配对样本t检验的统计量值,这里不妨以我国各省2016年和2017年的人均可支配收入数据为例(数据来源于中国统计局),判断2016年和2017年该指标是否存在显著差异。

第四步:查表