文章目录
- 样本和总体
- 方差
- 随即变量
- 概率密度函数
- 离散变量的概率分布
- 二项分布
- 期望值
- 泊松分布
- 大数定律
- 正态分布
- 正态分布的应用
样本和总体
样本:Sample 总体:Population 样本均值:Sample mean , X with a line over 总体均值:Populaton mean, u, miu
方差
衡量数据集集中趋势:均值,众数,中位数 衡量数据集离中趋势:方差,平方差
集中趋势,但我们不知道数据是接近集中趋势还是远离集中趋势,所以可以用方差去衡量,其中平方是保证数据为正,方差越大,表示数据平均离均值更远。
总体方差σ2,样本方差S2n,样本方差用来估计总体方差。
总体方差的无偏估计或叫无偏样本方差,【离散平方求和/(n-1)】。比【离散平方求和/n】公式要好,这个公式通常会低估总体方差。样本的选择(若样本不分布得均匀)可能使样本方差,样本均值和总体方差,总体均值发生较大的误差!
样本均值:
总体均值:
方差
总体方差
样本方差
标准差
随即变量
随机变量不是传统意义上的变量,而更像是从随机过程映射到数值的函数。
离散随机变量:变量的个数是有限的; 连续随机变量:变量范围可能是有限的,但个数表示无限的
概率密度函数
1离散随机变量中每个变量概率有值且有意义
2连续随机变量中某个具体变量概率值为0,而一个变量范围内的概率有值且有意义。
概率密度是一个函数,用于计算连续变量某一范围空间内的概率
数量如果是无穷,概率就没有意义。
连续情况下,概率密度函数下方面积必然等于1
离散变量的概率分布
二项分布
形式
2.适用条件:
- 所进行的是一系列独立的实验;
- 每一次实验都存在失败和成功的可能,每一次实验的成功概率相同;
- 实验次数有限;
3公式
4.期望和方差:
概率分布包括离散和连续两种。
离散的时候得到二项分布,连续的时候得到正态分布。
二项分布即重复n次的伯努利试验,在每次试验中只有两种可能的结果。
二项分布系数:
P(X=n)=N!/(n!*(N-n)!
期望值
期望值就是每个数据乘以它出现的概率之和。
随机变量的计算出来的期望值,不一定是随机变量最有可能出现的值,他是总体的集中趋势,总体均值,是我们面对随机变量函数的集体所“期望”的值,他最可能出现,但不一定是最可能的值。即使其他随机变量值得概率很高,也有可能出现其他随机变量值作为期望值,即平均值。
二项式分布
E(X)=np,其中n是试验次数,p是每次成功的概率。该公式只针对二项分布,不针对其他分布的随机变量。
泊松分布
1形式
2.适用条件:
- 单独事件在给定的区间内随机、独立的发生,给定区间可以是时间或空间,例如可以是一个星期,也可以是一英里;
- 已知该区间内的事件平均发生的次数(或者叫发生率),且为有限值。
3.公式:
公式推导过程:
4.期望和方差:
相关扩展
- 对于两个独立的随机的随机变量X,Y,
- X+Y服从新的泊松分布,
- 泊松分布和二项分布的关系(后续章节还有正态分布的转换):如果X~B(n,p),当n较大而p较小时,X可以近似表示成:
- 泊松分布来源于二项分布: n->无限 的二项分布
泊松分布是从二项分布而来的,在二项分布的伯努力试验中,如果试验次数n很大,二项分布的概率p很小,且乘积λ= n p比较适中,则事件出现的次数的概率可以用泊松分布来逼近。
说明两点:
1.泊松分布是离散型概率分布,表示(固定尺度的)连续区间(如时间,距离)上给定的事件发生次数的概率,所以可以看做泊松分布中n是无穷大的。二项分布是固定实验次数下,事件发生次数的概率,n是有界的。
2.泊松分布中发生次数的期望是固定的 λ,事件发生的概率p不定,p=λ/n;二项分布中事件发生的概率p是固定的,发生次数的期望不定,λ=n*p。
大数定律
随机变量的n次观测样本,将所有观测值平均起来,定义变量Xn上面一横表示该平均值是随机变量n次观测的均值,大数定律是指样本均值趋近于随机变量的期望值,或者说n趋于无穷时,样本均值趋于总体样本。样本量足够大的时候,样本均值接近期望值或样本均值将收敛于总体均值或随机变量期望值。
正态分布
区别于之前的离散型概率分布,正态分布是一种连续性概率分布。区别在于:1.离散数据是一个个的确切值,往往能以某种方式进行计数,例如,机器在某一个特定时间段内的故障次数。2.连续数据涵盖的是一个范围,这个范围内的任何一个数值都有可能成为事件结果。总而言之,对于离散的概率分布来说,我们关心的是取得一个确定数值的概率,而对于连续的概率分布来说,我们关心的是取得一个特定范围的概率。
定义:
正态分布的概率密度函数为:
其中,μ 是均值,σ 是标准差。
特别的,标准正态分布的概率密度函数为:
此时,μ =0,σ =1,图像是关于x=0对称的。
正态分布通过参数μ 和σ 进行定义,μ 是指曲线的中间位置,σ 指出分散性。如果一个连续随机变量X符合均值为μ 、标准差为σ 的正态分布,则通常写作X~N(μ, )。
注意:越大,数据分布的越分散,正态分布曲线越扁平、越宽。
正态概率计算:
通常分为三步:
- 确定分布与范围:先确定数据分布能否用正态分布,能否求出均值和标准差,接着找出要求的区域面积;
- 标准化:就是将你的数据所服从的正态分布转换成标准正态分布X~N(0,1);
- 查找概率:一旦完成了标准化,就可以对照概率表进行查找;
标准分:一个变量的标准分即用这个变量减去其均值再除以这个变量的标准差的商,公式:,标准分可将正态分布转换成N(0,1)分布。
正态分布的应用
1.组合概率的计算
如果X和Y是独立的随机变量,且都符合正态分布,则符合X±Y 正态分布,即
且
则
)
2.线性变换和独立观察结果
线性变换影响概率分布中的基本数值,如果X符合正态分布,则aX+b也是正态分布,从而有
E(aX+b)=aμ+b
独立观察结果影响所处理事件的数量,和离散随机变量的独立观察结果类似,其期望和方差也有着同样的规律:
如果 则
3.正态分布近似代替二项分布
比如有这么一道题:在40个问题中答对30道题以上的概率是多少?,如果使用二项分布来计算,将会十分复杂,二项分布的项和系数都很大。
When:关于什么时候用正态分布近似代替二项分布
一般来说,当 ,有np和n(1-p)都大于5时,可以用正态分布替代二项分布。
How:关于如何用正态分布近似代替二项分布
当,均值为np,方差为np(1-p),则可以使用来近似替代二项分布。
注意:在计算近似值以前要先进行连续性修正
1.<=型概率求解
计算的概率时,要确保所选择的范围中包含离散数值a,则需要计算P(X< a+0.5)。
2.>=型概率求解
计算 的概率时,则需要计算P(X> b-0.5)。
3.“介于”型概率的求解
计算 的概率时,则需要计算)
4.正态分布近似代替泊松分布
比如有这么一道题:某一个网站预期发生的故障次数为每年40次,然后计算这个网站每年发生故障小于50次的概率?为了求出P(X< 50)的概率,我们需要求出50次以内所有X值分别对应的概率,非常费力
正态分布近似代替二项分布
如果且,则可用来进行近似代替
二项分布和正态分布是十分相似的,样本容量越大,拟合度越高。