- R语言中的概率密度以及分布函数
在R中,概率函数形如:
其第一个字母表示其所指分布的某一方面:
d Density的缩写,表示密度函数。举个例子,标准正态分布x=0对应的值可以用dnorm(0)计算
p Probability的缩写,表示概率函数。举个例子,标准正态分布从无负穷大到0的概率,可以用pnorm(0)计算
q Quantile的缩写,表示分位函数。举个例子,如果知道标准正态分布从负无穷大到x的概率是0.9678,想要知道这个x的值,可以用qnorm(0.9678)计算
例如,70%的人的年龄是多少?
r Random的缩写,表示随机函数,用于随机生成符合正态分布的数值。举个例子,如果想随机生成10个符合标准正态分布的函数,可以用rnorm(10)来获得
- 概率质量(/密度)函数probability mass function
针对离散型变量
f(x)=P,计算变量x=某个值的概率
p: x≤某个值的概率
d: x=某个值的概率
注:针对连续型变量,某一个X的变量对应的概率固定为0
- 累计分布函数(Cumulative Distribution Function)
对于离散型密度函数为: =
f为随机变量X的概率质量函数
例如:掷硬币,定义X=a1时为head表示为1,X=a2时为tail表示为0
概率质量函数为:
f(a1)=1/2
f(a2)-1/2
基于概率密度函数计数:当X<=1时的概率为多少(表示要么时head,要么时tail的概率)
F(X<=1)=1/2+1/2=1
- 离散变量(伯努利随机变量)分布:0-1分布
0-1分布就是随机试验次数n=1情况下的二项分布。即只先进行一次事件试验,该事件发生的概率为p,不发生的概率为q=1-p。这是一个最简单的分布,任何一个只有两种结果的随机现象。
类似掷硬币时,求当掷一次硬币X=1(人头朝上),或者0(人头朝下)的概率。
f(X)=p或者1-p(X=1,或者0)
E(X) = p
Var(X) = (1-p)p
- 离散变量(n次伯努利随机变量)分布:二项分布
二项分布即重复n次独立的伯努利试验
在每次试验中只有两种可能的结果(因变量Y=0或者1),而且两种结果发生与否互相对立,并且相互独立,与其他各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验。
当试验次数为1时,二项分布服从0-1分布。其概率记为p
例如:抛了100次硬币,n=100,其中20次为正面。表示:Y=1, X=20, n=100
可以求出(X=20,Y=1)的概率
注:括号内是一个整体,不是求Y=1的概率,而是P(Y=1|X=20),X是n次试验之中,Y=1的次数
不是求正面的概率,而是100次试验中20次正面的概率
概率质量函数:
其中,q=1-p,
, p=单次试验,Y=1的概率
E(X)=np
Var(X)=np(1-p)
- 二项分布(The Binomial Distribution)的R语言实现
样本:最近120日(次),创业板上涨(记为Y=1)天数为40天,下跌(记为Y=0)80天。根据古典概率和0-1分布,p=40/120=0.33,即单日(1次试验)上涨的概率为33%。求未来100天(n=100),有20(X=20)日上涨(Y=1)的概率。
dbinom(20,100,0.33)
[1] 0.001532549
计算:X=1,2,3…100的概率(100日中有1日,2日,3日…100日上涨的各自的概率)
dbinom(1:100,100,0.33)
[1] 1.994892e-16 4.863666e-15 7.825421e-14
9.346706e-13 8.838915e-12 6.893034e-11 4.559103e-10 2.610427e-09 1.314304e-08[10] 5.890830e-08 2.373916e-07 8.671881e-07
2.891291e-06 8.849569e-06 2.499013e-05 6.538928e-05 1.591388e-04 3.614272e-04[19] 7.682811e-04 1.532549e-03 2.875571e-03
5.085899e-03 8.495200e-03 1.342432e-02 2.010041e-02 2.855828e-02 3.855131e-02[28] 4.950432e-02 6.053642e-02 7.056558e-02
7.848170e-02 8.335020e-02 8.459424e-02 8.210617e-02 7.625895e-02 6.781735e-02[37] 5.777743e-02 4.717960e-02 3.694201e-02
2.774786e-02 2.000028e-02 1.383815e-02 9.193409e-03 5.865943e-03 3.595444e-03[46] 2.117369e-03 1.198206e-03 6.516364e-04
3.406056e-04 1.711162e-04 8.262853e-05 3.834969e-05 1.710671e-05 7.333472e-06[55] 3.020953e-06 1.195660e-06 4.545948e-07
1.659985e-07 5.820235e-08 1.958900e-08 6.326762e-09 1.960169e-09 5.823389e-10[64] 1.658199e-10 4.523399e-11 1.181485e-11
2.953054e-12 7.058552e-13 1.612336e-13 3.516887e-14 7.319147e-15 1.451995e-15[73] 2.743086e-16 4.929588e-17 8.417087e-18
1.363727e-18 2.093568e-19 3.040601e-20 4.170558e-21 5.392157e-22 6.557626e-23[82] 7.483858e-24 7.993907e-25 7.968340e-26
7.387680e-27 6.346584e-28 5.030231e-29 3.660056e-30 2.430626e-31 1.463213e-32[91] 7.919635e-34 3.815918e-35 1.616759e-36
5.929998e-38 1.844681e-39 4.732158e-41 9.611399e-43 1.449175e-44 1.441965e-46[100]
7.102218e-49plot(dbinom(1:100,100,0.33))
- 二项分布累计分布结果
例如求:未来100日内,(X<=30)创业板指数上涨的概率
用相加的方法(P(X=1)+P(X=2)+…+P(X=30))J计算二项分布累计分布函数的结果
sum(dbinom(1:30,100,0.33))
[1]
0.300622
或者直接用概率函数计算:
pbinom(30,100,0.33)
[1]
0.300622 约等于30%
应用:P(X>30)≈70%,即预测上涨天数>30天的概率有70%,如果发现前70天上涨天数较少,那么后30天上涨的概率就会很大。