1,为什么要学习高斯过程.
首先:随机扩散问题.
一根很细的管子,管子宽度可以忽略不记,那么就可以看成一条直线,我们在这条直线某一位置滴一滴墨水,看墨水在水中扩散所造成的影响.
如,给定一个时间t,看墨水扩散的距离,结果是随机的,没有一个确定的答案.我们希望建立起分布.
这个概率分布我们用ρ(y)来表示,表示在时间t内,扩散距离y的概率.ρ(y)是一个概率密度.然后我们进一步,假设ρ(y)关于原点对称.
关于原点对称我们就得到了期望为0,二阶矩为常数.
t表示任意时间,x表示任意位置,那么f(0,0)就表示在0时刻0位置的初值.我们写出的f(x,t)就可以得到在任意时刻任意位置的粒子浓度.
那么我们根据粒子守恒得到如下公式
这个公式,表示经过一段时间tao后,x处得粒子浓度.等于之前离x处有y距离得粒子(f(x-y,t))×再扩散过来的概率密度ρ(y),积分.
公式是对的,但是真的与tao没关系吗?
在积分号外面是在时间维度上,积分号里面是在空间维度上.下面我们进行展开.
这里用到泰勒展开,泰勒展开是局部近似,只在增量比较小的时候比较准确.
其中的o就代替了后面的无穷多项.
那么就有问题,时间是我们确实假定tao为足够小的,但是在空间上,要在无穷上积分,并不是无穷小.也可以用泰勒公式吗?
事实证明是可以的.
我们将高阶项o忽略掉
然后利用前面建立的模型(一阶量为0,二阶量为D),化简到如上
这是一个偏微分方程,可以解出来.得到f(x,t)就是一个高斯.
高斯是扩散方程的解,也就是扩散过程可以被高斯描述.
图像如下:
并且这个高斯分布没有随机性.26.03
第二个为二元高斯分布,其中ρ表达的是两个随机变量之间的关系,也就是相关
运算.
在推广到n维,这里使用矩阵的符号.我们从三个方面来殊途同归地理解高斯过程
(1),中心极限定理
当x1,x2…xn独立同分布的话(前面的n维高斯变量就类似这种情况,只不过不独立),我们以抛硬币为例,我们通过无穷次实验取平均就可以近似出期望的概念.高斯分布很可能就是就是一个概率密度函数.
这个极限定理的意义就是:将随机变量的随机性经过(无数次实验),的结果相加,类似于正负相消,这样就消除了随机性.
这叫做大数定理.
但是中心极限定理,保留了部分随机性,留下的是这些随机变量都拥有的部分.
这就是中心极限定理.N代表高斯分布,这里E(x)=0,方差等于1表示对随机变量进行归一化处理.
那么我们就可以知道,不管x1,x2…是什么分布,以中心极限定理,都会得到一个高斯分布(这是一个随机量).所以说随机性没有完全消除.高斯取每个点的概率是确定的,但是取哪个点是随机的,只能是有概率取这个结果.(如结果为0.2的概率为0.5)
下面来证明中心极限定理.
其中fai叫做特征函数.f(x)是x的概率密度.抛开常数来说,就是傅里叶反变换的公式.所以说每个随机变量的特征函数与概率密度是一对傅里叶变换对.其实这里-w就是傅里叶变换了,所以也可以理解为傅里叶变换吧.
本来两个随机变量加在一起会提高随机性,因为加在一起的方差等于各自方差的和.但是我们有了特征函数的工具,特征函数具有可加性
第一步用可加性,第二步用独立.各独立随机变量相加,最后结果就等于各个随机变量的特征函数相乘.
有一个小知识,如果两个独立随机变量相加,其和的概率密度等于之前两个随机变量概率密度的卷积.
注意,两个随机变量相加,结果的概率密度并不是相加关系,而是卷积关系.
下面我们利用特征函数来证明大数定理与中心极限定理.
对于大数定理可以写成如上形式,由于是独立同分布,所以每一个随机变量的特征函数都相同.由于是满足相加性的,所以每一个的特征函数是x的特征函数/n.
首先将e指数进行泰勒展开,并且求出线性期望,这里还有一个求极限的过程.最终就得到了当n趋近于无穷时,特征函数逼近于exp(jwu),就等于ctaU(w)的特征函数,注意这里u没有随机性,不是一个随机变量,但是确定值也有特征函数,所以最后得到一个确定性的数.下面证明中心极限定理.
这里任然用泰勒将e展开,注意这里的x都经过了归一化(E为0,方差为1),所以展开第二项求期望是0,我们需要再多向后展开一项,才可以将特征函数表示完整.
下面我们就来说明求出来的结果就是高斯分布的特征函数.
如上是二元高斯分布的表示法,所以上面的中心极限定理就表示了一维高斯分布.
这里经过一个配方法,并且将与x无关的都提到积分号外面.
其中积分号里面以及前面的常数,恰好是一个完整的概率密度函数,所以积分为1.在其中的jwα方并不影响积分,在复变函数中,只是在不同线上做积分,所以完全相同,不影响积分值.(柯西积分定理)
根据柯西积分定理,在一个封闭空间中的积分为0,随着两条横线趋于无限,两条竖线趋于0.所以就得到了二者相同.证明
两条竖线的方程以及积分如上,(实部加虚部),展开后得到exp(jc1y)一定是有界的,因为这代表sin函数,exp(c2y方)也是有界的,因为y有界,第一项趋于0,所以整体趋于0.所以上下两条线相同.这就是一个完整的概率密度函数.
将(0,1)带入,就得到了之前算出来的结果.所以就证明了中心极限定理.
这里引入了特征函数,它特别适合处理独立随机变量的和的问题.
所以说中心极限定理告诉我们:
大量的微小的随机变量叠加在一起的时候,他们形成的整体的统计分布是高斯分布.
并且对于一些随机变量的和的增长约束用n来进行,就将随机性压到一个点上.而用根号n来约束,约束相对较弱(阶数低),就留下了一部分随机性.就是高斯分布.
如果继续增大n那么结果就一定是0了.因为相当于常数除以无穷大.
那么如果从根号n逐渐增大到n的过程中,在某一个点,结果就成了一个数了,这个点在哪呢?
就是如上结果,有什么意义呢?
随机变量相加,随机性在增长,增长的速度就是上面的结果.我们用这个结果对随机变量和进行约束,刚好得到一个数.
至此随机性有去掉一份神秘.
所以电子通信系统中的热噪声,常常假设为高斯分布.热噪声就是无数个微小电子撞击板形成的冲激,这无数个微小的冲激,叠加在一起就是高斯分布.
(2),第二个角度.(物理角度)
分子运动
这里我们来说明n维高斯分布,一个变量x=(x1,x2,…,xn),可以说他服从n维高斯分布,但不是x1,x2,…独立同分布于高斯.这个更像是很多次实验,而n维说的是x的维度.在几维空间上满足高斯分布.
首先如果建立运动模型,那么非常复杂,因为还有分子间的碰撞,多次碰撞是非常难预测的.所以应该建立分布模型.也就是不再关心中间过程,而关心最终结果.
这里我们想象一个分布,将一滴墨水滴在水管中,给一个可以忽略不计的时间,分子在水管中扩散而出,那么很明显滴下墨水的位置分子应该越多,往两边走越远,分子越少.这个分布还满足如上两条性质.明显就是一个概率密度.
这个概率密度是确定的,随机性在每一次实验时,结果都不相同,无数次实验后服从高斯分布.
然后建立起这个方程,我们是想要求fai,这个才是高斯分布的函数,而f只是我们用来列方程的量.
相当于在距离上,每个粒子再进行高斯分布.
利用泰勒展开,求解方程,其中由于fai函数是偶函数,所以乘以一个奇函数,在对称区间上积分,结果为0.
前面的积分为方差记为D,这就是扩散方程,解如上.
这里还解出一个t参数.这里可以看到把t取成标准差,得到的结果就是一维的高斯分布.(3)第三个角度,信息科学的角度
最大熵
熵最大就意味着随机性最强.
上面就是信息熵的定义.什么样的随机过程熵最大?
在有限区间上是均匀分布,并且均匀分布只存在在有限区间上,但是这里我们要求的是无穷区间上.
并且拥有限制条件,给均值并且给二阶矩,就等于给了方差.
这里我们要求信息熵的最大值,并且有三个限制条件,所以用拉格朗日限制条件求极值方法.
这里的不同点在于:之前的拉格朗日求最大值,自变量都是一个数,但是这里自变量是一个函数,f,我们实际上在优化一个函数.
那么在求最大值优化过程中,需要求导,对一整个函数如何求导?
用到变分的方法.
其中,f0表示最优函数,在这个f0函数上信息熵最大.我们将原来的G(f)抽象出一个H(t),而t是正常的自变量,不是一个函数,所以可以求导,其中g也为一个函数.
H(0)处的信息熵最大=G(f0),所以H(t)函数在0处取最大值,所以对t求导,导数为0.
我们就根据这个方程去求解G
然后我们对上面的方程对t求导,这里积分号不动可能是因为积分的量并不是t,所以就按乘法公式来求导.其中g函数是任取的,所以后面括号中的函数等于0
最后求解出f0,就得到了高斯分布的函数.因为底数是e,指数上是二次型.
也可以根据拉格朗日限制条件求解方程组,把lanmda都解出来,结果如下.
所以高斯随机过程就是携带信息最多的随机过程.
这是在双边无界的情况下,考虑最大熵问题的.
对于单边无界条件,我们给的限制条件不约束方差,这样最后的结果为指数上面一次项,所以为指数分布.
指数分布的最重要特点就是无记忆性.之后的泊松分布会用到.
这种在半空间上考虑问题的最大熵过程就是指数分布了.
在[a,b]上考虑,f0就成了一个常数与x无关,就是均匀分布了.
但是大部分情况都是双边无界的,所以高斯过程非常重要.
下面我们就来研究随机游走模型
这里表示将t离散化,先分析离散,后面再逐渐将变量趋于0,这是一维的随机游动,1/2的概率向左向右,并且每次游动Δx.所以在0到t之间,走了n步.
sn为向右走的步数.所以可以表示出x(t)
xk为伯努利分布,并且可以将sn写成独立随机变量的和,每一个的均值为1/2,总的均值为n/2,所以求得E(x(t))为0.
x(t)的方差为E(X(t)的平方),其中每个量都减去n对方差没有影响,并且V(sn)的方差为n/4,因为V(x1)的方差=E(x1的平方)-E(x1)的平方=1/2-1/4=1/4,得到最后的方差为n(Δx)的平方.
我们试图将x(t)表达为中心极限定理的形式,那么sn-n/2可以使得每一个随机变量(x1,x2…)的均值为0,并且除以根号方差,也可以让每一个随机变量的方差为1,这样前一部分就是一个标准的高斯分布,配出后面的Δt与根号n,其中n=t/Δt,那么我们分析时候如果让
(Δx的平方)与Δt趋于0的速度保持整数倍的相同,趋于常数D,那么就得到了我们之前扩散方程的结果.
所以高斯分布广泛存在于现实世界中.