最大后验估计求权重_最大后验估计求权重


著名的贝叶斯公式


最大后验估计求权重_概率分布_02

1.1


这是贝叶斯公式一种最简单而笼统的表达式。这里,我们将A看做隐含变量(参数),而将B看做观测变量(样本)。(隐含变量可以理解为,能通过某种方式决定观测变量分布的参数。例如当观测变量x服从高斯分布时,若其期望未知,并将其期望μ看做变量来进行估计,则可称μ为x的隐含变量)

此时,p(A)称其为A参数的先验分布。p(B)称为变量B的概率分布。p(B|A)表示当参数A的情况一定时,变量B在此情况下的分布情况。我们称之为条件概率,亦称之为似然函数。而本章重点就在于推导p(A|B),它表示在已知观测变量B的结果的情况下,反推其隐含变量的所有可能取值的分布情况。我们称之为后验概率。由于观测变量B的概率分布虽然不一定能得知,但是可以肯定的是它是大于零的,并且是某个确定值,因此有以下关系


最大后验估计求权重_似然函数_03

1.2

其实生活中随处可见后验概率的估计。从最简单的摸球情景来说,如果现在有两个一模一样的暗盒1、2,分别装了9个白球1个黑球、9个黑球1个白球。此时赵老师摸了一个球,发现是白球。那么赵老师下意识反应出,他更可能是摸了白球较多的暗盒1而非暗盒2。从后验概率的角度来解释,将摸球结果ball作为观测变量,来反推隐含变量暗盒的编号,你们也就是说赵老师神机妙算得出后验概率p(box=1|ball=white)>p(box=2|ball=white)。而以阵列信号处理中的DOA(direction of arrival)估计为例来讲,就是把接收到的信号作为观测变量,来估计出信号传来的方向θ的后验分布在哪个角度上是最大的,那么就判定这个信号是从这个角度传来的。

言归正传,假设有以下情境。观测变量为N维列向量y,需要估计的隐含变量(参数)为向量w,另一个不需要估计的隐含变量为转置共轭矩阵R,已知(或假设)y服从一个由wR决定的复高斯分布。另外,R服从某个由常数c,d,e决定的分布;w服从一个由超参数T矩阵决定的0均值复高斯分布,矩阵T又服从某个由超参数α决定的分布,α又服从某个由常数a,b决定的分布。以上,求隐含变量w的后验概率,


最大后验估计求权重_似然函数_04

1.3

你现在可能有点晕,没关系,请看下面的有向无环图(DAG),及对应的分布。


最大后验估计求权重_最大后验估计求权重_05


上述概率表达式中的“|”后的参数是需要进一步去估计的参数,而“;”后的参数看做常数,只需设置合理的固定值就可以了。题目中还提到了超参数,简单解释一下。如果说决定变量的是参数,那么决定参数的参数就称之为超参数。如果怕被搞晕,把超参数和参数都称为参数也无妨。另外,向量的复高斯分布如下(其中N为向量维度)


最大后验估计求权重_似然函数_06

1.4

回到这个问题,我们要得到后验分布,首先用到公式1.2,得到


最大后验估计求权重_后验概率_07

1.5

因为后验分布中只有w是变量,其他参数相对于w来看都可以暂且当做大于零的常数(伏笔:核函数),因此1.5式中后面部分只需要保留含有w的项即可,则有


最大后验估计求权重_后验概率_08

1.6

接下来将式子展开并保留含有w的部分。而又因为y的似然函数和w的先验都是复高斯分布,属于指数分布族,为便于计算,我们希望后验分布也服从复高斯分布(伏笔:共轭先验)。因此,我们有以下推导


最大后验估计求权重_后验概率_09

1.7

以上就是推导出的后验分布。


我果然还是没什么时间来写专栏,下次写再短一点,现在赶紧去上课了。