牛客上总结很好,但是有一些小错误与重复,自己再总结一下好了,顺便复习。

交叉熵公式

两个概率分布

的交叉熵是指,当基于一个“非自然”(相对于“真实”分布

而言)的概率分布

进行编码时,在事件集合中唯一标识一个事件所需要的平均比特数(bit)。

$ P $ 和 $ Q $ 的KL散度 ,又叫他们之间的相对熵,注意相对熵和交叉熵是不一样的。

可知,

交叉熵函数的梯度下降怎么算 交叉熵推导_交叉熵函数的梯度下降怎么算

因此 交叉熵和KL散度(又称相对熵)有如下 关系,

互信息的定义

一般地,两个离散随机变量 X 和 Y 的互信息可以定义为:

其中 p(x,y) 是 X 和 Y 的联合概率分布函数,而

分别是 X 和 Y 的边缘概率分布函数。

互信息与KL散度的关系

由KL散度定义可知,互信息与KL散度有如下关系,

记 p(x|y) = p(x, y) / p(y) , 事实上还有一个关系,

互信息与各种熵的关系大汇总。。。

其中

是边缘熵,H(X|Y) 和 H(Y|X) 是条件熵,而 H(X,Y) 是 X 和 Y 的联合熵。

下面是其中一个的证明,其它应该也不难证明,如果概念搞清楚的话,

logistic回归推导

参考我之前cs229学习笔记。

logistic回归函数与概率模型以及更新公式