概率图模型:用图来表示的概率分布。
观测结点表示观测到的数据,隐藏结点表示潜在的知识,边表示数据与知识的相互关系。
概率有向图 又称 贝叶斯网络、信念网络
概率无向图 又称 马尔科夫随机场。
马尔科夫随机场满足:每个节点的取值只与它相邻的结点有关。
如果给定一组随机变量X,另外一组随机变量Y形成了马尔科夫随机场,那么 这个随机场叫作条件随机场。
如果给定X的条件下,每一个与Yi相邻的结点个数不超过2个,那么这个条件随机场称为线性链条件随机场。
条件随机场的思想,就是先为Y的每一个分量取值,再根据相邻的分量之间是否满足一些规则或违背一些禁忌,给这组取值奖赏或者惩罚,得到打分。打分 经过指数化和 归一化,得到概率。
规则 和 禁忌可以使用特征函数 f 来表示。
k代表第k个特征函数。
y_i是第i个分量的赋值
x是X的取值。
i表示考虑当前第i个分量。
特征函数的取值是0或 1,权重是 w_k,奖赏为正,惩罚为负。
一共有k个特征函数,针对当前的赋值,每个 特征函数都对相邻的分量计算 是否满足,再加权求和 ,计算 得分。
因此,对给定的X=x,赋值Y=y的得分 是
为了得到 概率 ,对score(y|x)指数化,再归一化,得到条件概率如下:
回想 多项逻辑回归(Softmax Regression):
可以看到,2个模型的条件概率都是指数化后 再归一化,只不过指数的形式不同。
二者都属于对数线性模型 (log linear model).
注意:
- 马尔科夫随机场满足的性质,更严格来讲,称为成对马尔科夫性、局部马尔科夫性和全局马尔科夫性,三者等价。
- 一个很典型的条件随机场的应用场景 是词性标注,此时x即为句子,特征函数f是语法规则,比如介词后边加名词可以认为是比较可能发生的,权重为正;动词后边加动词不太可能发生,需要惩罚,权值为负。
- 特征函数f其实是转移特征函数t和状态特征函数的另一种表示形式,详见《统计学习方法》p196。