论文名:Automated Phrase Mining from Massive Text Corpora
摘要
本文研究关键短语提取,研究无监督的,使用了通用知识库(KB)信息来做,使用了词性信息提升效果,
引言
Phrase mining的意思是短语(实体、关键词)提取,
本文贡献:
使用通用知识库(KB)的来构造正样本(应该就是用完全匹配的方式),然后训练一个NER模型(非神经网络的),然后用这个NER模型的预测结果来减少负样本噪声,
引入词性信息,
预备
流程图如下:
整体思路我理解是:先从KB里匹配出正样本,其他的词是负样本,然后训练NER/CRF模型,再卡个阈值,筛掉分低的实体,最后出的作为抽取出的短语。
首先用n-gram的方法处理好 短语候选,
方法
短语候选在KB的完全匹配作为正样本,加上词性信息的NER算法:
文章采用基于统计的viterbi算法训练θ(应该是一个类似CRF的模型),
给短语质量打分的Q
基于次数统计的方法对短语的词性序列打分T
最终三个分数相乘
最大化上面的log likelihood
实验
对比实验
实验结果(人工评估)