中文单文档摘要技术,区别于中文多文档摘要技术。那什么又是中文单文档摘要呢?就是对单篇文章自动抽取出内容摘要。更多内容,请查询相关文档。闲言少叙,直奔主题,我是宋鹏举。
一、基于特征的方法
可以考虑如下特征来进行文档摘要的生成,包括:文章标题(比如文章标题中出现的词具有较高的权重)、段落的位置(比如文章的首段和尾段具有较高的权重)、段落的特定句子(比如段落的首句和第二句具有较高的权重)、句式的类型(比如陈述句具有较高的权重,含有大标点的句子具有较高的权中等)、文章中频繁出现的词等。该方法简单,准确率较高。
在某些场景下,文章没有清晰的段落,那么,就只能使用文章标题、句式类型、词频三类特征。下面的算法就是描述在此场景下如何生成文章摘要的。
第一步:对文章标题进行中文分词,剔除停用词和常用词,生成待选词表A。
第二步:对文章内容进行中文分词,剔除停用词和常用词,并计算每个词的权重(权重 = 词出现的次数 / 全部词出现次数的和),生成词频表B。
第三步:将待选词表A合并到词频表中。如果待选词表A中的词t在词频表B中存在,则调整词频表B中t的权重值为词频表B中的最大值;如果待选词表A中的词f在词频表B中不存在,则不处理。
第四步:使用大标点完成对句子的切分,仅保留陈述句式。
第五步:对每个陈述句进行权重计算
判断陈述句是否包含了词频表B中的词,
如果包含词频表B中的词,则∑词权重(将对应词的词权重进行加和)。
句子的权重 = 词权重的和 / 句子的长度
第六步:按照依据句子的权重进行倒叙排序,获取权重较高的句子。
第七步:按照句子在文章中出现的顺序输入句子即为文档摘要。
二、基于图排序的方法
基于图排序的方法主要思路是将文章中的句子作为图的顶点,如果句子与句子具有相似度,则句子与句子之间则存在边,边的权重为句子的相似度。句子与句子的相似度定义为:两个句子的公共子串的长度 / (两个句子的长度之和 - 公共子串的长度)。同时将文章的标题也作为一个句子,作为有向图的根节点。具体算法如下:
第一步:分析每个句子,每个句子作为一个图的顶点,将句子的标题也作为图的一个根顶点。
第二步:两两计算句子见的相似度,如果相似度大于0,则将两个句子之间建立边,并设置边的权重为句子的相似度。在文章中先出现的句子作为出顶点,文章中后出现的句子作为入顶点。
第三步:从根定点出发遍历图,如果顶点与顶点之间存在边,则将句子放入候选句中。
第四步:按照句子在文章中出现的顺序输出即为文档摘要。
三、总结
以上给出了两种中文单文档自动摘要的简要算法,具有一定的适用性,哪位高手有这方面的兴趣可以一起交流。