1、基于有监督学习的方法
可考虑众多因素,由机器学习算法确定句子重要性
句子分类
二类分类:句子是否隶属于摘要
SVM(支持向量机)
序列标注
为每个句子打上标签
可考虑相邻句子之间的关系
HMM(隐马尔科夫模型),CRF(条件随机场)
句子回归
为每个句子预测一个反映重要性的分数
SVR(支持向量回归)
2、基于神经网络的方法
基于编码器-解码器框架进行单文档摘要
编码器:先对句子编码(利用CNN),再对文档编码(利用RNN)
解码器:输出一个0/1序列,进行句子抽取(序列标注)
摘要冗余去除
去除(多文档)摘要中的冗余信息
选择与摘要中已有句子冗余度小的句子
文本蕴涵识别技术很适合此目的,但是由于自身性能太差,无法真正应用。一般基于文本相似度来进行判断。
3、基于整数线性规划(ILP)的方法
将摘要看做一个带约束的优化问题
基于ILP进行求解,可采用现成的ILP求解工具
比如IBM CPLEX Optimizer
同时进行句子抽取与冗余去除
4、基于次模函数的方法
将摘要看做一个预算约束下的次模函数最大化问题
设计次模函数,然后利用贪心算法进行内容选取
submodular次模函数
实际上就对“边际效用递减”这个说法的形式化。就是对于一个集合函数,若,那么在S中增加一个元素所增加的收益要小于等于在S的子集中增加一个元素所增加的收益。形式化表述就是:对于函数f而言,若且,则通俗的说就是你把所有商品看成一个集合,随着你所拥有的物品数量的增加,那么你获得剩下物品所得到的满足程度越来越小。
举例说明:
A是B的子集,则对于函数f(),如果:f(A+e)-f(A)>=f(B+e)-f(B)成立,则说f()函数是子模的。增益递减。
例子如下:
u={1,2,3,4,5,6,7,8} A={1,2,3} B={1,2,3,5,6}
f(A)=|A| 集合A的个数
所以:f(A+e)-f(A)>=f(B+e)-f(B),例如e={3,4,5}
5、摘要句子排序
句子顺序直接影响摘要可读性
单文档摘要中句子顺序容易确定,依据句子在原文档中的顺序即可
多文档摘要中句子顺序较难确定
来自不同文档中的句子如何确定先
后排序?
可综合考虑句子所在上下文信息进行排序。
先确定任何两句之间的先后顺序 机器学习、深度学习
再确定多个句子之间的整体顺序 贪心搜索