中文问答系统中问题分类技术研究

【摘要】:问答(Question Answering, QA)系统允许用户以自然语言形式进行提问,并直接返回精确的答案。与传统搜索引擎相比,问答系统的查询方式更加人性化,较好地满足了用户快速、准确地获取信息的需求,代表着下一代智能搜索引擎的发展方向。

问题分类通过确定问题的目标答案类型,为后续答案抽取和选择提供语义限制和约束,缩小候选答案的查找范围,并针对不同的问题类型选择不同的答案选择策略,对提升问答系统的整体性能具有特别重要的意义。

问题分类类似于文本分类,但问题分类比文本分类更难。问题分类的处理对象是简短的问句,所含特征信息相对较少。对于当前基于监督学习的问题分类来说,其关键在于特征提取,所提取的特征越丰富,分类的精度也就越高。但是,现有研究存在以下两点不足:

(1)特征提取很大程度上依赖于自然语言处理技术。无论是从现阶段的自然语言处理技术水平来看,还是从问答系统的实时性要求方面考虑,这种特征提取方式不仅会遇到实现技术上的限制,而且也难以满足实际问答系统的需求。

(2)忽视了对所提取特征的组合优化。现有工作大都根据所提取特征本身的分类精度,将一些认为比较重要的特征组合到一起。这种单纯依据特征本身重要性的特征组合方法具有一定的主观性,进而也影响了实际的问题分类效果。

对于中文问题分类,上述两点更加明显。由于中文自然语言处理技术相对于英文还远远不够成熟和完善,加之相应的语言处理基础资源(知识库、语料库等)等的缺乏,与英文问题分类相比,问句特征的提取更加困难。同时,由于中文语言表达的多样性和复杂性,所提取的中文问题特征之间的关联性更强,对这些特征进行组合优化就显得更为重要。

本文针对中文问题分类精度偏低的现状,从丰富特征集合及优化特征组合等层面,来探讨提升当前中文问题分类性能的具体实现途径。具体工作如下:

(1)针对中文问题分类缺乏丰富的特征,提出一种融合基本特征和词袋绑定特征的问句特征模型。在词袋、词性和词义等基本特征的基础上,通过将词性、词义等基本特征与词袋特征分别进行绑定,自动获取一类新的问句特征——词袋绑定特征,并将基本特征与词袋绑定特征进行融合,以获取更加高效的问句特征集合。这种新的问句特征模型不仅具有实现简单、处理开销小的优点,而且有效弥补了基本特征在句法、语义表达方面的不足。实验结果表明,在基本特征基础上融入词袋绑定特征以后,取得了与目前同类型问题集上已知最好的分类精度相当的分类效果。

(2)针对(1)中词袋绑定操作只是将词性、词义等基本特征单独绑定到词袋上,将其扩展为可以将词性、词义等若干基本特征同时绑定到词袋上的多重词袋绑定(multi-ple bag_of_words binding,MBWB)操作。通过在普通词袋和主干词词袋(trunk_BOW, T_BOW)上分别应用MBWB操作,自动生成两类潜在的问句特征——MBWB特征和T MBWB特征。MBWB操作可以更加充分地挖掘蕴含于基本特征之间的潜在特征,定程度上缓解了现有特征提取方法所面临的语言技术限制问题。实验结果表明,在基本特征基础上加入MBWB特征、T_MBWB特征以后,问题分类精度获得了较大的提升。

(3)针对依据特征重要性分析(importance analysis,ⅠA)的特征组合方法具有一定的主观性,提出一种基于重要性和抑制性分析(importance-inhibition analysis,ⅡA)的特征组合方法。该方法在组合问句特征时不仅考虑了单个特征本身的重要性,还考虑了待组合特征之间的抑制性。实验结果表明,与IA特征组合方法相比,ⅡA方法总体上要更加高效。

(4)考虑到ⅡA特征组合方法在特征数量较大时实现效率较低,进一步提出一种基于差异性和重要性的特征组合(diversity and importance based feature combination, DIFC)方法。借鉴分类器集成领域中的分类器互补指数来度量特征之间的差异性,并将差异性的定义由仅考虑样本集被错误分类时的差异(错分差异),扩展为同时考虑样本集被正确分类时的差异(正分差异);将互补性的定义扩展为同时考虑待组合特征与当前特征组合的差异性,以及待组合特征本身的重要性。实验结果表明,与ⅡA等其他特征组合方法相比,DIFC方法灵活高效,准确率更高。