知识图谱技术综述

徐增林1,盛泳潘1,贺丽荣1,王雅芳2 

目前,随着智能信息服务应用的不断发展,知识图谱已被广泛应用于智能搜索、智能问答、个性化推荐等领域。尤其是在智能搜索中,用户的搜索请求不再局限于简单的关键词匹配, 搜索将根据用户查询的情境与意图进行推理,实现概念检索。与此同时,用户的搜索结果将具有层次化、结构化等重要特征。例如,用户搜索的关键词为梵高,引擎就会以知识卡片的形式给出梵高的详细生平、艺术生涯信息、不同时期的代表作品,并配合以图片等描述信息。知识图谱能够使计算机理解人类的语言交流模式,从而更加智能地反馈用户需要的答案。

三元组的基本形式主要包括实体1、关系、实体2和概念、属性、属性值等,实体是知识图谱中的最基本元素,不同的实体间存在不同的关系。概念主要指集合、类别、对象类型、事物的种类,例如人物、地理等; 属性主要指对象可能具有的属性、特征、特性、特点以及参数,例如国籍、生日等; 属性值主要指对象指定属性的值,例如中国、1988-09-08等。每个实体(概念的外延)可用一个全局唯一确定的ID来标识,每个属性-属性值对(attribute-value pair,AVP)可用来刻画实体的内在特性,而关系可用来连接两个实体,刻画它们之间的关联。 

知识图谱在逻辑上可分为模式层与数据层两个层次,数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。如果用(实体1,关系,实体2)、(实体、属性,属性值)这样的三元组来表达事实。

 

通过知识抽取技术,可以从一些公开的半结构化、非结构化的数据中提取出实体、关系、属性等知识要素。通过知识融合,可消除实体、关系、属性等指称项与事实对象之间的歧义,形成高质量的知识库。知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。 

 

在基于图的推理方法中,文献提出的path-constraint random walk,path ranking等算法较为典型,主要是利用了关系路径中的蕴涵信息,通过图中两个实体间的多步路径来预测它们之间的语义关系。即从源节点开始,在图上根据路径建模算法进行游走,如果能够到达目标节点,则推测源节点和目标节点间存在联系。关系路径的建模方法研究工作尚处于初期,其中在关系路径的可靠性计算、关系路径的语义组合操作等方面,仍有很多工作需进一步探索并完成。 

 

智能搜索

基于知识图谱的智能搜索是一种基于长尾的搜索,搜索引擎以知识卡片的形式将搜索结果展现出来。用户的查询请求将经过查询式语义理解与知识检索两个阶段:

1) 查询式语义理解。知识图谱对查询式的语义分析主要包括:

   1 对查询请求文本进行分词、词性标注以及纠错;

   2 描述归一化,使其与知识库中的相关知识进行匹配;

   3 语境分析。在不同的语境下,用户查询式中的对象会有所差别,因此知识图谱需要结合用户当时的情感,将用户此时需要的答案及时反馈给用户;

   4 查询扩展。明确了用户的查询意图以及相关概念后,需要加入当前语境下的相关概念进行扩展。

2) 知识检索。经过查询式分析后的标准查询语句进入知识库检索引擎,引擎会在知识库中检索相应的实体以及与其在类别、关系、相关性等方面匹配度较高的实体。通过对知识库的深层挖掘与提炼后,引擎将给出具有重要性排序的完整知识体系。

智能搜索引擎主要以3种形式展现知识:

1) 集成的语义数据。例如当用户搜索梵高,搜索引擎将以知识卡片的形式给出梵高的详细生平,并配合以图片等信息;

2) 直接给出用户查询问题的答案。例如当用户搜索“姚明的身高是多少?”,搜索引擎的结果是“226 cm”;

3) 根据用户的查询给出推荐列表等。 

 

社交网络 

社交网站Facebook于2013年推出了Graph Search产品,其核心技术就是通过知识图谱将人、地点、事情等联系在一起,并以直观的方式支持精确的自然语言查询,例如输入查询式:“我朋友喜欢的餐厅”“住在纽约并且喜欢篮球和中国电影的朋友”等,知识图谱会帮助用户在庞大的社交网络中找到与自己最具相关性的人、照片、地点和兴趣等。Graph Search提供的上述服务贴近个人的生活,满足了用户发现知识以及寻找最具相关性的人的需求。