知识挖掘是从已有的实体及实体关系出发挖掘新的知识,具体包括知识内容挖掘和知识结构挖掘。
主要的技术包含实体的链接与消歧、知识规则挖掘、知识图谱表示学习等。其中实体链接与消歧为知识的内容挖掘,知识规则挖掘属于结构挖掘,表示学习则是将知识图谱映射到向量空间而后进行挖掘。

1. 知识内容挖掘:实体链接

实体链接是将文本中的实体指称(Mention)链向其在给定知识库中目标实体的过程。
实体链接的基本流程包括实体指称识别、候选实体生成和侯选实体消歧三个步骤,每个步骤都可以采用不同的技术和方法。

  1. 实体指称识别
    实体链接的第一步是要识别出文本中的实体指称。该步骤主要是通过命名实体识别技术或者词典匹配技术实现。
    命名实体识别之前介绍过,词典匹配技术需要首先构建问题领域的实体指称词典,通过直接与文本的匹配识别指称。
  2. 侯选实体生成
    候选实体生成是确定文本中的实体指称可能指向的实体集合。
    对于mention m∈M的每个实体,实体链接系统试图包括实体mention m可以在候选实体集合Em中引用的可能实体。
    候选实体生成的方法主要基于实体mention的表面形式与知识库中存在的实体名称之间的字符串表示。候选实体生成的方法包括下面几种:
    (1)基于名字扩展
    某些实体提及是缩略词或其全名的一部分,因此可以通过表层名字扩展技术,从实体提及出现的相关文档中识别其他可能的扩展变体(例如全名)。然后,可以利用这些扩展形式形成实体提及的候选实体集合。表层名字扩展可以采用启发式的模式匹配方法实现。
    例如,常用的模式是提取实体提及邻近括号中的缩写作为扩展结果;例如“University of Illinois at Urbana-Champaign(UIUC)”“Hewlett-Packard(HP)”等。除了使用模式匹配的方法,也有一些方法通过有监督学习的技术从文本中抽取复杂的实体名称缩写。
    (2)基于搜索引擎的方法
    将实体提及和上下文文字提交至搜索引擎,可以根据搜索引擎返回的检索结果生成候选实体。
    例如,可以将实体指称作为搜索关键词提交至谷歌搜索引擎,并将其返回结果中的维基百科页面作为候选实体。此外,维基百科自有的搜索功能也可以用于生成候选实体。
    (3)构建查询实体引用表
    为了构建查询实体引用表,常用的方法是基于维基百科中的词条页面、重定向页面、消歧页面、词条正文超链接等抽取实体提及与实体的对应关系。
  3. 候选实体消歧
    在确定文本中的实体指称和它们的候选实体后,实体链接系统需要为每一个实体指称确定其指向的实体,这一步骤被称为候选实体消歧。
    一般地,候选实体消歧被作为排序问题进行求解;即给定实体提及,对它的候选实体按照链接可能性由大到小进行排序。
    总体上,候选实体消歧方法包括基于图的方法、基于概率生成模型的方法、基于主题模型的方法和基于深度学习的方法等。
    ①基于图的方法:将实体指称,实体以及他们之间的关系通过图的形式表示出来,然后对关系进行协同推理
    ②基于概率生成模型:对实体提及和实体的联合概率进行建模
    ③基于主题模型建模:实体在文本中的相容度,实体与话题的一致性进行联合建模
    ④基于深度学习:特征向量(实体E/拥有的关系R/实体类型ET/实体描述D)–词散列降维–多层非线性映射–语义层–语义相关度


2. 知识内容挖掘:规则挖掘

(1)归纳逻辑程序设计 ILP(Inductive logic programming)
(2)路径排序算法 PRA (Path ranking algorithm)
两个实体的一组关系路径–预测–实体可能存在的关系
步骤:
①特征选择:选择对预测目标潜在有用的关系路径,计算随机游走的准确度和覆盖度
②特征计算:对于实体对(h,t)和某一特征路径(r),计算从沿路径r到达t的概率
③关系分类:为每一个目标关系训练一个分类模型