共指消解(coreference resolution)技术同NER、RE。作为自然语言历届基础技术被广泛的应用于:文本摘要、机器翻译、自动问答和知识图谱等领域。

共指消解的提出是为了识别一段文本中指向同一实体的不同表述。

在自然文本中,经常出现同一个实体的不同表述.例如,“【陈奕迅】,英文名【Eason Chan】, 1974年7月出生于香港.【他】是当今华语乐坛的当红歌手.”这句+话中,【陈奕迅】、【E嬲on Ch锄】、【他】这3个表述都指向现实生活中“香港歌手陈奕迅”这一实体.共指消解正是为识别 一段文本中指向同一个实体(Entity)的不同表述(Mention)而提出的一项技术【41.这里提到 的实体是一个比较抽象的概念,在广义上讲,它对应着一个现实世界中的本体(Ontolo盱),在 狭义上讲,它等同于知识库中的一个概念节点(Concept N0de).而表述是指文本中指代某 个实体的词或短语,如名称、代词、缩写等.

整个共指消解的过程可以理解为——判断一个表述是否指向另一个表述的过程。

  • 照应语(Anaphor):指出的表述。
  • 先行语(Antecedent):指入的表述。

简化的判断可如下:照应语指向先行语

根据照应语和先行语的位置不同可分为四种情况:

  • 回指:先行语在照应语前,其中照应语为人称代词。
  • 预指:先行语在照应语后,其中照应语为人称代词。
  • 名词短语共指:先行语和照应语均为非人称代词的名词短语。
  • 先行语分指:一个照应语对应多个先行语。

一、共指的定义

指代是一种常见的语言现象,广泛存在于自然语言的各种表达中。一般情况下,指代分为 2 种:

  • 回指(也称指示性指代):是指当前的照应语与上文出现的词、短语或句子(句群)存在密切的语义关联性,指代依存于上下文语义中,在不同的语言环境中可能指代不同的实体, 具有非对称性和非传递性;
  • 共指(也称同指):共指主要是指 2 个名词(包括代名词、名词短语)指向真实世界中的同一参照体,这种指代脱离上下文仍然成立。

二、指代消解主要有两个步骤

  • 第一步是指代识别(mention detection),即找出句子中所有的指代,这一步相对简单;
  • 第二步才是进行真正的指代消解(coreference resolution),这一步比较难。

1、指代识别

指代识别阶段尽量保召回率,保留所有找到的可能是指代的词,都参与后期的指代消解。如果一个指代没有找到它的共同指代(coreference),则说明这个指代是孤立的(singleton mention),有可能是指代识别阶段找到的不是指代的词,直接舍弃。

2、指代消解

指代消解发展至今,经历了四种不同的方法,分别是:

  • Rule-based、
  • Mention pair、
  • Mention Ranking。

2.1 Rule-based方法

1976年,Hobbs提出了基于规则的朴素算法,被后人称为Hobbs算法。该方法有9个步骤,包含了很多规则,非常繁琐。Hobbs算法虽然是基于规则的,但在当时取得了不错的效果,现在也常常作为该领域的baseline模型。但是因为该方法是基于规则的,有很多指代消解没法解决。

2.2 Mention pair方法

Mention pair方法把指代消解问题转化为一个二分类问题。从左到右遍历句子,每找到一个指代,就把它和前面找到的每个指代作为一个pair,问分类器这个pair是否指代同一个实体,如果是的话,就把它们连起来。二分类的损失就是交叉熵。很简单的一个模型。

2.3 Mention Ranking

每个指代同时和前面所有指代打分,用softmax归一化,找出概率最大的先行词,添加一条连边。注意需要添加一个NA节点,因为有的指代可能第一次出现,前面没有先行词,或者这个指代根本就不是一个真正的指代。

前面的内容都是假设我们计算好了任意两个指代是coreference的概率,那么,如何来计算这个概率呢?主要有三种方法,分别是Non-neural statistical classifier、Simple neural network和More advanced model using LSTMs, attention。

A. Non-neural statistical classifier。统计机器学习方法,抽取每个指代的各种特征,然后用机器学习分类器来计算两个指代是coreference的概率。这里面的特征包括人称、性别一致性,语义相容性等等。

B. Neural Coref Model。输入是候选先行词和当前指代词的词向量,还需要加入一些额外的特征(Additional Feature),也就是上面统计机器学习方法里用到的一些特征。中间是FFNN,即全连接网络,最后输出两个指代是coreference的概率。

C. End-to-end Model。end2end模型是目前指代消解的SOTA模型,它把指代识别和指代消解两个任务融合到一起,用一个模型来解决。