主要思想:关系抽取通常是一个pipeline模型,第一步词性识别,第二步实体识别,第三步句法分析,第四步语义解析。这种模型最大的问题就是前一步的错误会传播到后一步(error propagation)。为了解决这个问题,作者设计了一个joint model联合的训练这几个分步骤。这个模型采用增强解析树(augmented parse trees)结构去抽取句子级别的关系,为了训练增强解析树作者使用TREEBANK解析结果加上人工标注生成了特定领域语料,然后使用模式匹配和统计方法挖掘关系。这个模型缺点是需要标注增强解析树的语料,非常耗时。其次,需要对不同类型的关系设计模式匹配的规则。这些缺点制约了其应用场景。


主要思想:首先构建增强依存树(Augmented Dependency Trees),得到一个句子和两个实体的各种特征,然后定义Tree Kernel函数将样本特征映射到高维空间,最后使用SVM进行关系分类。这种方法的缺点就是很依赖增强依存树的结果。

主要思想:过去的方法依赖于句法解析树,这篇论文设计了各种特征,并使用最大熵(maximum entropy)方法在关系抽取任务上得到了很好的效果。作者设计的特征包括:words, entity type, mention level, overlap, dependency, parse tree。实验表明在使用少量解析树特征情况下,分类器就能达到不错的效果。这个模型的缺点就是需要人工设计特征。


主要思想:这篇文章是04年核函数模型的升级版,作者考虑了三种粒度的信息:分词tokenization, 句子解析sentence parsing , 深度依存分析deep dependency analysis。并针对不同源信息设计核函数,最后对核函数进行组合。这种方法的缺点就是仍然需要依赖NLP工具提取特征,而且这个模型复杂度较高。

主要思想:这篇文章同样是句子级别的关系抽取,首先提取特征,然后使用SVM进行关系分类。这篇文章的创新点在于特征设计,作者发现chunking信息足够捕捉句法信息,作者还使用了WordNet, Name List去增强语义信息。这个模型的缺点仍然是需要扔设计特征,且依赖NLP工具的准确性。

主要思想:远程监督有两个问题:第一个是自动标注数据含有大量错误,第二个是不能解决实体之间存在多种类型关系的问题。作者定义了Multi-instance Multi-label Learning,使用多实例学习思想解决噪音的问题, 使用多标签学习解决第二个问题。

主要思想:这篇文章解决的是开放域的关系抽取(OpenIE)。本文最大的创新点是使用协同过滤(collaborative filtering)思想进行关系抽取。首先构建一个矩阵,矩阵的行是实体对,矩阵的列是来自结构化或非结构化数据中的关系。通过矩阵分解就可以得到实体对属于某一关系的值。这种方法比baseline的准确率高了近十个点。这种方法的缺点也比较显著,模型复杂,而且随着实体数量增多,矩阵规模会变的非常大。


主要思想:这篇文章的动机是解决远程监督产生的错误样本问题。创新点主要有两个:第一个是使用piecewise CNN提取句子的特征。第二个是使用多实例学习消除错误样本的问题。piecewise CNN使用两个实体将一个句子分为三部分,实体1左边部分,两个实体中间部分,实体2的右边部分,然后分别卷积,max-pooling得到三个部分的特征,然后进行merge作为一个句子的表示。多实例学习部分将所有实体对和句子作为一个包,只要有一个句子能表示这种关系,就把这个包分类为该类型关系,从而减少了错误样本的影响。

主要思想:这篇是对15年piece-wise CNN算法的改进,主要解决远程监督错误标注的问题。piece-wise这篇使用多实例学习解决错误标注的问题,但是每次从包中选择一个最能表达这种关系的句子,这样就会丢失很多信息。这篇论文针对这点进行了改进。作者设计了一个句子级别的注意力机制为包中的所以句子打分,从而评价每个句子的贡献,最后综合包中所以句子的信息进行关系抽取。

主要思想:作者设计一个新颖的CNN架构进行句子级别关系抽取,本文创新点有两个,第一个是使用了两层Attention机制提取句子特征,第一层attention是实体attention(entity-specific attention),计算输入的word和每个实体的相关性;第二层attention是关系attention(relation-specific pooling attention),计算卷积后的n-gram特征与每种关系的相关程度。第二个创新点是设计了一种pair-wise合页损失函数。这篇文章的实验表明这个模型能够有效提取句子的关键特征,性能也达到了SOTA水平。这个模型的缺点,直观上来看就是比较复杂,感觉缺少一点美感。


