Dialogue-Based Relation Extraction

2020ACL 腾讯实验室出品


Abstract

首先作者贡献了出了基于对话的关系抽取数据集(DialogRE),并在此基础上进行了跨句的关系抽取研究。作者认为在关系抽取中,和人相关的信息扮演着重要的角色,考虑到谈话中的及时性,作者设计了针对对话中的关系抽取评价指标,并简单的在基于bert的模型的上的关系抽取做了拓展,结果显示无论是在平常的F1还是作者提出的F1c评价指标都有提升。

Introduction

这部分篇幅有点长,说重点:作者构建的数据集DialogRE里面存在36个关系类型,1788个对话,数据获取来源是美国片《老友记》10季的转写,标注数据特点可以看下表1所示,除了平常的三元组形式的数据(subject,relation type,object),还有一个触发词Trigger,该词汇更能体现出两个实体之间的关系。该数据集的明显的特点是,96%的实体对存在于多个句子中,65%的实体对存在于多个回合(turn:人名+该人说的内容,直到下一个人名说话,这为一个回合)中,89.9%的实体对至少有一个是人,要么就是两个人。之前的工作基本上直接把现有的关系抽取应用到对话中,并没有仔细考虑涉及到人的情况。基于对话的关系抽取另外一个重点就是即时性,之前的关系抽取可以通过获得全文的内容信息来判断实体对的关系,然而在对话中显然不是,只能利用之前说过的话的信息,因此往常的评价指标F1也不太适用了,因此作者提出了新的评价方式F1c,除了数据集的构建,评价指标的提出,作者还改进了现有的关系抽取的方案,通过让模型意识到是人的实体,实验结果表明,这个改进对效果有所提升。

NLP之关系抽取代码 关系抽取数据集_NLP之关系抽取代码

Related Work

首先比较了不同数据集,然后讨论了目前的关系抽取方法,在神经网络上表现效果很好,刚开始用word Embedding,后面用ELMo,再后来用预训练模型finetune,当然效果也是越来越好,最后说了下基于对话的自然语言理解问题,作者并表示,在人与人的对话之间的关系抽取任然需要进一步研究。

Data Construction

下表2所示,主要是标注的数据统计,36中关系,其中PER(人)代表该实体的类型,NAME(命名实体),TR那一列是触发词的占比。

NLP之关系抽取代码 关系抽取数据集_自然语言处理_02

怎么标注的就不多说了,下表3主要是DialogRE的数据统计,后面也有个匿名的情况,就是把人名改成表1中的S1之类的,主要是应为目的是为了能够基于对话的内容去抽取关系,而不是利用外面的知识来支持关系抽取,比如:杰克和肉丝是男女朋友关系,目的是为了能通过对话来知道他俩是男女朋友关系,而不是通过查阅外面的知识来获取他俩的关系的。

NLP之关系抽取代码 关系抽取数据集_神经网络_03

后面又给了些分析,两个实体距离啊,两个实体的类型啊,两个实体是否存在触发词啊等等。

最后作者给出了提出的新的关系抽取评价指标:

NLP之关系抽取代码 关系抽取数据集_NLP之关系抽取代码_04

NLP之关系抽取代码 关系抽取数据集_自然语言处理_05

NLP之关系抽取代码 关系抽取数据集_机器学习_06

整个过程作者用了半页来描述数学符号的意思,尽管符号较多,但比较简单,就不多说了。

Baselines

1、Majority:可以说成随大流的方案,如果实体对没有在训练集中出现,输入训练集中出现最多的关系类型,否者找该实体对有关的频率最高的关系类型。

2、CNN,LSTM,and BiLSTM

3、BERT,利用了预训练模型BERT,输入是

NLP之关系抽取代码 关系抽取数据集_自然语言处理_07

,其中d是该对话拼接而成的,a1代表subject,a2代表object,encoder之后输出一个sigmoid值来表示该实体对类型i的概率大小。4、BERTs:也就是作者提出的改进,(1),通过实体对中的人名来帮助模型定位相关的回合,(2)阻止模型过拟合。方法就是,把原来的

NLP之关系抽取代码 关系抽取数据集_数据挖掘_08

的输入,改成

NLP之关系抽取代码 关系抽取数据集_NLP之关系抽取代码_09

的输入(这块可以看下原文),其规则如公式6所示,

NLP之关系抽取代码 关系抽取数据集_机器学习_10

最终得到输入模型的数据:

NLP之关系抽取代码 关系抽取数据集_NLP之关系抽取代码_11

附录A.4列举了另外三个输入数据的方式(可看原文)

Experiment

实验就不多说了,大家可以看下原文,这篇文章作者提出了一个全新的关系抽取类型的数据集,为以后的研究做了基础,感觉会有越来越多的人在该数据上做文章,在关系抽取中是个不错的方向。