关系抽取方法:
1、早期:
1.1 基于规则的方法:人工定义抽取抽取规则,与语料进行匹配,抽取关系。
规则一般由领域专家构建,用来描述两个实体所在结构。
1.2 基于本体的方法:(本体是实体的上一级,比如周杰伦演唱了歌曲,本体是歌手)——可能有误
2.传统ML阶段
根据对数据是否标注,分为:有监督、无监督和半监督的方法。开展过程如下:
首先学习过程,预处理样本为纯文本形式,对文本进行分析,建立关系抽取模型,在对测试文本进行训练。
2.1 在有监督中,主要是:
基于核函数的方法:如最短依存树法,输入句法结构树,隐式计算特征向量的内积,选择合适的核函数(卷积树核函数、),比较关系实例的相似性。
基于特征的方法:选择的特征主要有:词特征、上下文特性、位置特征、语义特征,构成特征向量,通过分类模型,如SVM(支持向量机、)VB(朴素贝叶斯)、MI(最大熵)进行关系分类。
2.1 在半监督方法中,是利用少量标注的数据训练大量未标注的数据,得到新的关系实例,扩充语料库。主要有:
自举方法
bootstrap
label propagation(标注传播)
2.3 在无监督中,则是通过聚类的思想将上下文信息相似的实体聚成一类,选择合适的词语标记实体间的关系,之后,自动抽取实体间语义关系。
3 深度学习阶段
主要分为监督和远程监督两类:
3.1 在监督学习中,开始是以pipeline方法为主,将实体抽取与关系抽取作为两个独立的任务完成,主要出现了CNN、RNN、Bi-LSTM等方法,将句子S,分词为[w1,w2,w3…]并通过词嵌入表示为词向量等形式,作为模型的输入,通过卷积、池化抽取主要特征,经过softmax得到关系概率。
3.2 另外一种,则是joint 方法,主要有
基于序列标注的方法:将句子进行标注,如BIOS等方式,利用端到端的模型,同时抽取出关系和实体。
基于共享参数的方法:在编码阶段,实体实体和关系抽取采用共享参数,如在编码阶段,可以使用公用的embedding 和LSTM对句子编码,在解码时,可以使用LSTM进行实体识别,使用CNN关系抽取。
基于图的方法:(待补充)
3.3 远程监督
假设一个实体对之间是某种关系,则包含这个实体对的所有句子都传达了这种关系。存在噪声数据和误差传播的问题,在解决上,一般采用注意力机制的方法。
4开放领域关系抽取