为什么要进行信息抽取:

从非结构化的文本中抽取出一些非常重要的、关键的、人们关心的数据 。核心店:挖实体+实体间的关系

paddleNLP实现信息抽取 信息抽取应用_三元组


三元组表示(属于知识图谱范围):

paddleNLP实现信息抽取 信息抽取应用_规则集_02


paddleNLP实现信息抽取 信息抽取应用_paddleNLP实现信息抽取_03


信息抽取为什么这么重要?1、问答系统。2、扩充原有的知识库。3、用于法律、金融领域

一些关系展示:

paddleNLP实现信息抽取 信息抽取应用_paddleNLP实现信息抽取_04


paddleNLP实现信息抽取 信息抽取应用_三元组_05

Ontological Relation

IS-A

Instance-of

例如:

paddleNLP实现信息抽取 信息抽取应用_三元组_06


开源的知识库:

paddleNLP实现信息抽取 信息抽取应用_规则集_07


关系抽取方法介绍:

paddleNLP实现信息抽取 信息抽取应用_数据_08

基于规则的方法

例如:提取IS-A关系。

规则集:{X is a Y 、Y(such as)X 、Y including X、 Y,especially X 、X or other Y …} 该规则集都是X-Y,同时我们可以将抽取的结果放入到数据库中。

但是此方法有局限性,比如:掺杂一些不想要的信息,原因:没有细化规则;可以找出来的两对实体会造成异常值,解决办法:在规则集中定义X和Y的类别,如下图所示:

paddleNLP实现信息抽取 信息抽取应用_paddleNLP实现信息抽取_09


这样改进的好处:1、提升挖掘结果准确率;2、可以只返回想要的结果;

规则集好处:1、比较准确;2、不需要训练数据(当数据量比较少的时候)

规则集缺点:1、low record rate,因为人的思维有限,有时候会漏掉很多规则 ,导致大量实体没有被覆盖上;2、涉及到大量人力成本3、规则本身难设计

基于监督的方法

1、定义关系类型
2、定义出所有的实体类型
3、训练数据准备

  • 实体标记(类型)
  • 实体之间关系

重点内容:特征工程

例子:

American Airline, a unit of AMR, immediately match the move, spokenman Tim Wanger said;

分类算法(特征 (American Ariline, TIm Wanger))
特征工程:
1、bag-of-word(跟单词相关的特征):American Airline。Tim Wanger,
2、pos feature(跟词性相关的特征):名词、名词、动词
3、实体类别:ORG(American Airline) ,PER(Tim Wanger)
4、位置相关信息:两个实体之间包含了多少个单词?这句话再本文里的位置是什么?
5、句法分析相关特征:两个节点之间最短路径、路径经过哪些节点?
6、依存文法相关: 用语法树进行分析

关系抽取

bootstrap算法

第一步:生成规则
第二步:利用规则生成三元组
此算法是生成规则-生成三元组
缺点:人力成本高、规则多容易繁琐、数据量大的时候运行时间特别长,规则不太好写。