Chinese Named Entity Recognition | Papers With Code
先看这个领域中在 公开数据集上的最佳方法,然后用这些方法做实验。
常见方法:
IDCNN+CRF (2017-EMNLP)
Bert+BiLSTM+CRF
Bert_wwm+BiLSTM+CRF
Flat-Lattice Transformer (2018-ACL)
Lattice LSTM +crf (2018-ACL)
CAN-NER (2019-NAACL)
Embedding+ Convolution Attention + GRU + Global SELF-Attention + CRF
公开数据集上的最佳方法:
数据集:MSRA数据集、OntoNotes 4 数据集
方法:BERT-MRC+DSC
论文:DSC https://arxiv.org/pdf/1911.02855v3.pdf
BERT-MRC https://arxiv.org/pdf/1910.11476.pdf
代码:BERT-MRC https://github.com/ShannonAI/mrc-for-flat-nested-ner
DSC https://github.com/fursovia/self-adj-dice
数据集:MSRA Dev数据集
方法:ERNIE 2.0 Large
论文:https://arxiv.org/abs/1907.12412
代码:https://github.com/PaddlePaddle/ERNIE/
预训练语言模型带来NLP领域的巨大飞跃就无需多言了,本文所提出的ERNIE 2.0除了能够捕获预训练语言模型中常见的句子或者词的共现之外,更重要的是能够捕获词汇、句法和语义信息。ERNIE 2.0的预训练是持续性地多任务的增量学习。实验结果表明,本文的模型16个自热语言处理任务上(包括GLUE benchmarks和多个中文任务)都超过BERT和XLNet。
数据集:Weibo NER数据集、Resume NER数据集
Weibo NER数据集是一个来自社交媒体网站新浪微博的中文命名实体识别数据集。
Resume NER数据集 包含八个细粒度实体类别-分数从74.5%到86.88%
方法:FGN
论文:https://arxiv.org/pdf/2001.05272v6.pdf
代码:https://github.com/AidenHuen/FGN-NER
作为象形文字,汉字包含潜在的字形信息,这一点经常被忽视。在本文中,我们提出了FGN1,融合图示符中国网络。除了使用新的CNN,该方法可以通过融合机制提取字符分布表示和字形表示之间的交互信息。FGN的主要创新包括:(1)提出了一种新的CNN结构CGSCNN,用于捕获图形符号信息和相邻图形之间的交互信息。(2) 我们提供了一种滑动窗口的方法和注意机制,以融合每个字符的伯特表示和字形表示。这种方法可以捕获潜在的交互作用上下文和字形之间的知识。实验在四个实验台上进行NER数据集,表明将LSTM-CRF作为标记的FGN实现了新的为中国NER提供最先进的表演。此外,还需要进行更多的实验旨在调查各种组件和设置对系统的影响
数据集:SighanNER数据集
方法:BiLSTM+CRF+adversarial+self-attention
论文:https://aclanthology.org/D18-1017.pdf
代码:https://github.com/CPF-NLPR/AT4ChineseNER
命名实体识别是自然语言处理领域的一项重要任务,它需要确定实体边界并将其划分为预定义的类别。对于中文NER任务,只有极少量的注释数据可用。中文NER任务和中文分词(CWS)任务有许多相似的词边界。每种方法都有其特殊性任务然而,现有的方法对于中文NER要么不利用CWS中的单词边界信息,要么无法过滤CWS的特定信息。在本文中,我们提出了一种新的对抗性迁移学习方法充分利用任务共享的框架边界信息和防止CWS的任务特定功能。此外,由于任意字符可以提供重要的线索在预测实体类型时,我们利用selfattention显式地捕获两个令牌之间的远程依赖关系。实验的在两个不同的广泛使用的数据集上的结果表明,我们提出的模型显著且一致地优于其他最先进的方法。
数据集:OntoNotes 5.0数据集
方法:DGLSTM-CRF
论文:https://arxiv.org/pdf/1909.10148v1.pdf
代码:https://github.com/allanj/ner_with_dependency
依赖树结构捕获了它们之间的长距离和语法关系,句子中的单词。句法关系(例如,名义主题),对象)可能推断某些命名实体的存在。此外,命名实体识别器的性能还可以从中的单词之间的长距离依赖关系中受益依赖树。在这项工作中,我们提出了一种简单而有效的依赖性指导方法LSTM-CRF模型对完整的依赖树进行编码,并捕获上述属性,用于命名实体识别任务(内尔)。数据统计显示实体类型和依赖关系之间存在很强的相关性。我们在几个标准数据集上进行了大量实验,并证明了所提出模型的有效性在改善NER和实现最先进的性能方面。我们的分析表明重大改进主要来自以下方面:依赖树提供的依赖关系和远程交互。
论文:
EMNLP2021一种用于联合实体和关系抽取的划分过滤网络
A Partition Filter Network for Joint Entity and Relation Extraction
https://arxiv.org/pdf/2108.12202.pdf
https://github.com/Coopercoppers/PFN
本文提出了新的编码范式-联合编码(Joint Encoding),并基于该范式设计出一种适配多任务学习的编码器 – 分区过滤编码器(Partition Filter Encoder)。该编码器能够同时编码NER和RE的任务特征来保证充分平衡的任务间交互,从而有效规避序列编码和平行编码带来的不足。文章的主要贡献如下:
1. 提出一种基于联合编码的分区过滤网络。
2. 模型在6个数据集上取得了SoTA,超过了TpLinker、Table-Sequence、PURE等多个联合/流水线抽取SoTA模型。
3. 探讨了RE对NER的作用,通过辅助实验得出:RE对NER具有显著的促进作用。该结论佐证了联合抽取的必要性以及其相较于流水线抽取的优越性。
EMNLP2020 基于双图推理的文档级关系抽取
Double Graph Based Reasoning for Document-level Relation Extraction
https://www.aclweb.org/anthology/2020.emnlp-main.127.pdf
https://github.com/DreamInvoker
文档级关系提取的目的是提取文档中实体之间的关系。与句子级关系提取不同,它需要对文档中的多个句子进行推理。在本文中,我们提出了以双图为特征的Graph Aggregation and Inference Network(GAIN)。GAIN首先构建了一个异质的 mention-level graph(hMG),以建模文档中不同mention之间的复杂交互关系。它还构建了一个entity- level graph(EG),在此基础上,作者提出了一种新的路径推理机制来推断实体之间的关系。在公共数据集DocRED上的实验表明,GAIN比之前的最先进技术有了显著的性能提升。
EMNLP 2020 由粗到细的实体识别预训练模型
Coarse-to-Fine Pre-training for Named Entity Recognition
https://arxiv.org/abs/2010.08210
https://github.com/strawberryx/CoFEE
随着预训练模型的发展,基于BERT等预训练表示的命名实体识别模型已经取得瞩目的成绩。然而,当前的预训练模型往往基于语言模型任务和领域通用的数据,这一训练和命名实体识别关联性甚小。同时互联网中存在大量未发掘的弱标签信息,例如维基百科锚文本、知识库链指、命名实体词典等,这些都可以帮助我们进行命名实体识别。这篇论文使用了多种粒度的弱监督数据,分阶段对模型进行训练,得到针对特定类型实体识别的预训练模型。
IJCAI2020:嵌套命名实体识别的监督多头自注意网络
A Supervised Multi-Head Self-Attention Network for Nested Named Entity Recognition
https://www.ijcai.org/Proceedings/2020/0524.pdf
https://github.com/NKU-IIPLab/SMHSA
联合实体和关系提取对于许多自然语言处理(NLP)任务,这引起了越来越多的研究兴趣。然而,它仍然面临着各种挑战识别沿方向的重叠关系三元组使用整个实体边界并检测多类型关系。在本文中,我们提出了一个基于注意的关节模型,主要包括实体提取模块和关系检测模块,以解决这些挑战。关键我们的模型设计了一个有监督的多头自我注意机制作为关系检测模块,分别学习每种关系类型的令牌级相关性。有了注意机制,,该模型能有效地识别重叠关系,并能灵活地预测重叠关系的类型它相应的强度。为了验证模型的有效性,我们在两个基准数据集上进行了综合实验。实验结果表明,我们的模型达到了预期的效果一流的表演。
EMNLP2019:嵌套神经网络的边界感知神经模型
A Boundary-aware Neural Model for Nested Named Entity Recognition
https://www.aclweb.org/anthology/D19-1034.pdf
https://github.com/thecharm/boundary-aware-nested-ner
在自然语言处理中,这是很常见的许多实体中包含其他实体。大多数现有的命名实体识别(NER)工作只处理平面实体,而忽略嵌套实体。我们建议嵌套神经网络的边界感知神经模型
它利用实体边界来预测实体分类标签。我们的模型可以通过检测边界精确定位实体使用序列标记模型。基于检测到的边界,我们的模型利用边界相关区域用于预测实体类别标签,可以降低计算成本,缓解分层序列标签模型中的错误传播问题。我们引入多任务学习来捕获实体边界及其分类标签的依赖关系,这有助于提高识别实体的性能。我们进行我们在嵌套的NER数据集和实验结果表明,我们的方法是有效的该模型优于其他最先进的方法。
ACL2021 NER 模块化交互网络用于命名实体识别
Modularized Interaction Network for Named Entity Recognition
https://aclanthology.org/2021.acl-long.17.pdf
尽管现有的NER模型已取得了比较优的性能,他们亦有一些不足之处。基于序列标注的NER模型在识别长实体时表现得并不是很好,因为他们(模型)只关注词级信息。基于块的(segment-based)NER模型,关注于处理segment的信息,而不是关注无法捕获段内的词级依赖关系的单个词。此外,由于边界检测和类型预测在NER任务中可能可以相互协作,因此,这两个子任务通过共享其信息来相互强化。
本文,我们提出一个新颖的MIN(Modularized Interaction Network)模型,不仅利用了块级信息和词级依赖,而且,结合一种交互机制来支持检测和类型预测之间的信息共享,以提高NER的性能。我们也在NER的三个数据集上做了实验。实验结果表明,本文提出的新模型达到了SOTA。
ACL2021 BERT化隐马尔可夫模型用于多源弱监督命名实体识别
BERTifying the Hidden Markov Model for Multi-Source Weakly Supervised Named Entity Recognition
https://github.com/Yinghao-Li/CHMM-ALT
研究内容:使用多个弱监督数据的噪音标签学习NER,噪音数据:不全、不准、矛盾
提出一个条件隐马尔可夫模型(CHMM:conditional hidden Markov model)
利用BERT的上下文表示能力,增强了经典的HMM模型,从BERT嵌入中学习词的转移和发射概率,推断潜在的真标签,用交替训练方法(CHMM-ALT)进一步完善CHMM,用CHMM推导出的标签对BERT-NER模型进行微调,BERT-NER的输出作为额外的弱源来训练CHMM,四份数据集上达到SOTA。