复盘所有NLP比赛的TOP方案，专注NLP

转载

datayx 2021-10-26 16:39:43

文章标签 数据公众号维基百科百度二分类 文章分类 NLP 人工智能

建立一个只专注于NLP比赛的方案分享讨论的项目，讨论时期不限，可包括赛前分析，赛中讨论，赛后复盘，其中以赛后复盘为主。

AI项目体验地址 https://loveai.tech

内容

讨论比赛平台，赛题背景，数据格式，主要思路，技术实现，模型设计，框架选择，评估指标等方面梳理NLP比赛。

复盘所有NLP比赛的TOP方案，专注NLP_公众号

复盘所有NLP比赛的TOP方案，专注NLP_百度_02

WSDM2019-虚假新闻检测比赛

前言: 这篇文章主要以第二名为讨论对象，来自美团NLP团队。同时会对比第一名和第三名的方案。此外，给出了SemEval2019的答案分类任务上的第一名方案，和该比赛联系较多。

一.背景

从标题来看，做成一个二分类问题更加地直接，而本届比赛的思路则不同。前者二分类问题的输入是一个文本(新闻标题/新闻文本/新闻标题+新闻内容) ，而比赛的数据输入是两个文本(新闻标题)，输出是三分类的标签(一致/不一致/无关)。这样的话，显然自然语言推理(NLI)的任务中的方法自然适合用于该比赛。

二.数据介绍

训练样本量为32万，测试样本量为8万。由于输入是新闻标题，长度在20-100词之内。既然是分类问题，多数情况下要考察不平衡现象。三类样本的占比如下：

复盘所有NLP比赛的TOP方案，专注NLP_公众号_03

复盘所有NLP比赛的TOP方案，专注NLP_数据_04

八.反思

官方提供的中文BERT是在中文维基百科语料上训练得到的，语料数据和新闻语料是有区别的。能够将中文BERT继续在新闻数据上训练，提升中文BERT对新闻数据的表征能力。实际上，就在写这篇文章的当日，百度放出了ERNIE，或许基于ERNIE可以在该比赛基础上进一步提升。关于ERNIE的讨论可以参照知乎的一个讨论，如何评价百度新发布的NLP预训练模型ERNIE？，其中自己给出了一个回答如下：

还没来得及读代码，从官方README文件，PaddlePaddle/LARK，读到的信息如下：

改进：

（1）mask的粒度：字(BERT)->词(ERNIE)，不过输入仍旧是字。

（2）语料：中文维基百科(BERT)->百科类+新闻资讯类+对话类(ERNIE)。

意义：

（1）个人觉得更加符合中文应用场景（分词的需求）。

（2）官方放出了代码+预训练模型+训练数据（估计民间PyTorch的wrapper，PyTorch的实现马上就会来的，不要着急）。

（3）对语义知识建模的手段相信可以继续深化，此处赞刘知远老师的回答。

总之，是良心的工作，赞。