建立一个只专注于NLP比赛的方案分享讨论的项目,讨论时期不限,可包括赛前分析,赛中讨论,赛后复盘,其中以赛后复盘为主。

AI项目体验地址 https://loveai.tech

内容

讨论比赛平台,赛题背景,数据格式,主要思路,技术实现,模型设计,框架选择,评估指标等方面梳理NLP比赛。

复盘所有NLP比赛的TOP方案,专注NLP_公众号

复盘所有NLP比赛的TOP方案,专注NLP_百度_02

WSDM2019-虚假新闻检测比赛

前言: 这篇文章主要以第二名为讨论对象,来自美团NLP团队。同时会对比第一名和第三名的方案。此外,给出了SemEval2019的答案分类任务上的第一名方案,和该比赛联系较多。

一.背景

从标题来看,做成一个二分类问题更加地直接,而本届比赛的思路则不同。前者二分类问题的输入是一个文本(新闻标题/新闻文本/新闻标题+新闻内容) ,而比赛的数据输入是两个文本(新闻标题),输出是三分类的标签(一致/不一致/无关)。这样的话,显然自然语言推理(NLI)的任务中的方法自然适合用于该比赛。

二.数据介绍

训练样本量为32万,测试样本量为8万。由于输入是新闻标题,长度在20-100词之内。既然是分类问题,多数情况下要考察不平衡现象。三类样本的占比如下:

复盘所有NLP比赛的TOP方案,专注NLP_公众号_03

复盘所有NLP比赛的TOP方案,专注NLP_数据_04

八.反思

官方提供的中文BERT是在中文维基百科语料上训练得到的,语料数据和新闻语料是有区别的。能够将中文BERT继续在新闻数据上训练,提升中文BERT对新闻数据的表征能力。实际上,就在写这篇文章的当日,百度放出了ERNIE,或许基于ERNIE可以在该比赛基础上进一步提升。关于ERNIE的讨论可以参照知乎的一个讨论,如何评价百度新发布的NLP预训练模型ERNIE?,其中自己给出了一个回答如下:

还没来得及读代码,从官方README文件,PaddlePaddle/LARK,读到的信息如下:

改进:

(1)mask的粒度:字(BERT)->(ERNIE),不过输入仍旧是字。

(2)语料:中文维基百科(BERT)->百科类+新闻资讯类+对话类(ERNIE)

意义:

(1)个人觉得更加符合中文应用场景(分词的需求)。

(2)官方放出了代码+预训练模型+训练数据(估计民间PyTorch的wrapper,PyTorch的实现马上就会来的,不要着急)。

(3)对语义知识建模的手段相信可以继续深化,此处赞刘知远老师的回答。

总之,是良心的工作,赞。

复盘所有NLP比赛的TOP方案,专注NLP_百度_05

复盘所有NLP比赛的TOP方案,专注NLP_数据_06



阅读过本文的人还看了以下:

不断更新资源

深度学习、机器学习、数据分析、python

 搜索公众号添加: datayx  

复盘所有NLP比赛的TOP方案,专注NLP_维基百科_07

长按图片,识别二维码,点关注

AI项目体验

https://loveai.tech

复盘所有NLP比赛的TOP方案,专注NLP_公众号_08