建立一个只专注于NLP比赛的方案分享讨论的项目,讨论时期不限,可包括赛前分析,赛中讨论,赛后复盘,其中以赛后复盘为主。
AI项目体验地址 https://loveai.tech
内容
讨论比赛平台,赛题背景,数据格式,主要思路,技术实现,模型设计,框架选择,评估指标等方面梳理NLP比赛。
WSDM2019-虚假新闻检测比赛
前言: 这篇文章主要以第二名为讨论对象,来自美团NLP团队。同时会对比第一名和第三名的方案。此外,给出了SemEval2019的答案分类任务上的第一名方案,和该比赛联系较多。
一.背景
从标题来看,做成一个二分类问题更加地直接,而本届比赛的思路则不同。前者二分类问题的输入是一个文本(新闻标题/新闻文本/新闻标题+新闻内容) ,而比赛的数据输入是两个文本(新闻标题),输出是三分类的标签(一致/不一致/无关)。这样的话,显然自然语言推理(NLI)的任务中的方法自然适合用于该比赛。
二.数据介绍
训练样本量为32万,测试样本量为8万。由于输入是新闻标题,长度在20-100词之内。既然是分类问题,多数情况下要考察不平衡现象。三类样本的占比如下:
八.反思
官方提供的中文BERT是在中文维基百科语料上训练得到的,语料数据和新闻语料是有区别的。能够将中文BERT继续在新闻数据上训练,提升中文BERT对新闻数据的表征能力。实际上,就在写这篇文章的当日,百度放出了ERNIE,或许基于ERNIE可以在该比赛基础上进一步提升。关于ERNIE的讨论可以参照知乎的一个讨论,如何评价百度新发布的NLP预训练模型ERNIE?,其中自己给出了一个回答如下:
还没来得及读代码,从官方README文件,PaddlePaddle/LARK,读到的信息如下:
改进:
(1)mask的粒度:字(BERT)->词(ERNIE),不过输入仍旧是字。
(2)语料:中文维基百科(BERT)->百科类+新闻资讯类+对话类(ERNIE)。
意义:
(1)个人觉得更加符合中文应用场景(分词的需求)。
(2)官方放出了代码+预训练模型+训练数据(估计民间PyTorch的wrapper,PyTorch的实现马上就会来的,不要着急)。
(3)对语义知识建模的手段相信可以继续深化,此处赞刘知远老师的回答。
总之,是良心的工作,赞。
阅读过本文的人还看了以下:
不断更新资源
深度学习、机器学习、数据分析、python
搜索公众号添加: datayx
长按图片,识别二维码,点关注
AI项目体验
https://loveai.tech