​Passage Re-ranking with BERT​

task

有一个给定的问题,要给出答案分三个阶段
1、通过一个标准的机制从语料库中见多大量可能与给定相关的文档
2、passage re-ranking:对这些文档打分并重排序
3、分数前几的(前10、或前15等)的文档将会是这个问题答案的来源,用答案生成模型产出答案

这篇论文主要是研究第二个阶段

方法

要做的工作即是:对于一个询问Passage Re-ranking with BERT_NLP,一个候选文章Passage Re-ranking with BERT_信息检索_02,给出一个分数Passage Re-ranking with BERT_IR_03

  • 询问为句子A,限制在64个token内
  • 文章为句子B,有文章截取,其长度与分隔符、询问的和最大不超过512个token

使用BERT_LARGE来做一个二分类网络,取最顶层的[CLS]作为句子的表示:来计算每个文章和询问的相关的概率,最后通关对这个概率排序来进入第三阶段

loss:

Passage Re-ranking with BERT_信息检索_04

  • Passage Re-ranking with BERT_BERT_05
  • Passage Re-ranking with BERT_IR_06

实验

Passage Re-ranking with BERT_信息检索_07

效果比之前的好很多