博士论文推荐

中科院 来斯惟 《基于神经网络的词和文档语义向量表示方法研究》

内容摘要如下
一、词向量表示技术的理论及实验分析。在这一部分中,本文对现有的词向量表示技术进行了系统的理论对比及实验分析。理论方面,本文阐述了现有各种模型之间的联系,从模型的结构与目标等方面对模型进行了比较,并证明了其中最重要的两个模型Skip-gram与GloVe之间的关系。实验方面,本文从模型、语料和训练参数三个角度分析了训练词向量的关键技术。本文选取了三大类一共八个指标对词向量进行评价,这三大类指标涵盖了现有的词向量用法。本工作为首个对词向量进行系统评价的工作,通过理论和实验的比较分析,文章提出了一些对生成词向量的参考建议。
  二、基于字词联合训练的中文表示及应用。现有的中文表示技术往往沿用了英文的思路,直接从词的层面对文本表示进行构建。本文根据中文的特点,提出了基于字词联合训练的表示技术。该方法在字的上下文空间中融入了词,利用词的语义空间,更好地对汉字建模;同时利用字的平滑效果,更好地对词建模。文章在分词任务、词义相似度任务和文本分类任务上对字和词的表示进行了评价,实验表明字词联合训练得到的字词向量,相比单独训练字向量或词向量,有显著的提升。
  三、基于循环卷积网络的文档表示及应用。在这一部分中,本文分析了现有的文档表示技术:基于循环网络的表示技术、基于递归网络的表示技术和基于卷积网络的表示技术。并且,针对现有的三种表示技术的不足,本文提出了基于卷积循环网络的文档表示技术。该方法克服了此前递归网络的复杂度过高的问题,循环网络的语义偏置问题,以及卷积网络窗口较难选择的问题。文章在文本分类任务上对新提出的表示技术进行了对比分析,实验表明基于循环卷积网络的文本表示技术比现有的表示技术能取得更好的性能。

哈工大 户保田《基于深度神经网络的文本表示及其应用》

以深度神经网络为手段,以文本表示为研究对象,对自然语言中不同粒度的文本即词、句、段的表示学习及其应用进行了深入研究。本文将所提出的方法应用到了序列标注、语句匹配、机器翻译以及自动文摘生成问题上,并取得了良好的效果
部分摘要如下:首先,对词向量的学习进行了研究。提出了一种基于动名分离的词向量学习模型。该模型将词性引入到词向量的学习过程,同时保持了词序信息。受人类大脑的动名分离结构的启发,在学习词向量的过程中,该模型根据词性标注工具得到的词性,动态的选择模型顶层的网络参数,从而实现模型的动名分离。与相关向量学习方法进行实验对比,结果显示该模型能够以相对较低的时间复杂度,学习得到高质量的词向量;通过其得到的常见词的相似词更为合理;在命名实体识别和组块分析任务上的性能,显著地优于其它对比的词向量。其次,对语句的表示学习进行了研究。提出了基于深度卷积神经网络的语句表示模型。该模型不依赖句法分析树,通过多层交叠的卷积和最大池化操作对语句进行建模。语句匹配对自然语言处理领域的大量任务非常重要。一个好的匹配模型,不仅需要对语句的内部结构进行合理建模,还需要捕捉到语句间不同层次的匹配模式。基于此,本文提出了两种基于深度卷积神经网络的语句匹配架构。架构一,首先通过两个卷积神经网络分别对两个语句进行表示,然后通过多层感知机进行匹配。架构二,则是对两个语句的匹配直接建模,然后通过多层感知机对匹配表示进行打分。两种匹配架构都无需任何先验知识,因此可被广泛应用于不同性质、不同语言的匹配任务上。在三种不同语言、不同性质的语句级匹配任务上的实验结果表明,本文提出的架构一和架构二远高于其他对比模型。相比架构一,架构二更能够有效地捕捉到两个语句间多层次的匹配模式,架构二在三种任务上取得了优异的性能。第三,对统计机器翻译中短语对的选择进行了研究。提出了上下文依赖的卷积神经网络短语匹配模型。该模型对目标短语对进行选择,不仅考虑到了源端短语与目标端短语的语义相似度,同时利用了源端短语的句子上下文信息。为了有效的对模型进行训练,提出使用上下文依赖的双语词向量初始化模型,同时设计了一种“课程式”的学习算法对模型进行从易到难、循序渐进的训练。实验表明,将该模型对双语短语的匹配打分融入到一个较强的统计机器翻译系统中,可以显著提高翻译性能,BLEU值提高了1.0%。对自动生成进行了研究。构建了一个较高质量的大规模中文短文本摘要数据集,该数据集包括240多万的摘要,同时构造了一个高质量的测试集。提出使用基于循环神经网络的编码-解码架构从大规模数据集中自动学习生成摘要,构建了两个基于循环神经网络的摘要生成模型。模型一通过使用循环神经网络对原文进行建模,并将其最后一个状态作为原文段落的表示,利用另一个循环神经网络从该表示中解码生成摘要。模型二在模型一的基础上,通过动态的从编码阶段的循环神经网络的所有状态中综合得到上下文表示,然后将当前的上下文表示传递给解码循环神经网络生成摘要。两种模型都是产生式模型,无需任何人工特征。实验表明,两种模型能够对原文进行较为合理的表示,生成具有较高信息量的摘要文本。特别地,模型二生成的摘要文本质量显著优于模型一。

gitxiv 网站

http://www.gitxiv.com 一个post顶级论文以及开源实现的网站 关注其中一个关于attention model的子项目

词性标注

基于CNN和LSTM混合模型的中文词性标注## 标题 ## 本文采用PFR《人民日报》1998年1月份的语料库 (http://www.icl.pku.edu.cn/icl_res/) 、CoNLL09 (http://ufal.mff.cuni.cz/conll2009-st/index.html) 和CTB7.0 (https://catalog.ldc.upenn.edu/LDC2010T07) 作为实验数据 在未加入任何人工特征的条件下,对词语进行词性标注,词性标注效果好于HMM(hidden Markov model)、MLP(multi-layer perceptron)、CNN和LSTM.

语料库

中文文本语料库整理推荐