Integrating Distributional Lexical Contrast into Word Embeddings for Antonym–Synonym Distinction

本文提出了一种新的向量表示,将词汇对比放入分布式向量,加强最重要特征以判断词的相似度。改进的向量优于标准模型,在不同词性的词中从同义词中区分反义词平均精确率为0.66-0.76。同时将词汇对比的向量引入skip-gram模型,新的词向量在预测词相似度上优于之前的模型,特别是区分同义词和反义词。

反义词和同义词代表词义关系,是词典的核心。对于NLP任务,区分反义词和同义词非常重要,而反义词和同义词常常出现在相似上下文中,因此区分二者很有挑战性。

分布式语义模型提供了表示词向量意义的方法,依赖于分布式假设,即有相似分布的词有相似的意思。每个词被表示为一个权重特征向量,特征通常对应词汇在特定上下文的共现率;但是这样的模型会同时找到同义词和反义词。

本文提出两种方法,将词汇对比信息放入分布式语义空间,词向量区分反义词-同义词。

首先将词汇对比放入分布式向量,加强对决定相似度最重要的词汇特征,假设特征在同义词中的重合强于在反义词中的重合。二,本文提出一种新的扩展skip-gram模型,使用负采样方法,将语义对比信息加入目标函数。此模型优化了语义向量预测词相似度和区分反义词和同义词。

提升特征向量权重:

开始使用标准数据的共现频率,使用本地互信息作为词特征的原始权重。

HanLP 对比 jieba 分词_相似度

目标词汇:w;特征:f;同义词:u;反义词:v;

使用同义词与目标词相似度的均值和反义词与目标词的均值,计算这两个均值的差,使用这个差值更新weight 分数。使用consine计算向量的相似度即sim()。

如果目标词在现有的词表中没有同义词或反义词,或没有特征与目标词共现,则weight=0

词的最强特征倾向于代表其同义词的强特征,同时对反义词较弱。

例如,特征conception只和同义词formal一起出现但不会和informal或informal的同义词同时出现。Weight(formal, conception)的值等于formal与其同义词的相似度的均值减去informal预期同义词的相似度的均值,可以获得一个较大的正值。

而对于特征issue,与很多不同的词同时出现,这会使weight(formal, issue)值趋近0。

通常反义词比同义词少很多,为丰富反义词,可使用反义词的同义词扩展;例如:good只有两个反义词在WordNet数据集中(bad和evil),而又31个同义词,此时可使用bad和evil的同义词作为good的反义词。

HanLP 对比 jieba 分词_HanLP 对比 jieba 分词_02

在skip-gram模型中使用上述方法

使用负采样的skip-gram模型的目标函数:

HanLP 对比 jieba 分词_相似度_03

目标函数第一个部分代表目标词w和上下文c (滑动窗口内的文本)的共现值;目标词与上下文(#(w, c))共同出现的数量;k 代表负样本词的数量,#(w) 是目标词w在负样本上下文c 中出现的数量。

为结合词的对比信息,使用如下目标函数:

HanLP 对比 jieba 分词_相似度_04

V:词表;sim(w1, w1)是两个词(w1, w2)向量的的consine 距离;

对于目标词 w,使用反义词A(w) 替代使用w的反义词的同义词,以提高训练效率,特别是训练数据很大的时候。

本文提出的模型dLCE 在每个单独的目标词上下文中使用词对比以便更好的捕捉和分类。

本文使用EN-COW14A数据集,原始的向量表示和词向量模型的窗口大小为 5;词向量维度为500,负样本k为15;排除数据集中少于100到的词汇;使用SGD反向传播更新参数;学习率为0.025;使用WordNet和Wordnik收集反义词和同义词,共363309同义词和38423反义词对。

本文提出了新式的向量表示,提高预测词汇的相似度,对传统的分布式语义模型和词向量模型都有效。此方法通过使用词汇对比信息提高了权重特征的质量以区分同义词和反义词;结合词汇对比信息和skip-gram 模型预测相似、确定反义词。