Word2vec 是一种计算效率特别高的预测模型,用于学习原始文本中的字词嵌入。
它分为两种类型:连续词袋模型 (CBOW) 和 Skip-Gram 模型。
从算法上看,这些模型比较相似,只是 CBOW 从源上下文字词(“the cat sits on the”)中预测目标字词(例如“mat”),
而 skip-gram 则逆向而行,从目标字词中预测源上下文字词。这种调换似乎是一种随意的选择,
但从统计学上来看,它有助于 CBOW 整理很多分布信息(通过将整个上下文视为一个观察对象)。
在大多数情况下,这对于小型数据集来说是很有用的。
但是,skip-gram 将每个上下文-目标对视为一个新的观察对象,当我们使用大型数据集时,skip-gram 似乎能发挥更好的效果。
在本教程接下来的部分,我们将重点介绍 skip-gram 模型。

该模型的数学原理是最大似然率 (ML) 原则,为实际字词分配高概率,并为噪声字词分配低概率时,此目标被最大化。
实际上,我们会利用非常相似的噪声对比估算 (NCE) 损失,TensorFlow 为此提供了一个方便的辅助函数 tf.nn.nce_loss()。
loss = tf.reduce_mean(tf.nn.nce_loss(nce_weights, nce_biases, train_labels, embed,num_sampled, vocabulary_size))

一旦模型学习了良好的单词植入,那么它们实际上可以在任何NLP应用中发挥作用:
毕竟,无论是什么应用,“milk”仍然比较接近“water”,而和“shoes”差距较大。事实上,你可能希望下载预训练的单词嵌入,而不是训练自己的。
正如在重用预训练层一样(参见第11章),可以选择冻结预训练嵌入(例如,创建嵌入变量),或者让反向传播调整应用程序。
第一种选择将会加快培训,第二种可能会提高性能。

嵌入对于代表可能占用大量不同值的分类属性也很有用处,特别是当值之间存在复杂的相似性时,例如,考虑职业、爱好、菜肴、品种、品牌,等等。

我们已经拥有了实现一个机器翻译系统的所有工具。现在一起看看如何实现吧。