嵌入技术 (Embedding techniques)

正如我们前面所说的,TFM和TFIDF数值矩阵主要是根据单词在文本中出现的频率而得到的,它没有考虑到词语之间的相似性。 

为了克服这些方法的局限性,Google组提出了一种新的嵌入方法,而他们提出的技术在我看来是属于革命性的技术。

在2013年,Google组发表了第一篇关于Word2Vec的论文。随后被科研工作者广泛的应用在各个领域之中,因为它确实带来了前所未有的优点和便利。

Word2Vec是一种神经网络模型,它可以把文本中的词语映射到数值空间中,而词语成了有意义的数值以后,我们就可以很方便的对其来进行各种操作,用于各种模型之中。

比如网上流传的著名的 “King - Man + Woman = Queen”,之所以可以对词语计算是因为,通过Word2Vec技术,他们被转化成了有意义的空间中的数值向量。有了数值向量以后,我们当然就可以进行加减乘除的运算了。从这一点上来讲,Word2Vec技术真的是一个重要的发明和创新

embedding举例_embedding举例

 

当然,通过Word2Vec技术而得到向量以后,我们就可以量化词语之间的相似性。比如可以计算常用的余弦Cosine相似性, 它主要测量了两个向量之间的角度。

我们通过Word2Vec技术而得到词语的嵌入向量之后,可以对得到的向量进行分析来研究事物之间的相似性。而很多时候使用过Word2Vec是为了对数据进行预处理,把得到的嵌入向量作为新的机器学习或者深度学习模型的输入。

比如,我们从朋友圈里面得到大量的文字信息,通过过Word2Vec嵌入技术,得到嵌入向量,而这些向量可以作为预测模型的输入,然后来预测一个新的朋友用户在未来一年里买新车的概率

基于Word2Vec技术的流行,很多好的包packages也早就已经出来,可以很方便的调用已经写好的函数。

比如,可以使用Python里面的gensim,里面已经有写好的函数Word2Vec(),我们只需要定义自己需要的参数就行了。建议自己找一些简单的句子,运行一遍Word2Vec(),就可以看到这里面的奥妙。