word2vec词向量下载

转载

智能开发先锋 2024-12-10 07:04:28

文章标签 word2vec词向量下载加载相似度词向量 文章分类 机器学习人工智能

做数据挖掘作业用到词向量，拿这个做个例子：

1、分词

import jieba

with open('jueji.txt', encoding='utf-8') as fp:
    lines = fp.readlines()
    jieba.add_word('麒零')
    for line in lines:
         seg_list = jieba.cut(line)
         with open('jueji_out.txt', 'a', encoding='utf-8') as ff:
              ff.write(' '.join(seg_list)) # 词汇用空格分开

从网上下一个爵迹.txt然后就可以开始了。jieba的字典中没有'麒零'这个词，默认的分词结果会把他和前/后一个字连起来…所以使用add_word(word, freq=None, tag=None)在程序中动态修改词典

结果展示：

南方只是开始不易察觉地降温，凌晨的时候窗棂上会看见霜花，但是在这里 — — 大陆接近极北的尽头，已经是一望无际的苍茫肃杀。大块大块浮动在海面上的冰山彼此不时地撞击着，在天地间发出巨大的锐利轰鸣声，坍塌的冰块砸进大海，掀起白色的浪涛。辽阔的黑色冻土在接连几天的大雪之后，变成了一片茫茫的雪原。这已经是深北之地了，连绵不断的冰川仿佛怪兽的利齿般将天地的尽头紧紧咬在一起，地平线消失在刺眼的白色冰面之下。

2、模型训练

from gensim.models import word2vec

sentences = word2vec.Text8Corpus('jueji_out.txt') # 加载语料

model = word2vec.Word2Vec(sentences) # 训练模型
model.save('jueji.model') # 保存模型，之后打印阶段可以注释掉该行和上一行
model = word2vec.Word2Vec.load('jueji.model') # 加载模型

3、打印结果

for e in model.wv.most_similar(positive=['麒零'], topn=10):
	print(e[0], e[1])

和'麒零'最相似的10个词：

银尘 0.9959095120429993 看 0.9842573404312134 了 0.9823709726333618 。 0.9747525453567505 抱歉 0.9689645767211914 漆拉望 0.9674007892608643 说完 0.966944694519043 看着 0.966761589050293 回地 0.9658923745155334 哎 0.9619323015213013

print(model.wv.similarity('麒零', '银尘'))

计算'麒零'和'银尘'这两个词的相似度：

0.9959094

print(model['麒零'])

输出'麒零'这个词向量，是一个一行100维的向量

[ 0.26481858 0.15234216 -0.3840297 -0.2042361 -0.06220098 0.04188246
 -0.66040015 0.44777456 0.531216 0.45691636 0.0550052 -0.69729084
 -0.22845572 0.47113973 -0.5303837 -0.45453674 0.5070296 -0.06303952
 0.31998253 -0.5031252  0.4189738  0.07159474 -0.19918226 -0.14445662
 0.3662445 -0.5232391 -0.45905274 0.11144456 -0.10949319 0.11986741
 0.06463482 0.25333133 -0.12797745 -0.9087182 -0.9490329  0.38584322
 0.17346244 0.24128036 -0.2922086 -0.61662203 0.09252726 -0.24353217
 0.37847757 0.4794919  0.37694818 -0.35219407 -0.8497689 -0.15116379
 -0.72777176 0.01539514 -0.2824035 -0.87565887 -0.3142328  0.2567049
 -0.29067957 0.01241229 -0.02293511 0.7834653  0.14431445 0.19572365
 -0.519398  -0.2315847 -0.08635604 0.51336807 0.01239578 0.46363848
 0.67076975 -0.4489825 -0.7259378 -0.5962111 -0.26125282 -0.6023005
 0.04432714 0.20658703 0.1376716 -0.5357572  0.08638419 -0.40312135
 0.01080403 -0.62655824 -0.5928631  0.3664876  0.0663145  0.06274834
 -0.38822135 -0.05520369 -0.2040366 -0.28943646 -0.5433778 -0.35676333
 -0.41888207 -0.08044773 -0.6589411  0.02679822 0.11474723 -0.95138925
 -0.67208344 -0.17512295 -0.29611424 0.5500234 ]

P.S. 好吧。。。看到'银尘'和'。'都有很高的相似度处女座不能忍了，得把停用词(Stop Words)给去了，重写分词模块

import jieba

# 创建停⽤词list
def stopwordslist(filepath):
    stopwords = [line.strip() for line in open(
        filepath, 'r', encoding='utf-8').readlines()]
    return stopwords  # readlines()读取所有行并返回list

# 对句⼦进⾏分词
def seg_sentence(sentence):
    jieba.add_word('麒零')
    sentence_seged = jieba.cut(sentence.strip())  # strip()方法默认用于移除字符串头尾的空格
    stopwords = stopwordslist('stop_words.utf8')  # 加载停⽤词
    outstr = ''
    for word in sentence_seged:
        if word not in stopwords:
            if word != '\t':
                outstr += word
                outstr += ' '
    return outstr


# 调⽤函数对⽂档进⾏处理
inputs = open('jueji.txt', 'rb')
outputs = open('jueji_o_s.txt', 'w')
for line in inputs:
    line_seg = seg_sentence(line)
    outputs.write(line_seg+'\n')
outputs.close()
inputs.close()

结果好看多了！

南方不易察觉降温凌晨窗棂会看见霜花大陆接近极北尽头已经一望无际苍茫肃杀大块大块浮动海面冰山不时撞击天地间发出巨大锐利轰鸣声坍塌冰块砸进大海掀起白色浪涛辽阔黑色冻土接连几天大雪之后变成一片茫茫雪原已经深北连绵不断冰川仿佛怪兽利齿般天地尽头紧紧咬一起地平线消失刺眼白色冰面之下

银尘 0.999964714050293
看着 0.9999558925628662
说 0.9999518394470215
一个 0.9999447464942932
突然 0.9999420642852783
走 0.9999415874481201
里 0.9999402165412903
面前 0.9999377131462097
鹿觉 0.999934196472168
漆拉 0.9999340772628784

参考：
https://zhuanlan.zhihu.com/p/28943718

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：java源码阅读网

下一篇：openCV双目视觉测距

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯

word2vec词向量下载

word2vec词向量下载

51CTO博客