给大家介绍一下python中wordcloud库的使用方法:)
首先,wordcloud,也叫词云图,也叫文字云,是对文本中出现频率较高的“关键词”予以视觉化的展现,词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。
wordcloud的使用方法按照以下几个方面给大家讲解:
1.安装
wordcloud库的安装需要借助cmd命令提示符来完成,
2.wordcloud的使用方法:
首先是几个常用的编辑命令:
1)加载和输出词云
w=wordcloud.WordCloud(txt):向WordCloud对象中加载文本txt
w=to_file(filename):输出词云图像文件,可以是.png文件,也可以是.jpg文件
2)wordcloud内部命令:(以下是使用在w=wordcloud.WordCloud()中)
width:生成图片的宽度,默认400
height:生成图片的高度,默认200
min_font_size:词云中字体的最小字号
max_font_size:词云中字体的最大字号
font_step:指定词云中字体的步进间隔,默认为1
font_path:指定字体文件的路径,默认为None
max_words:最大单词数量
stop_words:不排序的单词
mask:指定词云形状,默认为长方形,需要imread()函数
from scipy.misc import imread
mk=imread("pic.png")
w=wordcloud.WordCloud(mask=mk)
backgroud_color:设置背景颜色
3.程序展示:
我们也可以将论文或者报告中的词汇进行词频统计:
我们以美国总统特朗普的就职演说为基础,来看看他所演讲中的重点吧:)
import jieba
import wordcloud
f=open("Trump.talk.txt","r",encoding="utf-8")
t=f.read()
f.close()
ls=jieba.lcut(t)
txt=" ".join(ls)
w=wordcloud.WordCloud( font_path="msyh.ttc",width=1000,height=700,background_color="blue")
w.generate(txt)
w.to_file("3.png")
#图片输出
%%html
<img src="3.png",width=1000,height=700>
可见,在他的演讲中,people,great,thank之类的站大头,他还是比较感谢人民给了他这个机会:)其次是一些人名(用于感谢),最后是一些unbelievable,incredible的感叹词。
4.更改背景图片形式
我们所输出的词云展示背景都是长方形,但如果我们像生成例如五角星或者圆形的背景图像怎么输出呢?就需要我们增加三个代码即可
from scipy.misc import imread
mask=imread("fivestart.png")
之后再w=w,wordcloud.WordCloud()中加入mask=mask即可
附上更改后的代码:
import jieba
import wordcloud
from scipy.misc import imread
mask=imread("timg.jpg")
f=open("Trump.talk.txt","r",encoding="utf-8")
t=f.read()
f.close()
ls=jieba.lcut(t)
txt=" ".join(ls)
w=wordcloud.WordCloud( font_path="msyh.ttc",mask=mask,width=1000,height=700,background_color="white")
w.generate(txt)
w.to_file("6.png")
%%html
<img src="6.png",width=1000,height=700>