词云是什么?
定义:词云是一个简单但功能强大的可视化表示对象,用于文本处理,它以更大,更粗的字母和不同的颜色显示最常用的词,单词的大小越小,重要性就越小。
词云的用途
1.社交媒体上的热门标签(Instagram,Twitter):全世界的社交媒体都在寻找最新的趋势,因此,我们可以获取人们在其帖子中使用最多的标签来探索最新的趋势。
2.媒体中的热门话题:分析新闻报道,我们可以在头条新闻中找到关键字,并提取出前n个需求较高的主题,来获得所需的结果,即前n个热门媒体主题。
3.电子商务中的搜索词:在电子商务购物网站中,网站所有者可以制作被搜索次数最多的购物商品的词云,这样,他就可以了解在特定时期内哪些商品需求量最大。
让我们开始使用Python来实现词云
首先,我们需要在jupyter notebook中安装所有库。
在python中,我们将安装一个内置库wordcloud。在Anaconda命令提示符下,输入以下代码:
pip install wordcloud
如果你的anaconda环境支持conda,请输入:
conda install wordcloud
这可以直接在notebook中实现,只需在代码的开头添加“!”即可。
像这样:
!pip install wordcloud
但现在我想生成拥有任何主题的维基百科文本的词云,因此,我将需要一个Wikipedia库来访问Wikipedia API,可以通过在anaconda命令提示符下安装Wikipedia来完成,如下所示:
pip install wikipedia
现在我们还需要其他一些库,它们是numpy,matplotlib和pandas。
截至目前,我们需要的库就安装好了
import wikipedia
result= wikipedia.page("MachineLearning")
final_result = result.content
print(final_result)
机器学习维基百科页面的输出:
上图是我们通过检索Wikipedia的机器学习页面获得的输出图像,我们还可以看到它可以向下滚动,这表示将检索整个页面。
在这里,我们还可以通过摘要方法得到页面的摘要,如:
result= wikipedia.summary("MachineLearning", sentences=5)
print(result)
这里我们有句子的参数,因此我们可以用它来检索特定的行数。
输出5个句子
让我们一起创建wordcloud
from wordcloud import WordCloud, StopWordsimport matplotlib.pyplot as plt def plot_cloud(wordcloud):
plt.figure(figsize=(10, 10))
plt.imshow(wordcloud)
plt.axis("off");
wordcloud = WordCloud(width = 500, height = 500, background_color='pink', random_state=10).generate(final_result)
plot_cloud(wordcloud)
停用词是没有任何含义的单词,例如‘is’, ‘are’, ‘an’, ‘I’ 等。
Wordcloud带有内置停用词库,该库将自动从文本中删除停用词。
同时我们也可以通过stopwords.add()函数在python中添加停用词的选择。
Wordcloud方法可以设置词云的宽度和高度,我将它们都设置为500,背景色设置为粉红色。如果不添加随机状态,则每次运行代码时,词云都会看起来不同,我们可以将其设置为任何int值。
从上面的代码中,我们将获得这样的词云:
通过查看上图,我们可以看到机器学习是最常用的词,还有一些其他经常使用的词是模型,任务,训练和数据,因此,我们可以得出结论,机器学习是训练数据模型的任务。
我们还可以在这里通过背景颜色方法更改背景颜色,并通过colormap方法更改字体颜色,还可以在背景颜色中添加颜色的哈希码,但是mapcolor带有内置的特定颜色。
让我们通过使用哈希码将背景色更改为蓝绿色,将字体颜色更改为蓝色:
from wordcloud import WordCloud, StopWordsimport matplotlib.pyplot as pltdef plot_cloud(wordcloud):
plt.figure(figsize=(10, 10))
plt.imshow(wordcloud)
plt.axis("off");
wordcloud = WordCloud(width = 500, height = 500, background_color='#40E0D0', colormap="ocean", random_state=10).generate(final_result)
plot_cloud(wordcloud)
在这里,我指定了ocean,如果我添加了一些错误的颜色图,jupyter将抛出一个值错误,并向我显示颜色图的可用选项,如下所示:
我们还可以使用PIL库在任何图像中实现词云。