引言
今天是2月7号,还有一周就是情人节了,如果各位猿们有心仪的程序媛,又不知道如何表白才能更符合程序员的气质,来来来,教你们一招,利用词云.
网上关于python的词云生成还是很多的,但是java的wordcloud少之又少,我在GitHub上找到了个关于java的词云项目,这边和大家分享一下使用方法,以及乱码解决.
以下是官方给出的几个效果图:
看着是不是很心动? 来让我们开始吧!
下面是MAVEN坐标,如果你只是java的爱好者,对MAVEN还不是很熟悉,可以点击链接: https://pan.baidu.com/s/1gOtxpjwDewSVKOFQ3GE-yw 提取码: ig9m ,手动导入jar就可以啦,嘿嘿.
<dependency>
<groupId>com.kennycason</groupId>
<artifactId>kumo-core</artifactId>
<version>1.13</version>
</dependency>
//中文坐标
<dependency>
<groupId>com.kennycason</groupId>
<artifactId>kumo-tokenizers</artifactId>
<version>1.12</version>
</dependency>
生成词云的思路
- 拿到文档的分词,词频
- 设置图片相关的属性,大小,字体,颜色等
案例代码解析
鉴于官方给出的代码很完整,我就给大家一行一行的解读一下中文词云的代码
public static void main(String[] args) throws IOException, DocumentException {
//创建一个词语解析器,类似于分词
FrequencyAnalyzer frequencyAnalyzer = new FrequencyAnalyzer();
frequencyAnalyzer.setWordFrequenciesToReturn(600);
frequencyAnalyzer.setMinWordLength(2);
//这边要注意,引用了中文的解析器
frequencyAnalyzer.setWordTokenizer(new ChineseWordTokenizer());
//拿到文档里面分出的词,和词频,建立一个集合存储起来
List<WordFrequency> wordFrequencies = frequencyAnalyzer.load(getInputStream("text/vina.txt"));
Dimension dimension = new Dimension(600, 600);
//设置图片相关的属性,这边是大小和形状,更多的形状属性,可以从CollisionMode源码里面查找
WordCloud wordCloud = new WordCloud(dimension, CollisionMode.PIXEL_PERFECT);
wordCloud.setPadding(2);
//这边要注意意思,是设置中文字体的,如果不设置,得到的将会是乱码,
//这是官方给出的代码没有写的,我这边拓展写一下,字体,大小可以设置
//具体可以参照Font源码
java.awt.Font font = new java.awt.Font("STSong-Light", 2, 16);
wordCloud.setKumoFont(new KumoFont(font));
wordCloud.setBackgroundColor(new Color(255, 255, 255));
//因为我这边是生成一个圆形,这边设置圆的半径
wordCloud.setBackground(new CircleBackground(255));
//设置颜色
wordCloud.setColorPalette(buildRandomColorPalette(1));
wordCloud.setFontScalar(new SqrtFontScalar(12, 45));
//将文字写入图片
wordCloud.build(wordFrequencies);
//生成图片 wordCloud.writeToFile("output/chinese_language_circle.png");
}
因为我这边文字不多,而且没有指定背景图形为异形,生成的有点丑,就当抛砖引玉了.