文章目录

  • 一、散点图
  • 1. scatter() 函数
  • 2. 设置图标大小
  • 3. 自定义点的颜色和透明度
  • 4. 可以选择不同的颜色条,配合 cmap 参数
  • 5. cmap 的分类
  • 5.1 Sequential colormaps:连续化色图
  • 5.2 Diverging colormaps:两端发散的色图 .
  • 5.3 Qualitative colormaps:离散化色图
  • 5.4 Miscellaneous colormaps:其它色图
  • 二、保存图片 pyplot.savefig()
  • 三、箱线图绘制 boxplot()
  • 1. 箱线图基本介绍
  • 2. 函数的使用 pyplot.boxplot()
  • 四、词云图
  • 1. WordCloud 参数查看
  • 2. 中文使用词云图,需要使用 jieba 分词模块
  • 3. jieba.analyse的使用:提取关键字


  • 在最开始,先引入我们的 numpy 和 matplotlib 库。
from matplotlib import pyplot as plt
import numpy as np
  • 同时,对基本配置进行设置,将中文字体设置为黑体,不包含中文负号,分辨率为 100,图像显示大小设置为 (5,3)。
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.rcParams['figure.dpi'] = 100
plt.rcParams['figure.figsize'] = (5,3)

一、散点图

  • 散点图也叫 X-Y 图,它将所有的数据以点的形式展现在直角坐标系上,以显示变量之间的相互影响程度,点的位置由变量的数值决定。
  • 通过观察散点图上数据点的分布情况,我们可以推断出变量间的相关性。如果变量之间不存在相互 关系,那么在散点图上就会表现为随机分布的离散的点,如果存在某种相关性,那么大部分的数据 点就会相对密集并以某种趋势呈现。
  • 数据的相关关系主要分为:正相关(两个变量值同时增长)、负相关(一个变量值增加另一个变量值下降)、 不相关、线性相关、指数相关等,表现在散点图上的大致分布如下图所示。那些离点集群较远的点我们称为离群点或者异常点。

1. scatter() 函数

  • scatter() 函数的语法模板如下:
matplotlib.pyplot.scatter(x, y, s=None, c=None, marker=None, cmap=None, norm=None, vmin=None, vmax=None, alpha=None, linewidths=None, edgecolors=None, plotnonfinite=False, data=None, *kwargs)
  • 其参数含义如下:
  • x, y 表示散点的坐标。
  • s 表示散点的面积。
  • c 表示散点的颜色(默认值为蓝色,‘b’,其余颜色同 plt.plot( ))。
  • marker 表示散点样式(默认值为实心圆,‘o’,其余样式同 plt.plot( ))。
  • alpha 表示散点透明度([0, 1] 之间的数,0 表示完全透明,1 则表示完全不透明)。
  • linewidths 表示散点的边缘线宽。
  • edgecolors 表示散点的边缘颜色。
  • cmap 表示 Colormap,默认 None,标量或者是一个 colormap 的名字,只有 c 是一个浮点数数组的时才使用。
  • scatter() 函数接收长度相同的数组参数,一个用于 x 轴的值,另一个用于 y 轴上的值。
  • 其中,x 轴和 y 轴的数据我们直接设定并使用 plt.scatter( ) 函数进行散点图的绘制。
x = np.array([1, 2, 3, 4, 5, 6, 7, 8])
y = np.array([1, 4, 9, 16, 7, 11, 23, 18])
plt.scatter(x, y)

python 箱线图处理异常值 python箱线图和散点图结合_python

2. 设置图标大小

  • x 轴和 y 轴仍采用上面的数据,同时,生成一个 [0,1)之间的随机浮点数或N维浮点数组,用以表示散点的大小。
x = np.array([1, 2, 3, 4, 5, 6, 7, 8])
y = np.array([1, 4, 9, 16, 7, 11, 23, 18])
print((20 * np.random.rand(8))** 2)
s = (20 * np.random.rand(8))** 2
plt.scatter(x, y, s,alpha=0.4)
plt.show()
#[131.25378089 364.17758417 253.68756331 172.75394022 296.36009688
# 111.50497604 161.49816335 160.3655232 ]

python 箱线图处理异常值 python箱线图和散点图结合_默认值_02

3. 自定义点的颜色和透明度

  • 颜色的设置方式有如下三种:
  • (1) 颜色英文。
  • (2) 字母 r、b、g。
  • (3) 十六进制 #123ab1。
  • 此时,我们通过随机种子生成函数 np.random.rand() 在 x 轴和 y 轴生成一个 [0,1) 之间的随机浮点数或 N 维浮点数组,取数范围为正态分布的随机样本数。
  • 其中,颜色可以使用一组数字序列,如只需要 3 种颜色,这里我们直接使用 np.random.rand() 对颜色进行随机生成。
x = np.random.rand(50)
y = np.random.rand(50)
s = (10 * np.random.randn(50))** 2  
colors = np.random.rand(50)
plt.scatter(x, y, s,c=colors)

python 箱线图处理异常值 python箱线图和散点图结合_默认值_03

4. 可以选择不同的颜色条,配合 cmap 参数

  • Matplotlib 模块提供了很多可用的颜色条。
  • 颜色条就像一个颜色列表,其中每种颜色都有一个范围从 0 到 100 的值。
  • 下面是一个颜色条的例子: viridis。

python 箱线图处理异常值 python箱线图和散点图结合_默认值_04

  • 对于,x 轴和 y 轴的数据,我们通过 np.random.rand() 生成 100 个随机数据。
  • 在此要演示 cmap 参数,因此,我们使用 np.arange() 直接生成 [1,100] 的颜色数据。
  • 然后,将 cmap 参数设置为蓝色(其他颜色同理),就会生成各种蓝色的散点图。
x = np.random.rand(100)
y = np.random.rand(100)
colors = np.arange(1,101)
plt.scatter(x, y, c=colors, cmap='Blues')

python 箱线图处理异常值 python箱线图和散点图结合_python 箱线图处理异常值_05

5. cmap 的分类

5.1 Sequential colormaps:连续化色图

  • 特点:在两种色调之间近似平滑变化,通常是从低饱和度(例如白色)到高饱和度(例如明亮的蓝色)。
  • 应用:适用于大多数科学数据,可直观地看出数据从低到高的变化。
  • (1) 以中间值颜色命名(eg:viridis 松石绿):[‘viridis’, ‘plasma’, ‘inferno’, ‘magma’, ‘cividis’]。

python 箱线图处理异常值 python箱线图和散点图结合_python 箱线图处理异常值_06

  • (2) 以色系名称命名,由低饱和度到高饱和度过渡(eg:YlOrRd = yellow-orange-red,其它同理): [‘Greys’, ‘Purples’, ‘Blues’, ‘Greens’, ‘Oranges’, ‘Reds’,‘YlOrBr’, ‘YlOrRd’, ‘OrRd’, ‘PuRd’, ‘RdPu’, ‘BuPu’,‘GnBu’, ‘PuBu’, ‘YlGnBu’, ‘PuBuGn’, ‘BuGn’, ‘YlGn’,‘binary’, ‘gist_yarg’, ‘gist_gray’, ‘gray’, ‘bone’, ‘pink’,‘spring’, ‘summer’, ‘autumn’, ‘winter’, ‘cool’, ‘Wistia’,‘hot’, ‘afmhot’, ‘gist_heat’, ‘copper’]。

python 箱线图处理异常值 python箱线图和散点图结合_默认值_07

python 箱线图处理异常值 python箱线图和散点图结合_默认值_08

5.2 Diverging colormaps:两端发散的色图 .

  • 特点:具有中间值(通常是浅色),并在高值和低值处平滑变化为两种不同的色调。
  • 应用:适用于数据的中间值很大的情况(例如0,因此正值和负值分别表示为颜色图的不同颜色)。
  • 例如:[‘PiYG’, ‘PRGn’, ‘BrBG’, ‘PuOr’, ‘RdGy’, ‘RdBu’,‘RdYlBu’, ‘RdYlGn’, ‘Spectral’, ‘coolwarm’, ‘bwr’, ‘seismic’]。

python 箱线图处理异常值 python箱线图和散点图结合_python 箱线图处理异常值_09

5.3 Qualitative colormaps:离散化色图

  • 特点:离散的颜色组合。
  • 应用:在深色背景上绘制一系列线条时,可以在定性色图中选择一组离散的颜色,例如:color_list = plt.cm.Set3(np.linspace(0, 1, 12))。

python 箱线图处理异常值 python箱线图和散点图结合_matplotlib_10

5.4 Miscellaneous colormaps:其它色图

python 箱线图处理异常值 python箱线图和散点图结合_开发语言_11

二、保存图片 pyplot.savefig()
  • 保存图片的语法模板 pyplot.savefig() 如下:
savefig(fname, dpi=None, facecolor=’w’, edgecolor=’w’, orientation=’portrait’, papertype=None, format=None, transparent=False, bbox_inches=None, pad_inches=0.1, frameon=None, metadata=None)
  • 其参数含义如下:
  • fname 表示(字符串或者仿路径或仿文件)如果格式已经设置,这将决定输出的格式并将文件按 fname 来保存。如果格式没有设置,在 fname 有扩展名的情况下推断按此保存,没有扩展名将按照默认格式存储为 png 格式,并将适当的扩展名添加在 fname 后面。
  • dpi 表示分辨率,每英寸的点数。
  • facecolor(颜色或 auto,默认值是 auto)表示图形表面颜色。如果是 auto,使用当前图形的表面颜色。
  • edgecolor(颜色或 auto,默认值:auto)表示图形边缘颜色。如果是 auto,使用当前图形的边缘颜色。
  • format(字符串)表示文件格式,比如 png,jpg,pdf,svg 等,未设置的行为将被记录在 fname 中。
  • transparent 表示用于将图片背景设置为透明。图形也会是透明,除非通过关键字参数指定了表面颜色和/或边缘
  • 其中,需要注意的是:
  • (1) 第一个参数就是保存的路径.
  • (2) 如果路径中包含未创建的文件夹,会报错,需要手动或者使用 os 模块创建。
  • (3) 必须在调用 plt.show() 之前保存,否则将保存的是空白图形.
  • (4) 如果保存到指定文件夹中,一定确保文件夹存在。
    - 例如,我们对 x 轴和 y 轴的数据进行指定,然后使用 os 模块判断目录是否存在,如果不存在的话,使用 os 模块进行文件夹的创建。
import os
x_axis =[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]
y_axis =[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
plt.hist(x_axis, y_axis)
plt.xlabel("X")
plt.ylabel("Y")
if not os.path.exists("my"):
    os.mkdir("my")
plt.savefig("my/my_show.png")
plt.show()

python 箱线图处理异常值 python箱线图和散点图结合_开发语言_12

三、箱线图绘制 boxplot()
  • 箱线图(Boxplot)是一种用作显示一组数据分散情况资料的统计图表。

1. 箱线图基本介绍

  • 箱线图,又称箱形图(boxplot)或盒式图,不同于一般的折线图、柱状图或饼图等图表, 其包含一些统计学的均值、分位数、极值等统计量,该图信息量较大,不仅能够分析不同类别数据平均水平差异, 还能揭示数据间离散程度、异常值、分布差异等。
  • 具体含义可通过如下图表进行说明:

python 箱线图处理异常值 python箱线图和散点图结合_python 箱线图处理异常值_13

  • 在箱型图中,我们从上四分位数到下四分位数绘制一个盒子,然后用一条垂直触须(形象地称为“盒须”)穿过盒子的中间。上垂线延伸至上边缘(最大值),下垂线延伸至下边缘(最小值)
  • 箱型图一般应用在如下场景:
  • (1) 箱型图由于能显示一组数据分散情况,常用于品质管理。
  • (2) 箱型图有利于数据的清洗,能快速知道数据分别情况。
  • (3) 箱型图有助于分析一直数据的偏向如分析公司员工收入水平。

2. 函数的使用 pyplot.boxplot()

  • 其语法模板如下:
matplotlib.pyplot.boxplot(x, notch=None, sym=None, vert=None, whis=None, positions=None, widths=None, patch_artist=None, bootstrap=None, usermedians=None, conf_intervals=None, meanline=None, showmeans=None, showcaps=None, showbox=None, showfliers=None, boxprops=None, labels=None, flierprops=None, medianprops=None, meanprops=None, capprops=None, whiskerprops=None, manage_ticks=True, autorange=False, zorder=None, *, data=None)
  • x 表示输入数据。类型为数组或向量序列。是一个必备参数。
  • notch 表示控制箱体中央是否有 V 型凹槽。当取值为 True 时,箱体中央有 V 型凹槽,凹槽表示中位数的置信区间;取值为 False 时,箱体为矩形。数据类型为布尔值,默认值为 False,是一个可选参数。
  • vert 表示箱体的方向,当取值为 True 时,绘制垂直箱体,当取值为 False 时,绘制水平箱体。数据类型为布尔值,默认值为 True。是一个可选参数。
  • positions 表示指定箱体的位置。刻度和极值会自动匹配箱体位置。数据类型为类数组结构,是一个可选参数。默认值为 range(1, N+1) ,N 为箱线图的个数。
  • widths 表示箱体的宽度。类数据型为浮点数或类数组结构。默认值为 0.5 或 0.15 * 极值间的距离。
  • labels 表示每个数据集的标签,默认值为 None。数据类型为序列,是一个可选参数。
  • autorange 表示当取值为 True 且数据分布满足上四分位数(75%)和下四分位数(25%)相等。数据类型为布尔值,默认值为 False,是一个可选参数。
  • showmeans 表示是否显示算术平均值。数据类型为布尔值,默认值为 False,是一个可选参数。
  • meanline 表示均值显示为线还是点,当取值为 True,且 showmeans、shownotches 参数均为 True 时显示为线。数据类型为布尔值,默认值为 False,是一个可选参数。
  • capprops 表示箱须横杠的样式。数据类型为字典,默认值为 None,是一个可选参数。
  • boxprops 表示箱体的样式。数据类型为字典,默认值为 None,是一个可选参数。
  • whiskerprops 表示箱须的样式。数据类型为字典,默认值为 None,是一个可选参数。
  • flierprops 表示离群点的样式。数据类型为字典,默认值为 None,是一个可选参数。
  • medianprops 表示中位数的样式。数据类型为字典,默认值为 None,是一个可选参数。
  • meanprops 表示算术平均值的样式。数据类型为字典,默认值为 None,是一个可选参数。
  • 例如,我们可以生成如下的简单箱线图。
  • 使用 showmeans 和 meanline 参数。
x = np.array([1,20,30,50,60])
print(np.mean(x))
plt.boxplot(x,showmeans=True,meanline=True)
plt.grid()
plt.show()
#32.2

python 箱线图处理异常值 python箱线图和散点图结合_matplotlib_14

  • 通过创建 5 行 5 列的数据,使用 boxprops 和 meanprops 参数。
x = np.random.randint(10,100,size=(5,5))
box = {"linestyle":'--',"linewidth":1,"color":'blue'}
mean = {"marker":'o','markerfacecolor':'pink','markersize':2}
plt.boxplot(x,meanline=True,showmeans=True,labels=["A","B","C","D","E"], boxprops=box,meanprops=mean)
plt.show()

python 箱线图处理异常值 python箱线图和散点图结合_默认值_15

四、词云图
  • 词云图,也叫文字云,是对文本中出现频率较高的关键词予以视觉化的展现, 词云图过滤掉大量的低频低质的文本信息,使得浏览者只要一眼扫过文本就可领略文本的主旨。

python 箱线图处理异常值 python箱线图和散点图结合_python 箱线图处理异常值_16

  • WordCloud 是一款 python 环境下的词云图工具包,同时支持 python2 和 python3,能通过代码的形式把关键词数据转换成直观且有趣的图文模式。
  • pip 的默认安装方式:pip install wordcloud
  • 如果是使用 conda 的方式安装,则使用以下命令安装:conda install -c conda-forge wordcloud

1. WordCloud 参数查看

属性

数据类型|默认值

解析

font_path

string

字体路径 windows:C:/Windows/Fonts/ Linux: /usr/share/fonts

width

int (default=400)

输出的画布宽度,默认为400像素

height

int (default=200)

输出的画布高度,默认为200像素

prefer_horizontal

float (default=0.90)

词语水平方向排版出现的频率,默认 0.9 所以词语垂直方向排版出现频率为0.1

mask

nd-array or None (default=None)

如果参数为空,则使用二维遮罩绘制词云 如果mask非空,设置的宽高值将被忽略 遮罩形状被 mask 取代

scale

float (default=1)

按照比例进行放大画布,如设置为1.5, 则长和宽都是原来画布的1.5倍

min_font_size

int (default=4)

显示的最小的字体大小

font_step

int (default=1)

字体步长,如果步长大于1,会加快运算 但是可能导致结果出现较大的误差

max_words

number (default=200)

要显示的词的最大个数

stopwords

set of strings or None

设置需要屏蔽的词,如果为空, 则使用内置的STOPWORDS

background_color

color value default=”black”

背景颜色

max_font_size

int or None default=None

显示的最大的字体大小

mode

string (default=”RGB”)

当参数为“RGBA”并且background_color 不为空时,背景为透明

relative_scaling

float (default=.5)

词频和字体大小的关联性

color_func

callable, default=None

生成新颜色的函数,如果为空, 则使用 self.color_func

regexp

string or None (optional)

使用正则表达式分隔输入的文本

collocations

bool, default=True

是否包括两个词的搭配

colormap

string or matplotlib colormap default=”viridis”

给每个单词随机分配颜色, 若指定color_func,则忽略该方法

random_state

int or None

为每个单词返回一个PIL颜色

2. 中文使用词云图,需要使用 jieba 分词模块

  • 他支持如下几种分词模式:
  • (1) 精确模式,试图将句子最精确地切开,适合文本分析。
  • (2) 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义。
  • (3) 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
  • (4) 支持繁体分词。
  • (5) 支持自定义词典。
  • 他的代码对 Python 2/3 均兼容,有如下几种安装方式:
  • (1) 全自动安装:easy_install jieba 或者 pip install jieba / pip3 install jieba
  • (2) 半自动安装:先下载 http://pypi.python.org/pypi/jieba/ ,解压后运行 python setup.py install
  • (3) 手动安装:将 jieba 目录放置于当前目录或者 site-packages 目录,通过 import jieba 来引用。
  • 知识点补充:
  • jieba.cut 方法接受三个输入参数: 需要分词的字符串;cut_all 参数用来控制是否采用全模式;HMM 参数用来控制是否使用 HMM 模型。
  • jieba.cut_for_search 方法接受两个参数:需要分词的字符串;是否使用 HMM 模型。该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细 待分词的字符串可以是 unicode 或 UTF-8 字符串、GBK 字符串。注意:不建议直接输入 GBK 字符串,可能无法预料地错误解码成 UTF-8。
  • jieba.cut 以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用 =jieba.lcut 以及 jieba.lcut_for_search 直接返回 list。

3. jieba.analyse的使用:提取关键字

  • 第一个参数 表示待提取关键词的文本。
  • 第二个参数 topK 表示返回关键词的数量,重要性从高到低排序。
  • 第三个参数 withWeight 表示是否同时返回每个关键词的权重。
  • 第四个参数allowPOS=() 表示词性过滤,为空表示不过滤,若提供则仅返回符合词性要求的关键词 ,查看:jieba 词性表.txt。