散点图

使用Matplotlib的scatter()函数绘制散点图,其中x和y是相同长度的数组序列。scatter()函数的一般用法为:

python 用matplotlib绘制散点图 matplotlib散点图点大小_matplotlib


主要参数说明如下:

x,y:数组。

s:散点图中点的大小,可选。

c:散点图中点的颜色,可选。

marker:散点图的形状,可选。

alpha:表示透明度,在 0~1 取值,可选。

linewidths:表示线条粗细,可选。

示例:绘制身高—体重的散点图

python 用matplotlib绘制散点图 matplotlib散点图点大小_matplotlib_02


散点图主要演示两个变量的相关性:正相关、负相关、不相关。示例:显示y=2x+1的图形

Matplotlib中最基础的模块是Pyplot, 下面从最简单的线图开始讲解。例如,有一组数据,还有一个拟合模型,通过编写代码来实现数据与模型结果的可视化。

假设一个线性函数具有形式y=ax+b, 自变量是x,因变量是y,y轴截距为b,斜率为a。

下面用简单的数据来描述线性方程y=2x+1,代码如下:

python 用matplotlib绘制散点图 matplotlib散点图点大小_matplotlib_03

直方图

使用Matplotlib的hist()函数绘制直方图,hist()函数的一般用法为:

python 用matplotlib绘制散点图 matplotlib散点图点大小_正态分布_04


主要参数说明如下:

• bins:直方图中箱子 (bin) 的总个数。个数越多,条形带越紧密。

• color:箱子的颜色。

• normed:对数据进行正则化。决定直方图y轴的取值是某个箱子中的元素的个数 (normed=False), 还是某个箱子中的元素的个数占总体的百分比 (normed=True)。

正太分布

在介绍直方图之前,先来了解什么是正太分布。

正态分布也称常态分布,是连续随机变量概率分布的一种,自然界、人类社会、心理和教育中的大量现象均按正态形式分布。例如,能力的高低、学生成绩的好坏等都属于正态分布。正态分布曲线呈钟形,两头低,中间高,左右对称。因其曲线呈钟形,所以人们又经常称之为钟形曲线,如下图所示。

python 用matplotlib绘制散点图 matplotlib散点图点大小_正态分布_05


正态分布有两个参数,即均值和标准差。均值是正态分布的位置参数,描述正态分布的集中趋势位置。概率规律为:取与均值越近的值的概率越大,而取离均值越远的值的概率越小。

标准差描述正态分布资料数据分布的离散程度,标准差越大,数据分布越分散;标准差越小,数据分布越集中。标准差也是正态分布的形状参数,标准差越大,曲线越扁平;反之,标准差越小,曲线越瘦高。

绘制直方图,需要使用NumPy的np.random.randn(N)函数,这个函数的作用就是从标准正态分布中返回N个样本值。

示例:直方图,其完整代码如下:

python 用matplotlib绘制散点图 matplotlib散点图点大小_标准差_06