操作系统:Windows
Python:3.5
欢迎加入学习交流QQ群:657341423


上节讲到数据分析和挖掘需要的库,其中最主要的是Pandas,Matplotlib。
Pandas:主要是对数据分析,计算和统计,如求平均值,方差等。
Matplotlib:主要结合Pandas生成图像。两者往往结合使用的。


Pandas:

python 数据分析挖掘 题库 python怎么做数据分析挖掘_数据分析


上图中针对的是对象为DataFrame或者Series

对于DataFrameSeries区别,参考一下官网说明就知道该数据结构了。

回归到上图的使用方法

python 数据分析挖掘 题库 python怎么做数据分析挖掘_数据挖掘_02


python 数据分析挖掘 题库 python怎么做数据分析挖掘_python 数据分析挖掘 题库_03


python 数据分析挖掘 题库 python怎么做数据分析挖掘_python_04


解释:

读取excel里面的数据,然后生成data数据。然后过滤一下数据,这个过滤可有可无,然后直接使用data.describe()即可。因为对象data是DataFrame格式。

如果使用其他方法,data.sum(),data.var()即可得出,如下

python 数据分析挖掘 题库 python怎么做数据分析挖掘_数据分析_05

这里只是给出其他统计方式,如果还需要其他数据,如极差,四分位数间距这些,需要计算得出。这里可以这样:

python 数据分析挖掘 题库 python怎么做数据分析挖掘_数据_06


解释:

statistics是为data.describe(),不能直接是data。

statistics.loc['aa'] = statistics.loc['75%']-statistics.loc['25%'] #四分位数间距

statistics.loc[‘aa’]是可以自定义名称的。也就是我们常说的新增统计数据。

Pandas累积统计特征函数

python 数据分析挖掘 题库 python怎么做数据分析挖掘_数据挖掘_07


用法:

python 数据分析挖掘 题库 python怎么做数据分析挖掘_数据分析_08


结果:

python 数据分析挖掘 题库 python怎么做数据分析挖掘_数据_09


这里是统计2行的和,因为和我设置window=2相关的。你会发现第一个数是NaN的,因为第一行不够2行,无法累加。


Matplotlib作图:

python 数据分析挖掘 题库 python怎么做数据分析挖掘_python 数据分析挖掘 题库_10

在作图之前,基本上都要做一些设置:
import matplotlib.pyplot as plt #导入图像库
plt.rcParams[‘font.sans-serif’] = [‘SimHei’] #用来正常显示中文标签
plt.rcParams[‘axes.unicode_minus’] = False #用来正常显示负号
plt.figure(figsize=(7,5)) #建立图像,创建图像区域,figsize=(7,5)指定比例
默认比例可以为:plt.figure()

如果结合Pandas使用,用法

data.plot(kind=‘bar’)

kind参数作用指定作图类型,line(线),bar(条形),barh、hist(直方图),box(箱线图),kde(密度图),area、pie(饼图)、scatter(散点图)

data为DataFrame或Series。

基本上Pandas,Matplotlib两者结合作图都是这种方法。

例子:

python 数据分析挖掘 题库 python怎么做数据分析挖掘_数据挖掘_11


python 数据分析挖掘 题库 python怎么做数据分析挖掘_数据_12


这个是通过excel数据生成图形。

如果是饼图

python 数据分析挖掘 题库 python怎么做数据分析挖掘_python_13

参考资料参考资料源文件


如果Matplotlib要单独使用,用法和上述又不一样了。