文章目录

  • pandas中的describe()函数
  • describe的参数:
  • 对缺失值的处理
  • pandas中的to_datetime()方法
  • 将DataFrame中的object类型数据全部转换为float64类型数据:
  • matplotlib保存生成的图片
  • matplotlib画图时调整子图的间距
  • DataFrame找行标签与列标签、将某列设置为行标签
  • pandas常用函数之diff:求某列或某行数据的差分
  • push()、pop()、shift()、unshift()方法简单整理


pandas中的describe()函数

python pandas中,对于一维数组,describe会返回一系列参数,count,mean,std,min,25%,50%,75%,max。

describe()返回值的解释如下:
1、count:返回数组的个数,如上述为4个元素,所以返回为4;
2、mean:返回数组的平均值,1 3 5 9的平均值为4.5;
3、std:返回数组的标准差;
4、min:返回数组的最小值;
5、25%,50%,75%:返回数组的三个不同百分位置的数值,也就是统计学中的四分位数,其中50%对应的是中位数。
6、max:返回列表的最大值。

describe的参数:

describe()函数有三个参数可以指定,分别是percentiles, include, exclude,三者的含义如下:

1、percentiles: 默认是返回四分位数,即25%,50%和75%,可以修改:describe(percentiles=[.75, 0.8]),则返回的是50%,75%,80%位置的数,可以根据需要进行相应的处理。

2、include: 默认只计算数值型特征的统计量:
当参数为include=’all’ 时,显示所有类型的数据;
当参数为numpy.number时,返回的是数值类型的数据;
当参数为numpy.object,返回的是object类型的数据;
include=[‘category’] 时,返回的是category;
include=[‘O’] 时,返回统计的是字符串型的数据。

3、exclude: include可以指定返回类型,而exclude则可以指定不返回某种类型,即返回除指定类型之外的数据。

注意:

  • Anaconda 3.7版本中 ‘sheetname’ 命令,已更新为 ‘sheet_name’ 。

对缺失值的处理

相关函数和属性

判断数据是否有缺失值:isnull()
获得每一列的判断结果:any()
计算变量的缺失值个数:sum()
计算数据集的行数和列数:shape,返回值:(行数, 列数)
删除字段或数据行:drop()
缺失值填充:fillna()

df.dropna(axis=0, how='any', inplace=True)

统计空值的个数:

power_isnull = power_data.isnull().value_counts()

pandas中的to_datetime()方法

作用:

将给定的数据按照指定格式转换成日期格式

参数:

describe函数用法 describe()_数组

将DataFrame中的object类型数据全部转换为float64类型数据:

df = df.convert_objects(convert_numeric=True)#df是一个DataFrame

但convert_objects 已被弃用 - 如果你使用它,你会得到像这样的警告:

FutureWarning: convert_objects is deprecated. Use the data-type
specific converters pd.to_datetime, pd.to_timedelta and
pd.to_numeric.

因此可以:

df = df.apply(pd.to_numeric, axis=0)

matplotlib保存生成的图片

import matplotlib.pyplot as plt
'''一些画图代码'''
plt.savefig("filename.png")
plt.show()

matplotlib画图时调整子图的间距

plt.subplots_adjust(left=None, bottom=None, right=None, top=None,wspace=None, hspace=None)
参数说明:
top、bottom、left、right:整个图距离上下左右边框的距离
wspace、hspace:这个才是调整各个子图之间的间距
wspace:调整子图之间的横向间距
hspace:调整子图之间纵向间距

DataFrame找行标签与列标签、将某列设置为行标签

  • DataFrame.columns:列标签
  • DataFrame.index:行标签
  • power_pure_data.set_index([“日期”], inplace=True):将日期列设置为行标签

pandas常用函数之diff:求某列或某行数据的差分

函数原型:

DataFrame.diff(periods=1, axis=0)

参数:
periods:移动的幅度,int类型,默认值为1
axis:移动的方向,{0 or ‘index’, 1 or ‘columns’},如果为0或者’index’,则上下移动,如果为1或者’columns’,则左右移动。

返回值
diffed:DataFrame类型

其实是经过了两个步骤:
1 首先会执行:

df.shift()#移除第一项,返回移除项

2 然后再将该数据与原数据做差,即:

df-df.shift()

例如:
序列0 1 2 3在执行diff()之后为NAN 1 2 3 序列0 1 2 3在执行diff(2)之后为NAN NAN 2 2 即:移除前两项之后再将之后两项与前两项做差
序列0 1 2 3在执行diff(-1)之后为-1 -1 -1 NAN 即:移除倒数第一项之后再倒着分别与该数之后的项做差

push()、pop()、shift()、unshift()方法简单整理

这四个都很常用返回值不一样,注意区别:
push() 在数组的末尾添加一个或多个元素 返回数组新长度

pop() 移除数组的最后一项,返回移除的项

shift() 移除数组的第一项,返回移除项

unshift() 在数组的第一项前面添加一个或多个元素,返回数组的长度