继上一篇文章Pandas数据处理——盘点那些常用的函数(上),这篇文章整理了剩下的一些Pandas常见方法,整体难度会比上一篇文章中的大一点,但还是比较容易理解的。话不多说,直接进入正题。
用于演示的数据如下:
.astype()
作用对象:Series
和DataFrame
主要用途:修改字段的数据类型,数据量大的情况下可用于减小数据占用的内存,多用于Series
。
用法:
.rename()
作用对象:Series
,DataFrame
(大多数情况下)
主要用途:多用于修改DataFrame
的列名
主要参数:
- columns (dict-like or function)
指定要修改的列名以及新的列名,一般以字典形式传入 - inplace (boolean, default False)
是否作用于原对象
用法:
.set_index()
作用对象:DataFrame
主要用途:将DataFrame
中的某一(多)个字段设置为索引
用法:
.reset_index()
作用对象:Series
,DataFrame
主要用途:重置索引,默认重置后的索引为0~len(df)-1
主要参数:
- drop (boolean, default False)
是否丢弃原索引,具体看下方演示 - inplace (boolean, default False)
是否作用于原对象
用法:
.drop_duplicates()
作用对象:Series
,DataFrame
主要用途:去掉重复值,作用和SQL
中的distinct
类似
用法:
.drop()
作用对象:Series
,DataFrame
主要用途:常用于删掉DataFrame
中的某些字段
主要参数:
- columns (single label or list-like)
指定要删掉的字段
用法:
.isin()
作用对象:Series
,DataFrame
主要用途:常用于构建布尔索引,对DataFrame
的数据进行条件筛选
用法:
pd.cut()
主要用途:将连续变量离散化,比如将人的年龄划分为各个区间
主要参数:
- x (array-like)
需要进行离散化的一维数据 - bins (int, sequence of scalars, or IntervalIndex)
设置需要分成的区间,可以指定区间数量,也可以指定间断点 - labels (array or bool, optional)
设置区间的标签
用法: