公众号:尤而小屋
作者:Peter
编辑:Peter

本文主要是介绍的自己在平时使用Pandas处理数据过程中接触到的高频技巧。以前的Pandas文章有对不同知识点的拆解,欢迎阅读。

【Python】30个Pandas高频使用技巧_大数据

Pandas连载文章

​图解Pandas数据合并:concat、join、append​

​创建DataFrame:10种方式任你选​

​赞!五花八门的Pandas筛选数据​

​数据处理基石:数据探索​

【Python】30个Pandas高频使用技巧_python_02

高频技巧

使用的技巧主要是下图涉及到的:

【Python】30个Pandas高频使用技巧_机器学习_03

import pandas as pd
import numpy as np

导入文件

Pandas能够读取很多文件:Excel、CSV、数据库、TXT,甚至是在线的文件都是OK的

【Python】30个Pandas高频使用技巧_数据分析_04

创建DataFrame

在以前的文章中介绍过10种DataFrame的方法

【Python】30个Pandas高频使用技巧_python_05

查看头尾数据

头尾都是默认5行数据,可以指定行数

# df2.head()  默认头部5行
df2.head(3) # 指定3行

# df2.tail() 默认尾部5行
df2.tail(2) # 指定尾部2行

显示全部列名

【Python】30个Pandas高频使用技巧_机器学习_06

显示索引

【Python】30个Pandas高频使用技巧_人工智能_07

查看列的数据类型

【Python】30个Pandas高频使用技巧_人工智能_08

查看行列数

【Python】30个Pandas高频使用技巧_数据分析_09

查看数据大小

【Python】30个Pandas高频使用技巧_人工智能_10

查看缺失值

【Python】30个Pandas高频使用技巧_数据分析_11

修改列名

两种方式:使用rename函数和直接使用columns属性

【Python】30个Pandas高频使用技巧_数据分析_12【Python】30个Pandas高频使用技巧_人工智能_13

统计元素

统计每个元素的个数

【Python】30个Pandas高频使用技巧_python_14

转成列表数据

【Python】30个Pandas高频使用技巧_人工智能_15

提取列中数据

【Python】30个Pandas高频使用技巧_大数据_16

提取文本数据

【Python】30个Pandas高频使用技巧_数据分析_17

数值范围数据提取

【Python】30个Pandas高频使用技巧_大数据_18

提取整列数据

【Python】30个Pandas高频使用技巧_数据分析_19【Python】30个Pandas高频使用技巧_机器学习_20

缺失值填充

  • 指定填充的值
  • 用计算值
  • 用其他值

【Python】30个Pandas高频使用技巧_人工智能_21

数据去重

【Python】30个Pandas高频使用技巧_人工智能_22

计算统计值

计算统计值,比如最值和均值等

【Python】30个Pandas高频使用技巧_人工智能_23

计算中位数

【Python】30个Pandas高频使用技巧_大数据_24

提取最值所在的行

【Python】30个Pandas高频使用技巧_人工智能_25

Pandas切片

df2.iloc[22]  # 提取某个行的数据
df2.iloc[:,1:6] # 行和列上的切片

【Python】30个Pandas高频使用技巧_数据分析_26

大小排序

【Python】30个Pandas高频使用技巧_数据分析_27

分组聚合

使用groupby分组之后,对不同的字段可以使用不同的聚合函数

【Python】30个Pandas高频使用技巧_大数据_28

索引重排

注意和上面例子的比较。使用的是reset_index函数

【Python】30个Pandas高频使用技巧_人工智能_29

去掉原索引

使用索引重排之后我们需要去掉原来的索引;比较上下两个结果的区别。通过drop=True来实现

【Python】30个Pandas高频使用技巧_大数据_30

apply函数

【Python】30个Pandas高频使用技巧_python_31

两个列相加

【Python】30个Pandas高频使用技巧_机器学习_32【Python】30个Pandas高频使用技巧_大数据_33

DataFrame合并

1、先看看两个原始数据

【Python】30个Pandas高频使用技巧_数据分析_34

2、默认情况:求的两个DF的交集

【Python】30个Pandas高频使用技巧_机器学习_35

3、保留左边全部数据

【Python】30个Pandas高频使用技巧_数据分析_36

4、保留右边全部数据

【Python】30个Pandas高频使用技巧_大数据_37

how="inner"其实就是默认情况:

【Python】30个Pandas高频使用技巧_数据分析_38

导出数据

导出数据的时候通常是不需要索引的

【Python】30个Pandas高频使用技巧_机器学习_39


【Python】30个Pandas高频使用技巧_python_40

qq群554839127