本文整理了数据中空值的处理操作,主要内容如下:

判断数据中是否有空值

统计空值/非空值数量

根据空值筛选数据

查找空值索引

删除空值 dropna()函数

填充空值fillna()函数


为了便于描述,定义本文示例数据为如下结构:

df = pd.DataFrame([[1, np.nan], [np.nan, 4], [5,6],[np.nan,7]],columns=["A","B"])
df  #定义示例数据df

 

判断数据中是否有空值

pandas isnull()函数

df.isnull()    #返回df中各元素是否为空的同df大小的数据框

df["A"].isnull()  #判断A列中空值情况

df[["A","B"]].isnull()  # 指定多列进行空值判断,对于本文实例,下述代码效果同df.isnull()

pandas notnull()函数

df.notnull()    #判断df中各元素是否 不是 空值

df["A"].isnull()  #判断A列中非空值情况

df[["A","B"]].isnull()  # 指定多列进行非空值判断,对于本文实例,下述代码效果同df.notnull()

numpy np.isnan() 函数

np.isnan(df)   # 等同于df.isnull()

np.isnan(df["A"])   # 等同于 df["A"].isnull()

np.isnan(df[["A","B"]])  # 等同于 df[["A","B"]].isnull()

统计空值/非空值数量

df.isnull().sum()  # 统计每列的空值数量

df.notnull().sum()  # 统计每列的非空值数量


df["A"].count()     # A列 非空数量
df.count()         # 统计所有列的非空值数量
df.count(axis=1)   # 每行非空值数量,axis=1

df["A"].sum()      # A列 元素数值之和

根据空值筛选数据

# 筛选出A列为空的所有行
df[df.A.isnull()]    
df[df["A"].isnull()]


# 筛选出A列非空的所有行
df[df.A.notnull()]   
df[df["A"].notnull()]        

# 筛选出df中存在空值的行
df[df.isnull().values==True]

查找空值索引

np.where(np.isnan(df))   # df中空值所在的行索引及列索引

np.where(np.isnan(df.A))    # df中A列空值所在的行索引

删除空值 dropna()函数

df.dropna()   # 删除存在空值的行,默认axis=0按行,how=any每行存在一个空值就执行删除行操作

df.dropna(axis=1)  # 删除存在空值的列

df.dropna(how="all")  # 删除所有列都为空值的特定行

df.dropna(how = "any")   # 删除存在空值的行



# 对特定列空值进行删除

df.dropna(how="any",subset=["A"])  # 删除A列中存在空值的行

df.dropna(how="any",subset=["A","B"])  # 删除A,B列中只要有一列存在空值的行



#将删除操作作用于原数据,修改替换原数据

df.dropna(how="all",subset=["A","B"],inplace=True)  # 删除A,B列都为空值的行,并替换原数据

填充空值fillna()函数

# 用指定的数字来填充
df.fillna(0)   # 用0来填充df中的空值



# 用指定的函数统计值来填充
df.fillna(df.mean())  # 用df中数据的平均值来填充空值

df.fillna(df.mean()["A"])   #指定用A列数据均值来填充df中空值

df.fillna(df.sum())   # 用df中数据的和来填充空值




# 用字典来填充
values = {'A': 0, 'B': 1}   # A列空值用0填充,B列空值用1填充
df.fillna(value=values)    


# 用指定字符串来填充空值
df.fillna("unkown")



# 不同的填充方式{‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}
# 每列的空值,用其列下方非空数值填充
df.fillna(method="backfill")  
df.fillna(method="bfill")   # 同backfill
# 每列的空值,用其所在列上方非空数值填充,若上方没有元素,保持空值
df.fillna(method="ffill")  
df.fillna(method="pad")     # 同 ffill


#limit参数设置填充空值的最大个数
df.fillna(0,limit=1)  # 每列最多填充1个空值,超过范围的空值依然为空

#inplace参数空值是否修改原数据df
df.fillna(0,inplace=True)  # inplace为true,将修改作用于原数据