合并数据

堆叠合并数据

1、横向表堆叠

python表格相似度分析 pandas 相似度_数据分析


python表格相似度分析 pandas 相似度_数据_02


默认是取合集

2、纵向堆叠

concat函数

python表格相似度分析 pandas 相似度_python表格相似度分析_03


用列名称进行堆叠

append函数

python表格相似度分析 pandas 相似度_python_04

主键合并数据

主键合并

python表格相似度分析 pandas 相似度_数据分析_05


python表格相似度分析 pandas 相似度_缺失值_06


python表格相似度分析 pandas 相似度_python_07

重叠合并数据

combine_first方法

python表格相似度分析 pandas 相似度_数据分析_08


python表格相似度分析 pandas 相似度_数据_09

清洗数据

检测与处理重复值

1、记录重复

方法一:利用list去重,自定义去重函数
方法二:利用集合(set)的元素是唯一的特性去重,如
方法三:利用numpy中的unique函数

dish_set=set(dishes)

常用方法:

pandas的drop_duplicates的去重方法,该方法之对DataFrame或Series有效,不会改变数据源是排列,不止支持单一特征的数据去重,还能根据DataFrame一个或多个特征去重

python表格相似度分析 pandas 相似度_缺失值_10

2、特征重复

去除连续性特征重复,利用特征间的相似度将两个相似度为1的特征取出一个

pandas相似度计算方法:corr

使用该方法计算时,默认为“person”法,可以通过“method”参数调节,目前还支持“spearman”法和“kendall”法

python表格相似度分析 pandas 相似度_数据分析_11

检测与处理缺失值

describe方法也可以查找出数值型的缺失情况

利用isnull或notnull找出缺失值

python表格相似度分析 pandas 相似度_数据分析_12

data.isnull().sum()#统计缺失值个数

检测与处理缺失值

1、删除法

python表格相似度分析 pandas 相似度_python_13


删除后对原表没有作用

2、替换法

对缺失值进行替换

python表格相似度分析 pandas 相似度_缺失值_14


python表格相似度分析 pandas 相似度_python表格相似度分析_15

3、插值法

python表格相似度分析 pandas 相似度_数据_16


删除法适合缺失值占比较小

替换法会影响信息量变动

python表格相似度分析 pandas 相似度_缺失值_17


SciPy库种包括多种数学中的插值拟合法

异常值

python表格相似度分析 pandas 相似度_python_18


python表格相似度分析 pandas 相似度_python_19


python表格相似度分析 pandas 相似度_python表格相似度分析_20

标准化数据

转化数据