合并数据
堆叠合并数据
1、横向表堆叠
默认是取合集
2、纵向堆叠
concat函数
用列名称进行堆叠
append函数
主键合并数据
主键合并
重叠合并数据
combine_first方法
清洗数据
检测与处理重复值
1、记录重复
方法一:利用list去重,自定义去重函数
方法二:利用集合(set)的元素是唯一的特性去重,如
方法三:利用numpy中的unique函数
dish_set=set(dishes)
常用方法:
pandas的drop_duplicates的去重方法,该方法之对DataFrame或Series有效,不会改变数据源是排列,不止支持单一特征的数据去重,还能根据DataFrame一个或多个特征去重
2、特征重复
去除连续性特征重复,利用特征间的相似度将两个相似度为1的特征取出一个
pandas相似度计算方法:corr
使用该方法计算时,默认为“person”法,可以通过“method”参数调节,目前还支持“spearman”法和“kendall”法
检测与处理缺失值
describe方法也可以查找出数值型的缺失情况
利用isnull或notnull找出缺失值
data.isnull().sum()#统计缺失值个数
检测与处理缺失值
1、删除法
删除后对原表没有作用
2、替换法
对缺失值进行替换
3、插值法
删除法适合缺失值占比较小
替换法会影响信息量变动
SciPy库种包括多种数学中的插值拟合法
异常值
标准化数据
转化数据