上一周头脑风暴后直接没有章法就对数据集进行分析,这周初步了解数据分析的全过程,还是老老实实按照步骤一步步来。

整体的分析思路是:1.提出问题;2.理解数据;3.数据清洗(选择子集→列名重命名→删除重复值→缺失值处理→一致化处理→数据排序→异常值处理);4.数据分析/构建模型(分组汇总用数据透视表,描述统计分析用分析工具库,多表关联查询-vlookup);5.数据可视化

按照此步骤再对上一周头脑风暴后的问题进行分析:

首先将原始数据表复制备份,加上后缀-清洗数据四




两个series相加_唯一标识


其次理解数据,事实上之前是已经做过这步操作了,但是这儿再对两个表对比分析,相同字段名是用户ID,为后来的多表关联查询做准备。


两个series相加_两张表的数据的相同列的数据相加_02


接下来就是数据清洗这一步骤,这儿就严格按照步骤来做:

选择子集+列名重命名两个步骤:对两个表的字段名再次查看,因商品属性列,没有明确告知数字所代表的属性值意义,所以将商品属性列隐藏:选中该列,右键单击,选择隐藏。字段名设置清晰,不需要再对列名重命名。但是考虑到后面处理的方便,于是将除商品属性以外的列复制进sheet2表中。当然在商品属性这儿如果有明确告知的其具体含义,将商品属性分列后,对店铺库存补货也是可以参考的极为重要的信息。


两个series相加_两个series相加_03


删除重复值这一步,对两张表全部的数据重复值查找(区分教程中的步骤仅对职位ID这一唯一标识进行重复值查找,尽管用户ID同样也是唯一标识,但是用户重复购买是有用信息)。这儿全选删除重复值,两张表均未发现重复值。自己思考的点是,如果真的出现了全部字段值的内容均相同,除了可能是数据录入重复,也有可能是用户当天重复购买同样数量的同样商品。


两个series相加_数据_04


没有发现重复值后需要对缺失值进一步处理,通过定位条件,发现没有空值。


两个series相加_两个series相加_05


一致化处理在这儿将目前为常规格式的日期,保存为日期格式,操作步骤:数据-分列-前两页不处理-最后一页选中日期,最后处理的数据展示如图所示。


两个series相加_两张表的数据的相同列的数据相加_06


两个series相加_数据_07


异常值处理,着重查看日期列,发现婴儿列存在一异常值,删除掉该行。

因两表有用户ID作为唯一标识,所以进行Vlookup的函数操作。这里将婴儿信息表Vlookup过来的时候需要用到text函数,并且分列将其格式设置为日期,同时将所有#N/A替换为空。


两个series相加_唯一标识_08


接下来进行数据分析,这儿想要解决的问题有:

用户角度:

(1)最高购买量的用户是谁?


两个series相加_两张表的数据的相同列的数据相加_09


(2)复购率高的用户是谁?


两个series相加_数据_10


(3)有小孩的用户最高购买量是谁?


两个series相加_两个series相加_11


(4)有小孩的用户复购率高的是谁?


两个series相加_两张表的数据的相同列的数据相加_12


以此类推:婴儿性别为女性的用户购买量和复购率最高的是谁?男性又是谁?

商品角度:

(1)购买量最高的商品是什么?


两个series相加_数据分析_13


(2)复购率最高的商品是什么?


两个series相加_两个series相加_14


(3)商品分年分月分季度的购买量


两个series相加_数据_15


两个series相加_数据_16


(4)以性别为筛选项商品分月分季度的购买量


两个series相加_数据分析_17


婴儿年龄的描述统计

对婴儿年龄先进行计算,以数据提供日期2018/04/02为计算起始日期,计算年龄。


两个series相加_数据_18


两个series相加_两张表的数据的相同列的数据相加_19