用SQL分析天猫耐克鞋子价格
一、提出问题:
我想知道以下几点:
1、天猫上耐克鞋子交易笔数高的价格大概在什么价位;
2、男女对应的价格是多少;
3、店家最高的交易笔数是多少;
二、理解数据:
1、我用集搜客采集到的数据是以下格式:
基本上框起来的列没什么用,所以就删除了,不导入到数据库里了。
2、因为SQL涉及到一个主键的问题,如果以商品名称为主键,会有重复值,会导致有些重复行导入不到数据库里 ,所以在A列前面增加了一列,=B2&C2&D2&E2&F2
然后选中所有数据,删除重复值,这样就从19192行,变成了5123行了。
3、经过整理后就剩下“合并信息”、“价格”、“商品名称”、“卖家”、“月成交笔数”、“评价数”,这5列数据。
三、数据清洗:
1、发现数据存在几个问题:
(1)价格列,前面有个金钱符号,要去掉;价格有两位小数点也去掉;而且是文本格式,要转换成数值格式;
(2)月成交笔数,有“笔”字,去掉;
(3)评价数,单位不统一,有的是以“一”为单位,有的是以“万”为单位,而且是文本格式,也要转换成数值格式;
(4)需增加一列,从“商品名称”中提取性别:即商品名称中包含“男”,性别则为“男”,同理商品名称中包含“女”,性别则为”女“,“男女”都没有提到的,则为“中性”;
以上问题,通过EXCEL进行处理,得出以下数据:
2、建表,导入数据:
设置合并信息为主键。
这样数据就导入到数据库里了。
3、检查下是否所有行都导入了:
5123行扣掉第一行字段行,是有5122行数据没错。
四、数据建模及数据可视化:
1、价格段分析:价格从100多到两万多都有,价格段拟分为:100-500,500-1000,1000-2000,2000-5000,5000-10000,10000-20000,20000以上
由上可见,100-500价格段的购买人数比较多,其次是500-1000,再次是1000-2000,超过5000的基本就很少人买了。分类的价格段与成交比数成反比。价格段约低,成交笔数约高,价格段约高,成交笔数约低。
2、卖家分析:
(1)天猫上有多少卖家在卖耐克的鞋子:
天猫上有93家卖家在卖耐克的鞋子。
(2)月有产生销售的卖家有几家:
93家卖家中,月有产生销售的有92家,只有一家没有产生销售。
(3)月成交笔数前15的卖家是哪几家,销售第一是谁?
由上可见,销售第一的店铺是“NIKE官方旗舰店”,月成交笔数534246,且遥遥领先第二名“速捷运动专营店”的月成交笔数18937,可见大家对官方旗舰店还是比较信赖的。
3、性别分析:
男、女、中性性别中,月成交笔数各是多少,占比多少。
由上可见,男鞋卖得比女鞋好,男鞋占比达74%,女鞋只有25%,中性(没有表明男女)的只占了1%。