转眼就快到11月份了,本以为能过一个浪漫的秋天,没想到今年没有秋天,直接快进到寒风刺骨的冬天。
于是,赶紧打开了Python,用它爬取并分析一波棉袄,找到一件最合适的棉袄给裹到身上。
01、数据采集
数据采集是数据可视化分析的第一步,也是最基础的一步,数据采集的数量和质量越高,后面分析的准确的也就越高,我们来看一下淘宝网的数据该如何爬取。
淘宝网站是一个动态加载的网站,我们之前可以采用解析接口或者用Selenium自动化测试工具来爬取数据,但是现在淘宝对接口进行了加密,使我们很难分析出来其中的规律,同时淘宝也对Selenium进行了反爬限制,所以我们要换种思路来进行数据获取。
打开开发者模式,开始对网页进行观察后发现,淘宝商品的数据竟然在源网页中存储着。
我翻了几页网页之后发现,每翻一页,网页的params参数中的s参数就会增加44(初始值是0)。
经过以上分析,现在我们就可以开始构造爬虫程序了。
01、导入爬虫使用的库
02、发起请求
03、数据存储
02、数据清洗
数据采集后,要对其进行清洗,剔除脏数据,用以提高分析的准确性。
01、导入商品数据
用pandas读取爬取后的商品数据并预览。
02、 删除重复数据
删除重复数据后,还有2008条数据。
03、数据类型转换
我们发现付款人数是字符串类型,我们需要将其转换成整数类型。
04、 查看数据类型
查看字段类型和缺失值情况,符合分析需要,无需另做处理。
03、可视化分析
我们来对这2008家棉袄商品数据进行可视化分析。可视化图是由Python、Tableau和Excel共同绘制而来。
01、在售棉袄特点
通过对棉袄的商品名称进行词云图绘制,我们发现,今年棉袄的样式以宽松、潮流、韩版、短款类居多。
制作代码如下:
02、各省产量分布图
通过对各商品的产地数据进行统计并绘制了全国地图,我们发现浙江、广东和福建这三个地方生产棉袄最多,分别是914家、261家和203家。
制作代码如下:
03、棉袄价格区间分布
我们对棉袄价格以100为分点,进行可视化后发现,价格在100-200的棉袄商品最多,有869家,其次是价格在201-300之间的,有501家。看来棉袄的价格还是相对便宜的~
04、棉袄月销量top20商家
销量最高的竟然不是旗舰店,是一个李广森的自制时尚女装店,打开她们家的店铺看了看,感觉还不错,可以给对象入手一套~
如果是初学python爬虫,觉得自学比较难的,那么我接下来分享的这全套 Python 学习资料一定不要错过,希望能给那些想学习 Python 的小伙伴们带来帮助!
python学习路线
环境搭建
使用 Python 首先需要搭建 Python 环境,我们直接到 Python 官网 下载自己对应平台和版本的安装包进行安装即可
python开发工具
俗话说:工欲善其事,必先利其器,Python 的学习也是一样,新手建议首选 PyCharm,可以快速上手,减少配置时间。
Python 学习书籍
python入门教程
如果有一定的自学能力,通过教程入门 Python 还是比较容易的,下面分享一些免费入门视频教程。
python实战案例
如果在学习基本语法时觉得有一些枯燥乏味,这时可以找一些有趣的小例子来练练手,以此来增加自己的学习兴趣。