大数据已经成为了这个时代的一个新兴词汇,利用大数据能够进行很多行业的数据分析,并且通过python大数据技术进行查看分析,让用户了解到大数据分析后的数据走向以及相关的汽车销售的信息情况。本次课题主要是针对汽车销售中的B级车的销售情况进行分析,通过对数据的抓取分析,能准确对B级车的销量和相关汽车信息进行图形化的展示,方便用户进行汽车选择。近些年来,突飞猛进的互联网技术将我们带入了大数据时代,各行各业都受到了不小的影响,不断渗透到我们日常的工作、生活和学校当中,影响着社会的不断前进和发展。
许多普通家庭都拥有了属于自己的汽车,中国现在已成为全球最大的汽车生产国及全球最大的汽车消费国之一。在网络信息时代,汽车网站有很多,易车网想在其中脱颖而出,是不容易的,相比其他汽车网站,易车网界面简洁明了,绝大多数用户可以清楚看到车辆信息,但如何从海量的信息中筛选出符合自己需要的好车是一个难题。
本文使用Scrapy框架设计网络爬虫提取易车网的价格、级别、燃料、厂商和配置等数据,详细介绍数据采集系统的设计与实现,该方法可以为数据分析项目提供数据采集及分析支持。数据查看部分主要包括对数据的信息查看、类别分类查看和直方图查看等。为了提高数据分析的质量,采用数据预处理方式对数据做分词、去除停用词等,并把分析的结果可视化展示出来,使用户可以直观且清晰的查看数据。
爬取数据:采用数据抓取技术,针对汽车之家相关的B级车的数据进行抓取,将抓取后的数据存放到本地后进行分析。
条件查询分析:可以通过购车资金范围设置,省市设置以及偏爱车型的选择,进行查询,系统可以根据所抓取的数据,按条件查询出相关的汽车信息,方便了人们通过大数据的分析,了解大相关的合适车型。
针对汽车网站存在的问题,本设计通过Python语言的爬虫技术以爬取汽车网站为研究案例,采用requests多线程采集化汽车价格、品牌、数量、口碑等数据。通过数据采集、数据处理,进一步分析得到价格与品牌关系、价格趋势等内容。使用Django搭建网站,通过ECharts可视化展示统计信息等技术,解决了可以在网站上让数据更直观的展示出来,方便用户得到自己想要筛选出的内容。
在调试过程中, 遇到了诸多问题, 尤其是 CPU、内存资源占 用以及 Spider 的搜索效率问题。现在的 Spider 程序在占用 CPU 资源较少的情况下能够良好稳定地运行, 在带宽资源能够保证 的情况下, 页面下载的速度基本保持在 1 秒钟 10 个页面左右。