无论出于兴趣或者职业发展,于是最近开始做各种大小项目实践,以拉勾网数据分析招聘职位分析广州求职竞争情况!

 Tools      : chrome;  python 3.6;jupyter 

 OS          :   mac osx

Reference:wangwei-tongxue GITer;百度

一:contents

 1. 爬取数据         

网页分析

爬虫程序    

 2. 职位分析   

哪些公司的招聘需求最多呢?

什么样的学历能够胜任数据分析呢?

几年工作经验更受市场欢迎呢?

广州哪个区的数据分析岗位机会最多?

不同工作年限的数据分析师是什么收入水平?

二.1.网页分析:

在拉勾网搜索页面输入数据分析,并且定位为广州,用F12打开开发调试工具,根据下图标红的地方查看详细信息:

银行 数据挖掘 银行数据挖掘分析岗位_爬虫

在general里面很容易看出是post请求,并且返回的是json数据,很方便读取,如下图

银行 数据挖掘 银行数据挖掘分析岗位_银行 数据挖掘_02

通过观察分析,发现post请求时候由表单信息控制查询关键字和页码,

银行 数据挖掘 银行数据挖掘分析岗位_开发工具_03

同时,报头信息最好包括header,cookie,data等信息,用的requests库对获取的json数据解析,爬虫函数如下:

银行 数据挖掘 银行数据挖掘分析岗位_json_04

由于拉勾网反扒机制的限制,设置10s的抓取间隔,效率较低,时间间隔可以自己看情况设定。

银行 数据挖掘 银行数据挖掘分析岗位_数据分析_05

查看抓取的数据情况:

银行 数据挖掘 银行数据挖掘分析岗位_银行 数据挖掘_06

简单的数据清洗,然后可以用df.to_csv保存或直接分析

银行 数据挖掘 银行数据挖掘分析岗位_开发工具_07

 

 2. 职位分析   

哪些公司的招聘需求最多呢?

银行 数据挖掘 银行数据挖掘分析岗位_银行 数据挖掘_08

 

2.学历要求

银行 数据挖掘 银行数据挖掘分析岗位_json_09

 

3.对工作经验的要求怎么样?

银行 数据挖掘 银行数据挖掘分析岗位_json_10

4.哪个区的数据分析岗位机会最多?

银行 数据挖掘 银行数据挖掘分析岗位_银行 数据挖掘_11

可以导入pyecharts库,进行可视化,注意文件可以保存在当前工作目录(os.getcwd可以查看当前路径),由图可以看出数据工作几乎集中在天河区!

银行 数据挖掘 银行数据挖掘分析岗位_银行 数据挖掘_12

5.工作年限与数据分析工作的相关性

银行 数据挖掘 银行数据挖掘分析岗位_银行 数据挖掘_13

(以拉勾网为例)应届生大部分薪资在5000+,而工作3年以上的工资接近两万!工作经验基本与工资成正比,学无止境,加油!

 

完整代码和运行结果请于我的github下载!

https://github.com/nashgame/DataScience/tree/master/notebook