文章目录

  • 前程无忧网站
  • Step1:找准自己需要什么东西
  • Step2:进行网页分析
  • Step3:利用XPath Helper插件写出所需信息的大致Xpath路径
  • 小结


前程无忧网站

小远想知道全国各地的爬虫开发工程师的招聘要求,并进行横向比较和分析。大型招聘网站(比如前程无忧)上的岗位需求都是成百上千条,显然,网上的招聘信息太多,自己点开太过繁琐和复杂,手动完成不现实。所以,上爬虫,干!目标,“前程无忧”的爬虫岗信息(网址:https://jobs.51job.com/pachongkaifa)


Step1:找准自己需要什么东西

python爬取前程无忧数据返回的为什么是html页面 爬虫前程无忧_python

python爬取前程无忧数据返回的为什么是html页面 爬虫前程无忧_爬虫_02

Step2:进行网页分析

使用Chrome浏览器打开网页,发现从第一页到第十三页的URL(统一资源定位器,就是网络地址)分别对应着“https://jobs.51job.com/pachongkaifa/p1/”到“https://jobs.51job.com/pachongkaifa/p13/”,由于网页布局都是一样的,所以只需要完成一页再写一个循环就可以完成所有信息的爬取。

查看网页源代码

右键->检查

python爬取前程无忧数据返回的为什么是html页面 爬虫前程无忧_服务器_03

或者直接Ctrl+Shift+C,选中要检查的内容,便可以快速定位到要检查的内容在源代码中的位置,个人比较推荐这种方法、

python爬取前程无忧数据返回的为什么是html页面 爬虫前程无忧_https_04

以防万一,需要看一眼这个网页获取服务器上数据的方式是GET还是POST,一般来说,如果不涉及登录信息或者其他验证步骤的网页都是GET方式获取的,但此处为了讲解得更加详细,展示一下。(关于GET和POST以及其他HTML的相关知识请自行百度)

python爬取前程无忧数据返回的为什么是html页面 爬虫前程无忧_xpath_05

由于我们需要的内容组成为一个一个小的单元(本例中一个岗位就有自己的若干属性信息,如“岗位名称”、“所属公司”、“薪资待遇"等等),所以抽丝剥茧之后,需要整理出一个该网页所需信息的结构框架

大致如下两图所示:

python爬取前程无忧数据返回的为什么是html页面 爬虫前程无忧_服务器_06

python爬取前程无忧数据返回的为什么是html页面 爬虫前程无忧_https_07

Step3:利用XPath Helper插件写出所需信息的大致Xpath路径

//div[@class=“detlist gbox”]/div

python爬取前程无忧数据返回的为什么是html页面 爬虫前程无忧_服务器_08

具体将本版块拿下来之后需要做什么,需要在程序中完成,将在之后的文章中陆续更新。

小结

分析网页三部曲: 1、找准自己需要获取的网页内容并检查获取方式(GET、POST) 2、查看源代码,理解其网页框架 3、通过插件更快地确定所需内容的Xpath路径。