python爬取前程无忧数据返回的为什么是html页面爬虫前程无忧_卡哇伊的技术博客_51CTO博客

python爬取前程无忧数据返回的为什么是html页面爬虫前程无忧

关注小题大作

文章目录

文章目录
前程无忧网站
Step1：找准自己需要什么东西
Step2：进行网页分析
Step3：利用XPath Helper插件写出所需信息的大致Xpath路径
小结

python爬取前程无忧数据返回的为什么是html页面爬虫前程无忧

转载

小题大作 2024-01-05 19:52:19

文章标签 python 爬虫 xpath https 服务器 文章分类 Python 后端开发

文章目录

前程无忧网站
Step1：找准自己需要什么东西
Step2：进行网页分析
Step3：利用XPath Helper插件写出所需信息的大致Xpath路径
小结

前程无忧网站

小远想知道全国各地的爬虫开发工程师的招聘要求，并进行横向比较和分析。大型招聘网站（比如前程无忧）上的岗位需求都是成百上千条，显然，网上的招聘信息太多，自己点开太过繁琐和复杂，手动完成不现实。所以，上爬虫，干！目标，“前程无忧”的爬虫岗信息（网址：https://jobs.51job.com/pachongkaifa）

Step1：找准自己需要什么东西

python爬取前程无忧数据返回的为什么是html页面爬虫前程无忧_python

python爬取前程无忧数据返回的为什么是html页面爬虫前程无忧_爬虫_02

Step2：进行网页分析

使用Chrome浏览器打开网页，发现从第一页到第十三页的URL（统一资源定位器，就是网络地址）分别对应着“https://jobs.51job.com/pachongkaifa/p1/”到“https://jobs.51job.com/pachongkaifa/p13/”，由于网页布局都是一样的，所以只需要完成一页再写一个循环就可以完成所有信息的爬取。

查看网页源代码

右键->检查

python爬取前程无忧数据返回的为什么是html页面爬虫前程无忧_服务器_03

或者直接Ctrl+Shift+C，选中要检查的内容，便可以快速定位到要检查的内容在源代码中的位置，个人比较推荐这种方法、

python爬取前程无忧数据返回的为什么是html页面爬虫前程无忧_https_04

以防万一，需要看一眼这个网页获取服务器上数据的方式是GET还是POST，一般来说，如果不涉及登录信息或者其他验证步骤的网页都是GET方式获取的，但此处为了讲解得更加详细，展示一下。（关于GET和POST以及其他HTML的相关知识请自行百度）

python爬取前程无忧数据返回的为什么是html页面爬虫前程无忧_xpath_05

由于我们需要的内容组成为一个一个小的单元（本例中一个岗位就有自己的若干属性信息，如“岗位名称”、“所属公司”、“薪资待遇"等等），所以抽丝剥茧之后，需要整理出一个该网页所需信息的结构框架

大致如下两图所示：

python爬取前程无忧数据返回的为什么是html页面爬虫前程无忧_服务器_06

python爬取前程无忧数据返回的为什么是html页面爬虫前程无忧_https_07

Step3：利用XPath Helper插件写出所需信息的大致Xpath路径

//div[@class=“detlist gbox”]/div

python爬取前程无忧数据返回的为什么是html页面爬虫前程无忧_服务器_08

具体将本版块拿下来之后需要做什么，需要在程序中完成，将在之后的文章中陆续更新。

小结

分析网页三部曲： 1、找准自己需要获取的网页内容并检查获取方式（GET、POST） 2、查看源代码，理解其网页框架 3、通过插件更快地确定所需内容的Xpath路径。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

赞
收藏
评论
分享
举报

上一篇：最大流JAVA 最大流等于最大流量

下一篇：python opencv 轮廓光晕特效 opencv轮廓特征

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

举报文章

请选择举报类型

内容侵权涉嫌营销内容抄袭违法信息其他

具体原因

包含不真实信息涉及个人隐私

原文链接（必填）

补充说明

0/200

上传截图

格式支持JPEG/PNG/JPG，图片不超过1.9M

已经收到您得举报信息，我们会尽快审核

鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

51CTO博客

首页
关注
排行榜
精品课程
免费资料
软考题库

科目全、试题精、讲解专业，扫码免费刷

搜索历史清空

热门搜索

查看【】的结果
写文章
创作中心
登录注册