大家好,这里是为代码封神的封神榜(有点吹牛皮了,哈哈)。还是新人初来乍到,希望大家多多指教。

本系列呢,是为大家带来的是一些爬虫小项目,希望大家能够喜欢,多多支持。

1 爬取职位信息

确定爬取的思路

该项目里爬取的都是江苏省高校,并且不止一个。爬取数据的入口是江苏省的某就业平台(http://www.91job.org.cn/default/schoollist)

python爬取新疆学校人数 python爬取高校信息_python爬取新疆学校人数

该页面收录了江苏省各市 160 多所高校的就业网站。从这里点进去每个站点里的内容,跟各高校官网的就业信息站点的内容是一样的,以南京师范大学为例:

python爬取新疆学校人数 python爬取高校信息_python爬取新疆学校人数_02


python爬取新疆学校人数 python爬取高校信息_HTML_03

可以看到,除了url不同外,内容是一样的。这就带来了一个好处是,我们想爬取多个高校的就业信息,不用去每个高校官网找内容,直接到这个网站找就可以了,并且url格式也是固定的 “高校英文.91job.org.cn”。

这还不是最牛的,最牛的是每个高校的职位列表页的 HTML 代码标签是一样的,下面对比下南京师范大学和东南大学的职位列表:

python爬取新疆学校人数 python爬取高校信息_爬虫_04


python爬取新疆学校人数 python爬取高校信息_HTML_05

可以看到,二者的 HTML 标签和属性取值都是一样的,这带来的另外一个好处是,我们可以写一份代码来爬取多个高校的就业列表。

另外,我找了山东的两个高校网站,职位列表页的HTML跟上面也是一致的,但找了北京两个网站发现完全不同。既然有很多高校能做到一致,说明背后有人在推动这件事,不管是谁都为他们的行为点个赞。

其实,企业里也经常遇到这样的问题,经常一个部门或者多个部门之间的数据格式不一致,往往需要花大量时间在数据打通上做很多事情,非常费时费力,并且很难维护。

爬取数据

有了 url 和 网页格式,我们就很容易爬数据了,首先需要一个待爬的高校列表

python爬取新疆学校人数 python爬取高校信息_数据挖掘_06

我们需要的就是第一列,用它来拼接高校就业网的 url。有了 url 我们就可以发请求获取网页源码了

python爬取新疆学校人数 python爬取高校信息_python_07

核心的爬虫代码就这点,很简单。

  • 51行拼接各高校职位列表url
  • 52行 get_url 函数里使用 requests.get 来获取网页源代码
  • 53行用 BeatifulSoup 解析网页 HTML 代码
  • 54行获取 HTML class=‘infoList’ 的内容,这个属性值在上面 HTML 源码截图里可以看到
    56行遍历职位列表,从中获取职位链接

发送通知

爬取职位后,就可以发送通知了,该项目支持三种通知方式:print打印控制台、windows 气泡通知 和 微信通知。

需要增加一个逻辑是判断是否要通知,如果已经通知过了就无须再通知。

python爬取新疆学校人数 python爬取高校信息_爬虫_08

59~61行用来判断是否需要通知的逻辑,通知过的内容会写入 url_list.txt 中,并且程序启动时会将文件内容读入 url_list 变量。

65~72行根据配置发送不同模式的通知。print通知没啥说的,我们简单介绍微信好友和windows气泡通知。

微信好友通知

微信通知主要用到 wxpy 模块,它在 itchat 的基础上,通过大量易用的接口。

首先需要初始化

python爬取新疆学校人数 python爬取高校信息_HTML_09

106~107行初始化 Bot 对象,启动程序时会弹出一个二维码,需要扫码登录。

109~102行确定将数据发给谁,可以发给文件助手、自己、或者任意好友。

python爬取新疆学校人数 python爬取高校信息_数据挖掘_10

调用 send 函数,就可以把内容发给好友了,很简单。

wxpy 文档提示大家尽量用小号,因为使用该模块可能会导致 web微信无法登录。

python爬取新疆学校人数 python爬取高校信息_数据挖掘_11

发送windows气泡通知

windows气泡通知主要通过调用 windows 的系统 API 来完成

python爬取新疆学校人数 python爬取高校信息_python_12

第9行判断运行的程序的系统是否是 Windows,如果是,15行初始化TestTaskbarIcon 对象 message,用来发消息。

TestTaskbarIcon 类在 windows 模块里,但项目源码里并没有定义 windows 模块,估计是作者忘记上传了。我们百度一下 TestTaskbarIcon ,网上能找到 TestTaskbarIcon 的源码。在项目根目录创建 windows.py 文件,将 TestTaskbarIcon 源码复制进去即可。

TestTaskbarIcon 源码里面都是调用 windows 系统 API ,没什么可说的,核心代码是 showMsg 函数

python爬取新疆学校人数 python爬取高校信息_数据挖掘_13

调用 showMsg 函数就可以实现气泡通知。

再对之前发送职位的代码稍作修改就可以了

python爬取新疆学校人数 python爬取高校信息_爬虫_14

将 show_msg 改成 showMsg,再修改下传参就可以。运行效果:

python爬取新疆学校人数 python爬取高校信息_python爬取新疆学校人数_15


python爬取新疆学校人数 python爬取高校信息_数据挖掘_16

这样,整个项目就介绍完了,还是比较简单的,一共也就 100 多行代码。

明年金三银四的招聘旺季,想表现的要趁机抓紧,我只能帮你们到这了。