在网页上搜索需要的信息,浏览器交流的对象不只有我们,还有服务器,服务器就类似于一个超级电脑,它可以计算和存储大量数据,并且在互联网中相互传输数据。

爬取数据的步骤:

  1. 首先,在浏览器上输入网址(URL),浏览器向服务器传达了我们想要访问某个网页的需求,这个过程叫做【请求】,紧接着,服务器把我们想要访问的网站数据发送给浏览器,这个过程叫做【响应】。
    所以浏览器和服务器之间,先请求,后响应,有这么一层关系。

爬虫怎么监控页面有没新数据 爬虫怎么爬网页数据_服务器

  1. 当服务器把数据响应给浏览器之后,浏览器并不会把数据丢给我们,因为这些数据是用计算机的语言写的,浏览器还要把这些数据翻译成我们看得懂的样子,这是浏览器做的另一项工作【解析数据】。
  2. 拿到的数据中,挑选出对我们有用的数据,这是【提取数据】。
  3. 最后把这些有用的数据保存好,这是【存储数据】。

总结:
. 获取数据(爬虫程序会根据我们提供的网址,向服务器发起请求,然后返回数据。)
. 解析数据(爬虫程序会把服务器返回的数据解析成我们能读懂的格式。二进制或字符串等等)
. 提取数据(爬虫程序再从中提取出我们需要的数据。)
. 存储数据 (爬虫程序把这些有用的数据保存起来,便于你日后的使用和分析)

爬虫的工作原理:

爬虫怎么监控页面有没新数据 爬虫怎么爬网页数据_字符串_02

爬虫代码详细介绍:

获取数据之前先安装好requests库,requests库可以帮我们下载网页源代码,文本,图片,甚至是音频,下载本质上是向服务器发送请求并得到响应。

requests.get()

具体用法:

import requests
#引入requests库
res = requests.get('URL')
#requests.get是在调用requests库中的get()方法,它向服务器发送了一个请求,括号里的参数是你需要的数据所在的网址,然后服务器对请求作出了响应。
#我们把这个响应返回的结果赋值在变量res上。

爬虫怎么监控页面有没新数据 爬虫怎么爬网页数据_字符串_03

import requests 
res = requests.get('https://res.pandateacher.com/2018-12-18-10-43-07.png') 
print(type(res))
#打印变量res的数据类型

运行结果:

爬虫怎么监控页面有没新数据 爬虫怎么爬网页数据_服务器_04

可以看到这里的res其实是类,它是requests.models.Response的类,它也有几个方法

爬虫怎么监控页面有没新数据 爬虫怎么爬网页数据_字符串_05

  1. response.status_code 检查请求是否成功
import requests 
res = requests.get('https://res.pandateacher.com/2018-12-18-10-43-07.png') 
print(res.status_code)
#打印变量res的响应状态码,以检查请求是否成功

运行结果:

爬虫怎么监控页面有没新数据 爬虫怎么爬网页数据_数据_06


(显示了200,这个数字代表服务器同意了请求,并返回了数据给我们)

爬虫怎么监控页面有没新数据 爬虫怎么爬网页数据_数据_07

爬虫怎么监控页面有没新数据 爬虫怎么爬网页数据_爬虫怎么监控页面有没新数据_08

  1. response.content把response对象转换为二进制数据的形式返回,适用于图片,音频,视频的下载
import requests
res=requests.get('URL')
#发送请求,并把返回的结果放在变量res中
pic=res.content
#把response对象以二进制数据的形式返回
photo=open('ppt.jpg','wb')
#新建了一个文件ppt.jpg
#图片内容需要以二进制wb写入
photo.write(pic)
#获取pic的二进制内容
photo.close()
  1. response.text把response对象转换为字符串数据的形式返回,适用于文字,网页源代码的下载。
import requests
#引用requests库
res=requests.get('URL')
#下载文章,得到一个对象,被命名为res
novel=res.text
#把response对象的内容以字符串的形式返回
print(novel[:800])
#只打印小说的一部分

把下载的文本写入本地文件里面:

import requests
res=requests.get('URL')
novel=res.text
k=open('小说.txt','a+')
#以追加的形式打开一个文件
k.write(novel)
k.close
#关闭文档
  1. response.encoding定义response对象的编码,有时候下载东西到本地会出现乱码,这表示网页编写的编码跟我们编写的编码格式不一样,这种时候需要指定编码格式,跟网页保持一直
res=requests.get(''URL)
res.encoding='gbk'
#这个地方还是乱码的话,那就试试UTF-8
novel=res.text
print(novel[:800])

Robots 协议是互联网爬虫的一项公认的道德规范,它的全称是“网络爬虫排除标准”,通过这个协议可以知道哪些页面是可以爬取的,哪些是不可以的。

在网站的域名后面加上 /robots.txt 就可以

爬虫怎么监控页面有没新数据 爬虫怎么爬网页数据_服务器_09