所需工具:Chrome浏览器(更多工具——>开发者工具——>Network /// 或在Chrome中右键点击检查,点击Network)
爬虫的一般定义:模拟用户在客户端或浏览器发送网络请求,并按规则提取数据的程序
常见的爬虫应用:
1、展示在网页或APP上,如百度等搜索引擎
2、进行数据分析,掌握规律
URL地址
URL是统一资源定位符,对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
URL的组成:请求的协议http或https + 网站的域名 + 资源的路径 + 参数(一般以?开头,以&隔开,含=) ,其中%是编码后的信息,可用url解码工具进行解码
(1)浏览器请求url地址的响应内容:当前url对应的响应 + js + css + 图片——>对应于elements中的内容(在页面上右键,点击“检查”)
(2)爬虫请求url地址的响应内容:当前url对应的响应
综上,elements的内容和爬虫获取到的url地址的响应不同,爬虫中需要以当前url地址对应的响应为准提取数据
当前url地址对应的响应在哪里:
(1)从network中找到当前的url地址,点击Response
(2)在页面上右键,点击“显示网页源代码”(是重新发送一次请求,如果网页内容更新快的话(如贴吧),两次请求前后获取的会不一样)
HTTP和HTTPS协议
http:超文本传输协议(明文传输,效率高,不安全)
https:HTTP+SSL(安全套接字层)(传输数据之前加密,之后解密,效率较低,但安全)
http协议之请求
1、请求行
最开始GET 开头的一串,GET表示请求方式,后面跟的是请求参数、HTTP协议及版本号(有get请求和post请求两种)
2、请求头Request Headers
Network——>点击url地址——>点击headers:找到Request Headers,点击view source。重点关注以下两个内容:
(1)User-Agent用户代理:对方服务器能够通过user_agent知道当前请求对方资源的是否是浏览器/是什么浏览器
最左上方有个“toggle device toolbar”的按钮,可以切换发送请求的设备类型,可由电脑浏览器切换为模拟的手机浏览器(并可选择不同的手机设备类型),相应的user_agent里显示的内容也会改为相应的手机设备类型。
(2)Cookie:浏览器用来存储用户信息的,将必要的用户信息(如账户信息、登录信息等)保存在本地。每次请求都会被携带上发送给对方的浏览器。对方的服务器会通过Cookie来判断我们是否是一个爬虫。
3、请求体From data
get没有请求体:get请求把参数放在url地址中,所以没有请求体。
post才有请求体:(1)post请求常用于登录注册(2)post请求携带的数据量比get请求的大、多,常用于传输大文本。所以,post请求把参数放在请求体中,用来携带数据。
http协议之响应
1、响应头Response Headers——>view source
Set_cookie:对方服务器通过该字段设置cookie到本地
另:点击Cookies,看到分为两部分,分别是Request Cookies和Response Cookies。关注name和value即可
2、响应体
url地址对应的响应