Python爬虫request笔记

原创

wx602fecd17590e 2021-08-08 13:33:38 ©著作权

文章标签 笔记 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者wx602fecd17590e的原创作品，请联系作者获取转载授权，否则将追究法律责任

Request库使用方式:

r=requests.get(url,headers,params,proxies,timeout,verify)

url:链接,网站的的地址

headers:上传的头部信息,一般用来UA伪装,即用来改变客户端的登录信息和Cookie信息来维持登录状态

header={'User-Agent':'Mozilla/5.0','Cookie':'...'}

params:用于添加参数，即额外信息比如百度要搜索的关键词可以params添加

params={'wd':'Python'}

r=requests.get('http://www.baidu.com/s',params=parasm) ### https://www.baidu.com/s?wd=python

proxies:用于ip伪装(避免频繁请求导致ip被封)

r=request.post(url,headers,params,data,files)

proxies={'http':'112.195.243.6','https':'162.115.212.6'}

page_text=requests.get('https://www.baidu.com/s?wd=ip',headers=header,proxies=proxies).text

5.timeout:超时请求，即超过这个时间还没有响应结果就报错

6.verify:忽略CA证书

Python爬虫request笔记_笔记

post请求很常用一般网页不是静态网页会通过POST请求到JSON数据

百度翻译用的就是POST请求以下为浏览器的抓包工具获取关键信息

Python爬虫request笔记_笔记_02

Python爬虫request笔记_笔记_03

data={'kw':word}

r=requests.post(url=post_url,headers=headers,data=data)

files为文件上传

Python爬虫request笔记_笔记_04

当我们获得一个Rsponse对象时 r=requests.get(url,headers,params)

r.status_code 可查看状态嘛 404丢失 200成功

r.headers 可查看状态头

r.text 可查看url对于的页面内容(html)

r.encoding 内容编码方式 r.encoding='utf-8'

r.apparent_enconding 自动分析编码方式可以和r.encoding一起使用

r.encoding=r.apparent_enconding

注意：

我们在网页上爬取的图片，视频，音频等都是二进制数据，我们保存这些数据时应采取二进制进行保存

Python爬虫request笔记_笔记_05

Python爬虫request笔记_笔记_06

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯