python请求页面内容 python的http请求

转载

西门吹雪 2023-05-31 22:28:31

文章标签 python请求页面内容 python 爬虫重定向抓包 文章分类 Python 后端开发

初学Python，近两天在考虑写个爬虫玩玩，于是花了点时间了解大蟒蛇的标准库。

既然是初学，那我应该知道如何用才行。使用搜索引擎也全是收到的python2.x 的内容，于是就用2.x 的用法在3.x的文档上搜索了下。知道了两种请求http的基本用法。

第一种方法：使用urllib.request.urlopen()

req = urllib.request.Request(url, None, header, None, False, method)
 content = urllib.request.urlopen(req)

第二种方法：使用http.client.HTTPConnection.request()

conn = http.client.HTTPConnection(host)      
conn.request(method, "", "", header)     
content = conn.getresponse()

文件httpRequest.py

在我的测试中，我向csdn.net这个地址发送请求，执行结果如下：

让我颇感意外的是两种执行结果并未返回相同的状态码，一个是200，一个是302重定向。遗憾的是，官方的英文文档实在没说清楚两种方式的使用场景，（也许是我英文水平有限没看明白）由于对http协议了解不够，在得到这个结果的时候并未想到在返回码上分析原因，而是使用抓包工具抓包分析。(详细抓包过程就不在这里说明了，有兴趣可自己抓包看看，win使用WiireShark，linux使用tcpDump) 抓包发现使用第一种方法请求完毕后，本机会关闭这个tcp连接并对响应头中的Location: http://www.csdn.net/ 发送GET请求建立一个新的连接， csdn响应GET请求并返回200状态码与页面数据。而使用第二种方法，在发送请求后便关闭tcp，然后返回状态码302。

很显然，urllib是比HTTPConnection更高层次的封装，至少对重定向来讲，HTTPConnection不会做任何处理，直接返回重定向头，而urllib收到302状态码后自动请求重定向的页面，并返回重定向后的页面响应。

现在还有两个问题没有完全解决：

1、对HTTP协议本身认识不够，不知道urllib的封装还有哪些不一样？

2、http.client.HTTPConnection可以通过.set_debuglevel显示调试信息，通过urlopen又如何打开。查了文档，试过以下方法，能够运行，但无效：

http_handler = urllib.request.HTTPHandler(debuglevel=1)
https_handler = urllib.request.HTTPSHandler(debuglevel=1)
opener = urllib.request.build_opener(http_handler, https_handler)
urllib.request.install_opener(opener) 
content = opener.open(req)

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。