python selenium FirefoxOptions 如何设置代理IP python设置代理服务器

转载

mob64ca140f9cec 2024-05-15 10:11:23

文章标签 Python爬虫代理服务器赋值异常处理 文章分类 Python 后端开发

运行环境Python3.6.4

一、代理服务器的设置

有时使用同一个IP去爬取同一个网站的内容，久了之后会被该网站服务器屏蔽，这时就要用到代理服务器
推荐一个代理服务器的网址：http://yum.iqianyue.com/proxy

# 代理服务器的设置，使用代理服务器来爬取网站的内容
#好像并不是爬取的百度首页，还需要进一步探究
import urllib.request
#定义一个名为use_proxy的函数，这个函数主要功能是使用代理服务器来爬取某个网页，第一个形参为代理服务器地址，第二个形参为要爬取网页的地址
def use_proxy(proxy_addr,url):
    import urllib.request
    #设置代理服务器信息，格式：urllib.request.ProxyHandler({'http':代理服务器地址})
    proxy = urllib.request.ProxyHandler({'http':proxy_addr})
    #创建一个自定义的opener对象，第一个参数为代理信息，第二个参数为urllib.request.HTTPHandler类
    opener = urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
    #为了方便，使用urllib.request.install_opener()创建全局默认的opener对象，所以下面使用urllib.request.urlopen()也会使用安装好的opener对象
    urllib.request.install_opener(opener)
    data = urllib.request.urlopen(url).read().decode('utf-8')#打开、爬取、读取和编码网页后赋值给data变量
    return data #返回data值给函数
proxy_addr = "61.135.217.7:80"#格式为：网址:端口号
data = use_proxy(proxy_addr,"http://www.baidu.com")
print(len(data))

二、DebugLog实战

解决问题：边运行程序，边打印调试日志

# DebugLog实战,开启DebugLog，边执行程序，边打印调试的Log日志
import urllib.request
#分别将http和https的debuglevel设置为1
httphd = urllib.request.HTTPHandler(debuglevel = 1)
httpshd = urllib.request.HTTPSHandler(debuglevel = 1)
#创建自定义对象opener，并使用httphd,httpshd作为参数
opener = urllib.request.build_opener(httphd,httpshd)
#创建全局默认的opener对象
urllib.request.install_opener(opener)
url = "" #将要爬取的网址赋值给变量url
req = urllib.request.Request(url)#创建一个Request对象并赋值给req变量，格式为：urllib.request.Request(url地址)
req.add_header("User-Agent","Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Mobile Safari/537.36")#使用add_header()函数添加对应的User-Agent信息，格式为：Request对象名.add_header(字段名,字段值)
data = urllib.request.urlopen(req).read()#模仿为浏览器去打开、爬取网址并读取赋值给变量data.此时是具有头信息的打开操作
fhandle = open("D:/Python35/myweb/part4/9.html","wb") #用 "wb"二进制的方式用open()函数打开该文件，并赋值给fhandle变量
fhandle.write(data) #用write()函数将data的数据写入变量fhandle
fhandle.close() #用close()函数关闭该文件

三、异常处理器——URLError实战

合理处理异常
我们经常使用try…except进行异常处理，在try中执行主要代码，在except中捕获异常信息，并进行相应的异常处理

import urllib.request
import urllib.error
try:
    urllib.request.urlopen("http://www.epA.com")
except urllib.error.URLError as e:
    if hasattr(e,"code"): #引入hasattr()函数来判断是否有e.code或者e.reason
        print(e.code)
    if hasattr(e,"reason"):
        print(e.reason)

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。