try-except 和 retrying
# 请求超过十次就放弃
attempts = 0
success = False
while attempts < 10 and not success:
try:
get_html(url)
success = True
except:
attempts += 1
if attempts == 10:
break
try-except:
我们来看下面的代码:
「(以下代码不要轻易去尝试,会栈溢出的。)」
import requests
def request_baidu():
try:
r = requests.get('https://www.baidu.com',timeout=0.001)
# 如果在0.001秒中没有得到响应就会报异常,用这种方式模拟持续发生异常的情况
except requests.RequestException:
print('连接超时,重新请求!')
request_baidu() # 调用自身
if __name__ == '__main__':
request_baidu()
request_baidu
函数,向百度发起一个请求,如果遇到异常则再次调用requests_baidu
函数,一直到异常消失(栈弹出),爬虫继续。
假如异常一直没有消失,requests_baidu
函数会一直调用自身(requests_baidu
函数)直到内存爆满,爬虫入土。
那么有没有什么好的方式解决?
「于是,我向小麦推荐了一个对于爬虫来说绝对有用的库——retrying
」
简单介绍下retrying库:
「retrying是一个用于错误处理的模块,功能类似try-except,但更加快捷方便。」
「这个库功能正如其名,retrying(重试、重启)。」
「我来手把手教小麦如何使用这个库:」
1. 先来安装上retrying模块
pip install retrying
2. retrying模块参数介绍
def __init__(self,
stop=None, wait=None,
stop_max_attempt_number=None,
stop_max_delay=None,
wait_fixed=None,
wait_random_min=None, wait_random_max=None,
wait_incrementing_start=None, wait_incrementing_increment=None,
wait_exponential_multiplier=None, wait_exponential_max=None,
retry_on_exception=None,
retry_on_result=None,
wrap_exception=False,
stop_func=None,
wait_func=None,
wait_jitter_max=None):
self._stop_max_attempt_number = 5 if stop_max_attempt_number is None else stop_max_attempt_number
self._stop_max_delay = 100 if stop_max_delay is None else stop_max_delay
self._wait_fixed = 1000 if wait_fixed is None else wait_fixed
self._wait_random_min = 0 if wait_random_min is None else wait_random_min
self._wait_random_max = 1000 if wait_random_max is None else wait_random_max
self._wait_incrementing_start = 0 if wait_incrementing_start is None else wait_incrementing_start
self._wait_incrementing_increment = 100 if wait_incrementing_increment is None else wait_incrementing_increment
self._wait_exponential_multiplier = 1 if wait_exponential_multiplier is None else wait_exponential_multiplier
self._wait_exponential_max = MAX_WAIT if wait_exponential_max is None else wait_exponential_max
self._wait_jitter_max = 0 if wait_jitter_max is None else wait_jitter_max
stop_max_attempt_number
:在停止之前尝试的最大次数,最后一次如果还是有异常则会抛出异常,停止运行,默认为5次stop_max_delay
:最大延迟时间,大概意思就是:如果调用的函数出现异常,那么就会重复调用这个函数,最大调用时间,默认为100毫秒wait_fixed
:两次调用方法期间停留时长, 如果出现异常则会一直重复调用,默认 1000毫秒wait_random_min
:在两次调用方法停留时长,停留最短时间,默认为0wait_random_max
:在两次调用方法停留时长,停留最长时间,默认为1000毫秒wait_incrementing_increment
:每调用一次则会增加的时长,默认 100毫秒wait_exponential_multiplier
和wait_exponential_max
:以指数的形式产生两次「retrying」之间的停留时间,产生的值为2^previous_attempt_number * wait_exponential_multiplier,previous_attempt_number
是前面已经「retry」的次数,如果产生的这个值超过了wait_exponential_max
的大小,那么之后两个「retrying」之间的停留值都为wait_exponential_max
retry_on_exception
: 指定一个函数,如果此函数返回指定异常,则会重试,如果不是指定的异常则会退出retry_on_result
:指定一个函数,如果指定的函数返回True
,则重试,否则抛出异常退出wrap_exception
:参数设置为True/False
,如果指定的异常类型,包裹在RetryError中,会看到RetryError和程序抛的Exception error
stop_func
: 每次抛出异常时都会执行的函数,如果和stop_max_delay
、stop_max_attempt_number
配合使用,则后两者会失效 (指定的stop_func
会有两个参数:attempts
,delay
)wait_func
:和stop_func
用法差不多。
4. 代码栗子
- 「@retry装饰器,如出现异常会一直重试」
from retrying import retry
@retry
def func():
print('出错了,重新尝试!')
raise
func()
以上的代码执行后,会一直提示‘重新尝试!’
- 「stop_max_attempt_number 设置最大重试次数」
from retrying import retry
@retry(stop_max_attempt_number=7)
def func():
print('出错了,重新尝试!')
raise
func()
以上的代码执行后,重复提示‘重新尝试!’7次后报异常
- 「stop_max_delay 设置失败重试的最大时间, 单位毫秒,超出时间,则停止重试」
from retrying import retry
@retry(stop_max_delay=10000)
def func():
print('出错了,重新尝试!')
raise
func()
以上的代码执行后,重复提示‘重新尝试!’持续10秒后,报异常
- 「wait_fixed 设置失败重试的间隔时间」
from retrying import retry
@retry(wait_fixed=2000, stop_max_delay=10000)
def func():
print('出错了,重新尝试!')
raise
func()
以上的代码执行后,间隔两秒重复提示‘重新尝试!’持续10秒后,报异常
- 「wait_random_min, wait_random_max 设置失败重试随机性间隔时间」
from retrying import retry
@retry(wait_random_min=1000, wait_random_max=5000, stop_max_delay=10000)
def func():
print('出错了,重新尝试!')
raise
func()
以上的代码执行后,随机间隔1~5秒重复提示‘重新尝试!’等待10秒后,报异常
- 「retry_on_result, 指定要在得到哪些结果的时候去retry,retry_on_result传入一个函数对象,在执行get_result成功后,会将函数的返回值通过形参result的形式传入retry_if_result_none函数中,如果返回值是None那么就进行retry,否则就结束并返回函数值」
from retrying import retry
def save_me(result):
return result is None
@retry(retry_on_result=save_me)
def get_result():
print('重新尝试!')
get_result()
以上的代码执行后,如果save_me
方法返回的是None
则,一直会提示‘重新尝试!’。
「这是爬虫的核心代码:」
def extract_data(per_link):
response = requests.get(url=per_link, headers=headers).content
# 以gbk的编码方式对网页进行解码
tree = etree.HTML(response.decode('gbk'))
title = tree.xpath('//*[@id="mains"]/div[1]/h1/text()')[0]
content = tree.xpath('//*[@id="book_text"]//text()')
content = ('\n'.join([i.strip() for i in content]))
# 以元组(title, content)的形式进行返回
return title, content
「我来加个魔法:」
from retrying import retry
@retry(stop_max_attempt_number=10, wait_fixed=2000)
def extract_data(per_link):
response = requests.get(url=per_link, headers=headers).content
# 以gbk的编码方式对网页进行解码
tree = etree.HTML(response.decode('gbk'))
title = tree.xpath('//*[@id="mains"]/div[1]/h1/text()')[0]
content = tree.xpath('//*[@id="book_text"]//text()')
content = ('\n'.join([i.strip() for i in content]))
# 以元组(title, content)的形式进行返回
return title, content
「我给这段爬虫代码加了个帽子,让他如果出错就重启10次,每次间隔2秒。这样应该能提高不少代码的稳定性!」