try-except 和 retrying

# 请求超过十次就放弃
attempts = 0
success = False
while attempts < 10 and not success:
 try:
  get_html(url)
  success = True
 except:
  attempts += 1
  if attempts == 10:
   break

try-except:

我们来看下面的代码:

「(以下代码不要轻易去尝试,会栈溢出的。)」

import requests

def request_baidu():
    try:
        r = requests.get('https://www.baidu.com',timeout=0.001) 
        # 如果在0.001秒中没有得到响应就会报异常,用这种方式模拟持续发生异常的情况
    except requests.RequestException:
        print('连接超时,重新请求!')
        request_baidu() # 调用自身

if __name__ == '__main__':
    request_baidu()

request_baidu函数,向百度发起一个请求,如果遇到异常则再次调用requests_baidu函数,一直到异常消失(栈弹出),爬虫继续。

假如异常一直没有消失,requests_baidu函数会一直调用自身(requests_baidu函数)直到内存爆满,爬虫入土。

那么有没有什么好的方式解决?

「于是,我向小麦推荐了一个对于爬虫来说绝对有用的库——retrying

简单介绍下retrying库:

「retrying是一个用于错误处理的模块,功能类似try-except,但更加快捷方便。」

「这个库功能正如其名,retrying(重试、重启)。」

「我来手把手教小麦如何使用这个库:」

1. 先来安装上retrying模块

pip install retrying

2. retrying模块参数介绍

def __init__(self,
             stop=None, wait=None,
             stop_max_attempt_number=None,
             stop_max_delay=None,
             wait_fixed=None,
             wait_random_min=None, wait_random_max=None,
             wait_incrementing_start=None, wait_incrementing_increment=None,
             wait_exponential_multiplier=None, wait_exponential_max=None,
             retry_on_exception=None,
             retry_on_result=None,
             wrap_exception=False,
             stop_func=None,
             wait_func=None,
             wait_jitter_max=None):

    self._stop_max_attempt_number = 5 if stop_max_attempt_number is None else stop_max_attempt_number
    self._stop_max_delay = 100 if stop_max_delay is None else stop_max_delay
    self._wait_fixed = 1000 if wait_fixed is None else wait_fixed
    self._wait_random_min = 0 if wait_random_min is None else wait_random_min
    self._wait_random_max = 1000 if wait_random_max is None else wait_random_max
    self._wait_incrementing_start = 0 if wait_incrementing_start is None else wait_incrementing_start
    self._wait_incrementing_increment = 100 if wait_incrementing_increment is None else wait_incrementing_increment
    self._wait_exponential_multiplier = 1 if wait_exponential_multiplier is None else wait_exponential_multiplier
    self._wait_exponential_max = MAX_WAIT if wait_exponential_max is None else wait_exponential_max
    self._wait_jitter_max = 0 if wait_jitter_max is None else wait_jitter_max
  • stop_max_attempt_number:在停止之前尝试的最大次数,最后一次如果还是有异常则会抛出异常,停止运行,默认为5次
  • stop_max_delay:最大延迟时间,大概意思就是:如果调用的函数出现异常,那么就会重复调用这个函数,最大调用时间,默认为100毫秒
  • wait_fixed:两次调用方法期间停留时长, 如果出现异常则会一直重复调用,默认 1000毫秒
  • wait_random_min:在两次调用方法停留时长,停留最短时间,默认为0
  • wait_random_max:在两次调用方法停留时长,停留最长时间,默认为1000毫秒
  • wait_incrementing_increment:每调用一次则会增加的时长,默认 100毫秒
  • wait_exponential_multiplierwait_exponential_max:以指数的形式产生两次「retrying」之间的停留时间,产生的值为2^previous_attempt_number * wait_exponential_multiplier,previous_attempt_number是前面已经「retry」的次数,如果产生的这个值超过了wait_exponential_max的大小,那么之后两个「retrying」之间的停留值都为wait_exponential_max
  • retry_on_exception: 指定一个函数,如果此函数返回指定异常,则会重试,如果不是指定的异常则会退出
  • retry_on_result:指定一个函数,如果指定的函数返回True,则重试,否则抛出异常退出
  • wrap_exception:参数设置为True/False,如果指定的异常类型,包裹在RetryError中,会看到RetryError和程序抛的Exception error
  • stop_func: 每次抛出异常时都会执行的函数,如果和stop_max_delaystop_max_attempt_number配合使用,则后两者会失效 (指定的stop_func会有两个参数:attemptsdelay)
  • wait_func:和stop_func用法差不多。

4. 代码栗子

  • 「@retry装饰器,如出现异常会一直重试」
from retrying import retry

@retry
def func():
  print('出错了,重新尝试!')  
  raise

func()

以上的代码执行后,会一直提示‘重新尝试!’

  • 「stop_max_attempt_number 设置最大重试次数」
from retrying import retry

@retry(stop_max_attempt_number=7)
def func():
  print('出错了,重新尝试!')  
  raise

func()

以上的代码执行后,重复提示‘重新尝试!’7次后报异常

  • 「stop_max_delay 设置失败重试的最大时间, 单位毫秒,超出时间,则停止重试」
from retrying import retry

@retry(stop_max_delay=10000)
def func():
  print('出错了,重新尝试!')  
  raise

func()

以上的代码执行后,重复提示‘重新尝试!’持续10秒后,报异常

  • 「wait_fixed 设置失败重试的间隔时间」
from retrying import retry

@retry(wait_fixed=2000, stop_max_delay=10000)
def func():
  print('出错了,重新尝试!')  
  raise

func()

以上的代码执行后,间隔两秒重复提示‘重新尝试!’持续10秒后,报异常

  • 「wait_random_min, wait_random_max 设置失败重试随机性间隔时间」
from retrying import retry

@retry(wait_random_min=1000, wait_random_max=5000, stop_max_delay=10000)
def func():
  print('出错了,重新尝试!')  
  raise

func()

以上的代码执行后,随机间隔1~5秒重复提示‘重新尝试!’等待10秒后,报异常

  • 「retry_on_result, 指定要在得到哪些结果的时候去retry,retry_on_result传入一个函数对象,在执行get_result成功后,会将函数的返回值通过形参result的形式传入retry_if_result_none函数中,如果返回值是None那么就进行retry,否则就结束并返回函数值」
from retrying import retry

def save_me(result):
    return result is None

@retry(retry_on_result=save_me)
def get_result():
    print('重新尝试!')
    
get_result()

以上的代码执行后,如果save_me方法返回的是None则,一直会提示‘重新尝试!’。

「这是爬虫的核心代码:」

def extract_data(per_link):
    response = requests.get(url=per_link, headers=headers).content
    # 以gbk的编码方式对网页进行解码
    tree = etree.HTML(response.decode('gbk'))
    title = tree.xpath('//*[@id="mains"]/div[1]/h1/text()')[0] 
    content = tree.xpath('//*[@id="book_text"]//text()')
    content = ('\n'.join([i.strip() for i in content]))
    # 以元组(title, content)的形式进行返回
    return title, content

「我来加个魔法:」

from retrying import retry

@retry(stop_max_attempt_number=10, wait_fixed=2000)
def extract_data(per_link):
    response = requests.get(url=per_link, headers=headers).content
    # 以gbk的编码方式对网页进行解码
    tree = etree.HTML(response.decode('gbk'))
    title = tree.xpath('//*[@id="mains"]/div[1]/h1/text()')[0] 
    content = tree.xpath('//*[@id="book_text"]//text()')
    content = ('\n'.join([i.strip() for i in content]))
    # 以元组(title, content)的形式进行返回
    return title, content

「我给这段爬虫代码加了个帽子,让他如果出错就重启10次,每次间隔2秒。这样应该能提高不少代码的稳定性!」