前言

在学习了对网页的基本请求方式以及正则匹配的规则后,可以用现掌握的理论做一些简单的爬虫脚本,本次的目标站点是猫眼电影的TOP100。


首先我们来到猫眼电影的首页,进入开发者模式,然后分析它的URL。

storm sniffer抓包猫眼抢票流程_ci

 然后我们点击翻页,发现它的URL变化如下:

https://maoyan.com/board/4?offset=0   #第一页

https://maoyan.com/board/4?offset=10   #第二页

https://maoyan.com/board/4?offset=20   #第三页

可以得出规律,页数的变化是与url中offset的值相关,从0~90正好10页每页记录10个条目。

现在来对获取一页的功能进行编码:

def get_one_page(url):
    try:
        res = requests.get(url)
        if res.status_code == 200:
            print("获取页面数据成功!")
            return res.text
        else:
            print("获取页面数据失败,状态码:%d" %res.status_code)
            return None
    except RequestException:
        print("请求失败")
        return None

接下来便是关键的步骤,对页面进行分析。这是爬虫中非常重要的一步,也是很困难的一步。

首先进入开发者模式,由于猫眼电影TOP100的页面构成比较简单,进入Elements选项。

storm sniffer抓包猫眼抢票流程_ci_02

接着展开这个<dd>标签进行分析,找到需要爬取的内容,然后编写正则表达式。

这里我们需要获取序号,片名,主演,上映时间,评分等。

storm sniffer抓包猫眼抢票流程_数据_03

 正则表达式如下:

<dd>.*?<i class="board-index.*?>(\d+)</i>.*?<a href=.*?<img src="(.*?)".*?>.*?</a>.*?<p class="name"><a href=.*?>(.*?)</a></p>.*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>.*?<p class="score"><i class="integer">(.*?)</i><i class="fraction">(.*?)</i></p>.*?</dd>

my_pattern = re.compile('<dd>.*?<i class="board-index.*?>(\d+)</i>.*?<a href=.*?<img src="(.*?)".*?>.*?</a>.*?<p class="name"><a href=.*?>(.*?)</a></p>.*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>.*?<p class="score"><i class="integer">(.*?)</i><i class="fraction">(.*?)</i></p>.*?</dd>', re.S)
    results = re.findall(my_pattern, content)
    print(results)

 输出这个findall的结果,发现每一条目的信息都被保存在一个元组中,并且共同存储在一个列表中。

storm sniffer抓包猫眼抢票流程_数据_04

 现在就可以对解析页面功能进行编码:

def parse_page(content):
    my_pattern = re.compile('<dd>.*?<i class="board-index.*?>(\d+)</i>.*?<a href=.*?<img src="(.*?)".*?>.*?</a>.*?<p class="name"><a href=.*?>(.*?)</a></p>.*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>.*?<p class="score"><i class="integer">(.*?)</i><i class="fraction">(.*?)</i></p>.*?</dd>', re.S)
    results = re.findall(my_pattern, content)
    return results

拿到每一页的获取信息后,需要将这些信息保存在本地中,所以定义一个写保存到本地的功能:

在这里对获取内容列表的每个元组进行遍历,创建一个本地txt文件,在每次遍历中定义一个字典来记录信息值。由于获得的信息文本仍有冗余的符号如换行空白符等,需要针对特定信息项做特别的处理。

def write_to_file(content):
    with open('MaoYan_top100.txt', 'a', encoding='utf-8') as f:
        for i in content:
            info_dict = {
                "num": i[0],
                "name": i[2],
                "pic": i[1],
                "actor": i[3].strip()[3:], # 用strip方法去除文本前后空白字符,再对需要字段进行切片
                "time": i[4][5:], # 去除 “上映时间” 字段
                "score": i[5]+i[6]
            }
            # print(info_dict)
            #f.write(json.dumps(info_dict, ensure_ascii=False)+ '\n')
            f.write(str(info_dict) + '\n')
        f.close()

定义主函数:

def main():
    for page in range(5): # range(100): 生成[0,100)半闭半开的序列
        url = 'https://maoyan.com/board/4?offset=' + str(page*10)
        content = get_one_page(url)
        items = parse_page(content)
        write_to_file(items)

运行后生成文本文件

storm sniffer抓包猫眼抢票流程_ci_05

至此猫眼TOP100的爬虫程序就完成了!


完整代码:

import requests
from requests.exceptions import RequestException
import re
import json

def get_one_page(url):
    try:
        res = requests.get(url)
        if res.status_code == 200:
            print("获取页面数据成功!")
            return res.text
        else:
            print("获取页面数据失败,状态码:%d" %res.status_code)
            return None
    except RequestException:
        print("请求失败")
        return None

def parse_page(content):
    my_pattern = re.compile('<dd>.*?<i class="board-index.*?>(\d+)</i>.*?<a href=.*?<img src="(.*?)".*?>.*?</a>.*?<p class="name"><a href=.*?>(.*?)</a></p>.*?<p class="star">(.*?)</p>.*?<p class="releasetime">(.*?)</p>.*?<p class="score"><i class="integer">(.*?)</i><i class="fraction">(.*?)</i></p>.*?</dd>', re.S)
    results = re.findall(my_pattern, content)
    return results

def write_to_file(content):
    with open('MaoYan_top100.txt', 'a', encoding='utf-8') as f:
        for i in content:
            info_dict = {
                "num": i[0],
                "name": i[2],
                "pic": i[1],
                "actor": i[3].strip()[3:],
                "time": i[4][5:],
                "score": i[5]+i[6]
            }
            # print(info_dict)
            #f.write(json.dumps(info_dict, ensure_ascii=False)+ '\n')
            f.write(str(info_dict) + '\n')
        f.close()


def main():
    for page in range(10): # range(100): 生成[0,100)半闭半开的序列
        url = 'https://maoyan.com/board/4?offset=' + str(page*10)
        content = get_one_page(url)
        items = parse_page(content)
        write_to_file(items)


if __name__ == '__main__':
    main()

同理,对豆瓣电影Top250也做出相应的信息爬取练习:

import requests, re, json
from requests.exceptions import RequestException

def get_one_page(url):
    try:
        res = requests.get(url)
        if res.status_code == 200:
            return res.text
        return None
    except RequestException:
        return None

def parse_page(context):
    my_pattern = re.compile('<li.*?<em class="">(\d+)</em>.*?<a href=.*?src="(.*?)".*?</a>.*?title">(.*?)</span>.*?<p class="">(.*?)</p>.*?average">(.*?)</span>.*?<span>(.*?)</span>.*?</li>',re.S)
    results = re.findall(my_pattern, context)


    # 处理影片描述部分的混乱格式
    for item in results:
        content = ""
        # 切除描述部分的空白字符
        for i in item[3].split():
            content = content + "".join(i)
        content = re.sub('<br>','',content)
        content = re.sub(' ',' ',content)
        # 返回字典
        yield {
             "index": item[0],
             "name": item[2],
             "pic": item[1],
             "describe": content,
             "score": item[4],
             "people": item[5]
         }

def write_to_file(content):
    with open("douban_250.txt","a",encoding="utf-8") as f:
        f.write(json.dumps(content,ensure_ascii=False) + '\n')
        f.close()

def main(offset):
    url = "https://movie.douban.com/top250?start=" + str(offset)
    context = get_one_page(url)
    for i in parse_page(context):
        print(i)
        write_to_file(i)

if __name__ == "__main__":
    for i in range(10):
        main(i*25)