python爬取豆瓣影评 BeautifulSoup 教程

原创

mob64ca12d2a342 2024-07-23 11:38:36 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12d2a342的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python爬取豆瓣影评：使用BeautifulSoup教程

作为一名刚入行的开发者，你可能对如何使用Python进行网络爬虫感到困惑。本教程将指导你如何使用Python和BeautifulSoup库来爬取豆瓣电影的影评。我们将通过一个简单的实例来展示整个过程。

爬虫流程概览

首先，让我们通过一个表格来概览整个爬虫流程：

步骤	描述
1	安装必要的库
2	请求网页数据
3	解析网页内容
4	提取影评数据
5	存储数据
6	异常处理

安装必要的库

在开始之前，你需要确保你的Python环境中安装了requests和beautifulsoup4这两个库。可以使用以下命令进行安装：

pip install requests beautifulsoup4

请求网页数据

使用requests库来发送HTTP请求，获取豆瓣电影页面的HTML内容。以下是请求豆瓣电影页面的示例代码：

import requests

url = '  # 豆瓣电影页面URL
response = requests.get(url)

# 确保请求成功
if response.status_code == 200:
    print("请求成功")
else:
    print("请求失败")

解析网页内容

使用BeautifulSoup库来解析获取到的HTML内容。以下是解析HTML的示例代码：

from bs4 import BeautifulSoup

soup = BeautifulSoup(response.text, 'html.parser')

提取影评数据

接下来，我们需要从解析后的HTML中提取影评数据。以下是提取影评的示例代码：

# 假设影评在class为'comment'的div标签中
comments = soup.find_all('div', class_='comment')

for comment in comments:
    # 提取影评内容
    review_content = comment.find('span', class_='short').text.strip()
    print(review_content)

存储数据

提取到的影评数据可以存储到文件或数据库中。以下是将数据存储到文本文件的示例代码：

with open('reviews.txt', 'w', encoding='utf-8') as file:
    for comment in comments:
        review_content = comment.find('span', class_='short').text.strip()
        file.write(review_content + '\n')

异常处理

在爬虫过程中，可能会遇到各种异常情况，如网络请求失败、解析错误等。以下是添加异常处理的示例代码：

try:
    response = requests.get(url)
    response.raise_for_status()  # 如果请求返回的状态码不是200，则抛出异常
    soup = BeautifulSoup(response.text, 'html.parser')
    comments = soup.find_all('div', class_='comment')
    with open('reviews.txt', 'w', encoding='utf-8') as file:
        for comment in comments:
            review_content = comment.find('span', class_='short').text.strip()
            file.write(review_content + '\n')
except requests.RequestException as e:
    print(f"请求错误: {e}")
except Exception as e:
    print(f"其他错误: {e}")

类图和关系图

以下是使用mermaid语法生成的类图和关系图：

classDiagram
    class Requests {
        send_request(url)
    }
    class BeautifulSoup {
        parse(html)
    }
    class Scraper {
        request_data(url)
        extract_data(soup)
        store_data(data)
    }
    Requests --> Scraper: "使用"
    BeautifulSoup --> Scraper: "使用"

erDiagram
    SCHEMA "reviews" {
        string "content" PK "id"
    }
    SCHEMA "movies" {
        string "title" PK "id"
    }
    reviews {
        o-- movies: "belongs_to"
    }