python爬取中文乱码

原创

mob64ca12ea8117 2024-10-16 06:16:52 ©著作权

文章标签 HTML html python 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12ea8117的原创作品，请联系作者获取转载授权，否则将追究法律责任

如何用Python爬取中文网页并处理乱码

在网络爬虫的世界中，一个常见的问题是如何正确处理中文字符，避免乱码。本文将详细介绍爬取中文网页的整体流程以及每个步骤所需的代码，并提供相应的解释。

整体流程

我们在实现爬虫之前，先列出工作流程表，以清晰了解每一步。

步骤编号	步骤描述	关键操作
1	导入需要的库	使用 `requests` 和 `BeautifulSoup`
2	发送HTTP请求	使用 `requests.get()`
3	获取网页内容	使用 `response.content`
4	处理编码问题	使用 `.decode()`
5	解析网页内容	使用 `BeautifulSoup` 提取所需数据
6	保存数据	将提取到的数据保存到本地文件

接下来，我们会详细介绍每一步需要做什么，并附上相关代码。

第一步：导入需要的库

在Python中，我们通常使用 requests 库来发送HTTP请求，使用 BeautifulSoup 来解析HTML内容。首先确保已安装这些库。

pip install requests beautifulsoup4

然后在你的Python脚本中，导入它们：

import requests  # 用于发送HTTP请求
from bs4 import BeautifulSoup  # 用于解析网页内容

第二步：发送HTTP请求

我们将使用 requests 库发送一个GET请求到目标网页，以获取网页的HTML内容。

url = '  # 目标网页的URL
response = requests.get(url)  # 发送GET请求

url：替换为你想要爬取的网页链接。
requests.get(url)：发送GET请求获取网页。

第三步：获取网页内容

我们要从响应中获取网页的内容，以便进行后续处理。

html_content = response.content  # 获取网页的二进制内容

response.content：返回响应的二进制内容。

第四步：处理编码问题

大多数中文网页使用UTF-8编码，我们需要将二进制内容转换为字符串格式。若直接使用，会导致乱码。

# 处理编码
html_str = html_content.decode('utf-8')  # 将二进制内容解码为字符串

decode('utf-8')：将内容解码为UTF-8字符串，确保中文显示正常。

第五步：解析网页内容

使用 BeautifulSoup 解析HTML，并提取所需信息。例如，我们可以提取网页标题和所有段落。

soup = BeautifulSoup(html_str, 'html.parser')  # 解析HTML内容

# 提取标题
title = soup.title.string  # 网页标题
print(f"网页标题: {title}")

# 提取所有段落
paragraphs = soup.find_all('p')  # 找到所有的<p>标签
for p in paragraphs:
    print(p.get_text())  # 打印每个段落的文本

BeautifulSoup(html_str, 'html.parser')：解析HTML并创建一个BeautifulSoup对象。
soup.title.string：获取网页标题。
soup.find_all('p')：找到所有段落标签。

第六步：保存数据

最后，我们将提取到的数据保存到本地文件，以便日后使用。

with open('output.txt', 'w', encoding='utf-8') as f:  # 使用UTF-8编码保存文件
    f.write(f"网页标题: {title}\n\n")  # 写入标题
    for p in paragraphs:
        f.write(p.get_text() + '\n')  # 写入每个段落

open('output.txt', 'w', encoding='utf-8')：以写模式打开文件，并指定编码。
f.write()：将提取到的数据写入文件。

关系图示

以下是爬虫的整体关系图，使用Mermaid语法进行标识：

erDiagram
    Request {
      string URL
      string Response
    }

    Response {
      string Content
      string Encoding
    }

    HTML {
      string Title
      string[] Paragraphs
    }

    Request ||--o{ Response : sends
    Response ||--o{ HTML : contains

旅行图示

在实现爬虫的旅程中，各个步骤之间的流程非常重要。使用Mermaid语法来绘制我们的旅行图：

journey
    title 爬虫旅程
    section 导入库
      Python库: 5: 导入requests和BeautifulSoup
    section 发送请求
      GET请求: 4: 发送URL请求
    section 处理内容
      获取内容: 3: 获取网页内容
      处理编码: 2: 解码网页
    section 解析内容
      解析HTML: 5: 使用BeautifulSoup提取数据
    section 保存数据
      写入文件: 4: 保存提取的数据到文件