python爬虫js加密篇搜狗微信公号文章的爬取

原创

mob64ca12f18f13 2023-09-29 04:41:56 ©著作权

文章标签 python Python 保存数据 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12f18f13的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python爬虫JS加密篇：搜狗微信公号文章的爬取

引言

在实际的爬虫项目中，我们经常会遇到一些网页使用JavaScript进行加密的情况。本文将教会你如何使用Python爬虫获取搜狗微信公号文章，以及如何处理其中的JS加密。

整体流程

以下是整个爬取搜狗微信公号文章的流程图：

flowchart TD
    A[开始] --> B[发送请求]
    B --> C[解析响应]
    C --> D[处理JS加密]
    D --> E[解析文章内容]
    E --> F[保存数据]
    F --> G[结束]

详细步骤及代码实现

步骤1：发送请求

首先，我们需要发送HTTP请求来获取搜狗微信公号文章的页面。我们可以使用Python的requests库来发送请求，并使用headers模拟浏览器发送请求的行为。以下是发送请求的代码示例：

import requests

# 发送请求
url = "
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
}
response = requests.get(url, headers=headers)

步骤2：解析响应

接下来，我们需要解析响应，提取出我们需要的数据。对于HTML页面的解析，我们可以使用Python的BeautifulSoup库。以下是解析响应的代码示例：

from bs4 import BeautifulSoup

# 解析响应
soup = BeautifulSoup(response.text, "html.parser")

步骤3：处理JS加密

在搜狗微信公号文章的页面中，一些数据可能会通过JavaScript进行加密。为了解密这些数据，我们需要分析加密算法，并编写相应的代码进行解密。下面是一个示例，假设我们要解密一个名为encrypted_data的字段：

import execjs

# 处理JS加密
encrypted_data = soup.find("script").text
decrypted_data = execjs.eval（encrypted_data)

步骤4：解析文章内容

解密完成后，我们可以进一步解析文章内容。使用BeautifulSoup库，我们可以通过选择器来提取出文章标题、作者、发布时间等信息。以下是解析文章内容的代码示例：

# 解析文章内容
title = soup.select_one(".title").text
author = soup.select_one(".author").text
publish_time = soup.select_one(".publish-time").text
content = soup.select_one(".content").text

步骤5：保存数据

最后，我们需要将爬取的数据保存到本地文件或数据库中。以下是保存数据的代码示例：

# 保存数据
with open("article.txt", "w", encoding="utf-8") as f:
    f.write(f"标题：{title}\n")
    f.write(f"作者：{author}\n")
    f.write(f"发布时间：{publish_time}\n")
    f.write(f"内容：{content}\n")

完整代码

将上述步骤整合起来，以下是完整的Python爬虫代码：

import requests
from bs4 import BeautifulSoup
import execjs

# 发送请求
url = "
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"
}
response = requests.get(url, headers=headers)

# 解析响应
soup = BeautifulSoup(response.text, "html.parser")

# 处理JS加密
encrypted_data = soup.find("script").text
decrypted_data = execjs.eval（encrypted_data)

# 解析文章内容
title = soup.select_one(".title").text
author = soup.select_one(".author").text
publish_time = soup.select_one(".publish-time").text
content = soup.select_one(".content").text

# 保存数据
with open("article.txt", "w", encoding="utf-8") as f:
    f.write(f"标题：{title}\n")
    f.write(f"作者：{author