python下载页面所有附件

原创

mob64ca12d06991 2024-10-31 08:20:00 ©著作权

文章标签 网页内容 HTML python 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12d06991的原创作品，请联系作者获取转载授权，否则将追究法律责任

使用Python下载页面上的所有附件

在这篇文章中，我们将学习如何使用Python下载一个网页上的所有附件。这个过程包含几个重要步骤，从获取网页内容，到提取附件链接，以及下载并保存这些附件。接下来，我们将以表格的形式展示整个流程，并逐一讲解每一步所需的代码。

下载附件的流程

步骤	描述
1. 导入库	导入相关库
2. 获取网页内容	使用requests获取页面内容
3. 解析HTML	使用BeautifulSoup解析HTML
4. 提取链接	找到所有附件链接
5. 下载附件	遍历链接，下载附件

具体步骤和代码

1. 导入库

首先，我们需要导入一些库，包括requests和BeautifulSoup。requests用于请求网页内容，而BeautifulSoup用于解析HTML文档。

import requests  # 用于发送HTTP请求
from bs4 import BeautifulSoup  # 用于解析HTML内容
import os  # 用于文件路径操作

2. 获取网页内容

使用requests.get()方法获取网页内容，并检查是否成功。

url = '  # 网页URL
response = requests.get(url)  # 发送GET请求
if response.status_code == 200:  # 检查请求是否成功
    html_content = response.text  # 获取网页内容
else:
    print(f"请求失败，状态码：{response.status_code}")

3. 解析HTML

使用BeautifulSoup解析获取到的HTML内容。

soup = BeautifulSoup(html_content, 'html.parser')  # 解析HTML内容

4. 提取链接

通过解析后的HTML对象，我们寻找所有的附件链接。通常附件的链接会包含在特定的标签中，例如<a>标签。

attachments = []  # 存储附件链接
for link in soup.find_all('a'):  # 找到所有<a>标签
    href = link.get('href')  # 获取href属性
    if href and (href.endswith('.pdf') or href.endswith('.docx')):  # 过滤特定后缀
        attachments.append(href)  # 将符合条件的链接添加到列表

5. 下载附件

遍历提取到的所有链接，下载每一个附件并保存到本地。

for attachment in attachments:
    filename = os.path.basename(attachment)  # 从链接中提取文件名
    with requests.get(attachment) as file_response:  # 发送GET请求下载文件
        if file_response.status_code == 200:  # 检查请求是否成功
            with open(filename, 'wb') as f:  # 以二进制写入模式打开文件
                f.write(file_response.content)  # 写入文件内容
            print(f"{filename} 下载完成")
        else:
            print(f"{filename} 下载失败，状态码：{file_response.status_code}")

序列图

以下是整个下载流程的序列图，清晰地展示了各个步骤之间的关系。

sequenceDiagram
    participant User
    participant WebServer
    participant Parser
    participant Downloader

    User->>WebServer: 请求网页
    WebServer-->>User: 返回网页内容
    User->>Parser: 解析网页内容
    Parser-->>User: 提取附件链接
    User->>Downloader: 下载附件
    Downloader-->>User: 下载完成确认