python如何爬取页面附件

原创

mob64ca12e732bb 2023-09-05 15:01:55 ©著作权

文章标签 HTTP 下载图片 HTML 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob64ca12e732bb的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python如何爬取页面附件

1. 引言

随着互联网的发展，我们经常会遇到需要爬取网页上的附件的需求。例如，我们可能需要爬取新闻网站上的图片、下载某个网页上的PDF文件等。本文将介绍如何使用Python编程语言来实现这个功能，并提供一个实际的示例。

2. 准备工作

在开始编写代码之前，我们需要确保已经安装了Python的相关库。本文将使用requests库来发送HTTP请求，以及beautifulsoup4库来解析HTML页面。可以使用以下命令来安装这两个库：

pip install requests beautifulsoup4

3. 爬取页面附件的流程

下面是爬取页面附件的整体流程图：

flowchart TD
    A(开始)
    B(发送HTTP请求)
    C(解析HTML页面)
    D(识别附件)
    E(下载附件)
    F(结束)
    A --> B
    B --> C
    C --> D
    D --> E
    E --> F

4. 示例：爬取新闻网站上的图片

假设我们要爬取某个新闻网站上的图片，并保存到本地。我们可以按照以下步骤来实现：

发送HTTP请求获取页面内容；
解析HTML页面，找到所有的图片链接；
根据图片链接下载图片到本地。

以下是示例代码：

import requests
from bs4 import BeautifulSoup
import os

def download_image(url, save_folder):
    try:
        response = requests.get(url, stream=True)
        if response.status_code == 200:
            # 根据URL解析出图片的文件名
            file_name = url.split('/')[-1]
            save_path = os.path.join(save_folder, file_name)

            with open(save_path, 'wb') as f:
                for chunk in response.iter_content(1024):
                    f.write(chunk)
                
            print(f"成功下载图片：{url}")
        else:
            print(f"下载图片失败，错误码：{response.status_code}")
    except Exception as e:
        print(f"下载图片失败，错误信息：{str(e)}")

def crawl_images(url, save_folder):
    try:
        response = requests.get(url)
        if response.status_code == 200:
            soup = BeautifulSoup(response.text, 'html.parser')
            img_tags = soup.find_all('img')
            
            for img_tag in img_tags:
                img_url = img_tag.get('src')
                if img_url:
                    download_image(img_url, save_folder)
    except Exception as e:
        print(f"爬取图片失败，错误信息：{str(e)}")

# 示例：爬取新闻网站上的图片
url = '
save_folder = './images'

crawl_images(url, save_folder)

在上述示例代码中，我们定义了两个函数：download_image和crawl_images。

download_image函数用于下载图片，接收图片的URL和保存的文件夹作为参数。函数首先发送HTTP请求获取图片内容，然后将内容写入到本地文件。最后，函数会打印出下载成功或失败的提示信息。
crawl_images函数用于爬取图片，接收新闻网站的URL和保存的文件夹作为参数。函数首先发送HTTP请求获取页面内容，然后使用beautifulsoup4库解析HTML页面，找到所有的图片标签，并提取出图片的URL。最后，函数会调用download_image函数下载图片。

使用上述示例代码，我们可以爬取新闻网站上的图片，并保存到本地。将需要爬取的新闻网站URL和保存图片的文件夹作为参数传递给crawl_images函数即可。

5. 甘特图

下面是爬取页面附件的甘特图：

gantt
    dateFormat  YYYY-MM-DD
    title 爬取页面附件
    section 发送HTTP请求
    发送HTTP请求  : 2022-01-01, 3d
    section 解析HTML页面
    解析HTML页面  : 2022-01-04, 2d
    section 识别附件
    识别附件  : 2022-01-06, 1d
    section 下载附件
    下载附件  : 2022-01-07, 2