python爬取豆瓣网图片

原创

mob649e815c3b9e 2024-11-14 05:59:08 ©著作权

文章标签 下载图片 Python python 文章分类 Python 后端开发

©著作权归作者所有：来自51CTO博客作者mob649e815c3b9e的原创作品，请联系作者获取转载授权，否则将追究法律责任

Python爬取豆瓣网图片的实践指南

在这篇文章中，我们将逐步了解如何使用Python爬取豆瓣网上的图片。豆瓣网是一个提供书籍、电影、音乐等信息的平台，采用Python爬虫技术能够帮助我们抓取所需的资源。下面，我将为初学者提供一个清晰的流程，使您能更加顺利地完成这一任务。

1. 整体流程

我们将整个爬虫过程分为以下几个步骤：

步骤	描述	代码示例
1	准备环境	安装requests和BeautifulSoup4库
2	发起请求	使用requests.get()发起请求
3	解析网页内容	使用BeautifulSoup解析HTML内容
4	找到目标图片	提取`<img>`标签中的图片链接
5	下载图片	使用requests.get()下载图片

2. 各步详细实现

2.1 准备环境

在开始之前，您需要安装requests和BeautifulSoup4库。这两个库将帮助我们处理HTTP请求和解析HTML内容。您可以使用下面的命令进行安装：

pip install requests beautifulsoup4

2.2 发起请求

接下来，使用requests库发起对豆瓣某一页面的请求：

import requests  # 导入requests库

url = '  # 豆瓣书籍页面的URL
response = requests.get(url)  # 发起GET请求

注释：

requests.get(url)方法会返回一个响应对象，通过此对象我们可以获取页面内容。

2.3 解析网页内容

使用BeautifulSoup库来解析获取到的HTML内容：

from bs4 import BeautifulSoup  # 导入BeautifulSoup库

soup = BeautifulSoup(response.text, 'html.parser')  # 解析HTML内容

注释：

response.text获取到的是响应内容字符串，html.parser是指定解析器。

2.4 找到目标图片

接下来的任务是从解析后的内容中找到包含图片的标签。我们知道图片一般会在<img>标签中：

images = soup.find_all('img')  # 找到所有<img>标签
image_urls = []  # 创建一个列表用于保存图片链接

for img in images:
    img_url = img.get('src')  # 获取<img>标签中的src属性（图片链接）
    if img_url:  # 确保链接存在
        image_urls.append(img_url)  # 将链接添加到列表

注释：

soup.find_all('img')获取页面中所有的<img>标签。
img.get('src')获取每个图片的链接。

2.5 下载图片

最后，我们将下载这些图片到本地：

import os  # 导入os库

# 创建一个文件夹用于存放下载的图片
if not os.path.exists('douban_images'):
    os.makedirs('douban_images')

# 下载图片
for i, url in enumerate(image_urls):
    img_data = requests.get(url).content  # 获取图片内容
    with open(f'douban_images/image_{i}.jpg', 'wb') as f:  # 以二进制写入模式打开文件
        f.write(img_data)  # 将图片内容写入文件

注释：

首先检查是否存在保存文件的文件夹，如果没有，则创建它。
使用requests.get(url).content下载图片内容，并以二进制模式将其写入本地文件。

3. Gantt图

以下是整个爬虫项目的甘特图，展示所需时间及任务顺序：

gantt
    title Python爬取豆瓣图片的项目时间表
    dateFormat  YYYY-MM-DD
    section 准备
    环境准备           :done,  des1, 2023-10-01, 1d
    section 爬虫实现
    发起请求           :active,  des2, 2023-10-02, 2d
    解析网页内容       :          des3, 2023-10-04, 1d
    找到目标图片       :          des4, 2023-10-05, 1d
    下载图片           :          des5, 2023-10-06, 2d