python3 scrapy 使用

原创

mob64ca12e10b51 2024-09-11 04:14:33 ©著作权

©著作权归作者所有：来自51CTO博客作者mob64ca12e10b51的原创作品，请联系作者获取转载授权，否则将追究法律责任

使用Python3 Scrapy进行网络爬虫

在当今信息繁杂的互联网环境中，很多用户希望从网页中提取有用的信息。而这时候，网络爬虫（Web Crawler）便成为了一个强大的工具。Scrapy是一个用Python编写的爬虫框架，它允许开发者高效地提取、处理和存储数据。在本文中，我们将介绍Scrapy的基础知识，并提供一个简单的代码示例，帮助你快速上手。

Scrapy简介

Scrapy是一个开源的网页爬取框架，支持多种数据源，可以轻松提取结构化数据。Scrapy的核心功能包括：

请求发送和响应处理：可以发送HTTP请求，并处理服务器的响应。
数据提取：采用XPath和CSS选择器等方式提取数据。
数据存储：支持多种数据存储格式，如JSON、XML、CSV等。
异步处理：基于Twisted异步网络框架，能够高效处理大量请求。

Scrapy安装

在开始使用Scrapy之前，你首先需要安装它。在终端中运行以下命令：

pip install scrapy

安装完成后，可以通过以下命令检查安装是否成功：

scrapy --version

创建Scrapy项目

接下来，我们将创建一个新的Scrapy项目。进入你的工作目录，执行下面的命令：

scrapy startproject myproject

这将会创建一个名为myproject的文件夹，其中包含默认的Scrapy项目结构：

myproject/
    scrapy.cfg
    myproject/
        __init__.py
        items.py
        middlewares.py
        pipelines.py
        settings.py
        spiders/
            __init__.py

编写爬虫

接下来，我们将在spiders目录中创建一个新的爬虫。假设我们想爬取某个网站上的书籍信息。创建文件books_spider.py，并写入以下代码：

import scrapy

class BooksSpider(scrapy.Spider):
    name = 'books'
    start_urls = [
        '
    ]

    def parse(self, response):
        for book in response.css('article.product_pod'):
            yield {
                'title': book.css('h3 a::attr(title)').get(),
                'price': book.css('p.price_color::text').get(),
                'availability': book.css('p.availability::text').get().strip(),
            }

        next_page = response.css('li.next a::attr(href)').get()
        if next_page:
            yield response.follow(next_page, self.parse)

代码解析

导入scrapy模块: 我们首先导入了Scrapy模块，以便使用它的功能。
定义爬虫: BooksSpider类是我们定义的爬虫，name属性用于标识该爬虫。
设置起始URL: start_urls是一个列表，包含了爬虫开始爬取的URL。
解析响应: parse方法负责处理网页响应。在这里，我们使用CSS选择器提取书名、价格和可用性。
处理分页: 爬虫会查找下一页的链接，并递归调用parse方法。

启动爬虫

要运行爬虫，只需在终端中进入myproject目录并执行以下命令：

scrapy crawl books -o books.json

这将会开始爬取，并将提取到的数据存储到books.json文件中。

数据存储

Scrapy支持多种数据存储形式。除了JSON，你还可以选择CSV或XML。例如，在运行爬虫时，修改输出文件格式：

scrapy crawl books -o books.csv

这样，数据便会保存为CSV格式。

创建旅行图和甘特图

在项目管理中，可以使用Mermaid图表来帮助可视化旅行路径和任务进度。下面是Mermaid语法绘制旅行图和甘特图的示例。

旅行图

journey
    title 网络爬虫开发流程
    section 项目启动
      创建Scrapy项目: 5: 否
      确定数据需求: 4: 是
    section 爬虫开发
      编写爬虫代码: 4: 是
      运行爬虫: 5: 否
    section 数据处理
      清洗和存储数据: 5: 否

甘特图

gantt
    title 爬虫开发计划
    dateFormat  YYYY-MM-DD
    section 项目启动
    创建项目        :a1, 2023-10-01, 1d
    确定数据需求    :a2, 2023-10-02, 1d
    section 爬虫开发
    编写爬虫        :a3, 2023-10-03, 3d
    运行爬虫        :a4, 2023-10-06, 1d
    section 数据处理
    数据清洗        :a5, 2023-10-07, 2d