人生苦短,我用Python

Scrapy安装

1、windows下安装流程:

命令行执行pip Install scrapy安装scrapy,如果你已经配置过环境变量,则任意打开命令行窗口,输入pip install scrapy命令,则可以执行安装。若没有配置过环境变量,则进入到你python的安装路径下,shift+右键,在此处打开命令行窗口,然后输入pip install scrapy安装。




特别说明:windows下安装,因为某些包不兼容,会出现安装失败的情况,一般是twisted安装失败,当然也会可能其他包安装失败,具体情况根据自己安装提示。若twisted安装失败,则去Python Extension Packages for Windows地址去搜索twisted,选好自己对应的版本,不然会安装失败,下载完之后,到下载文件所在位置,shift+右键,在此处打开命令行窗口,输入pip install xxx.whl(完整文件名)。安装完成之后,打开命令行:输入scrapy -h验证是否安装成功!若提示未成功,则重新执行pip install scrapy命令。


2、Mac系统安装流程

可以直接使用pip install scrapy进行安装

如果没有安装pip,可是使用以下命令行语句先安装pip:


Scrapy爬虫的使用

一个最基本的爬虫只需要两部分组成:Spider(爬虫)、Pipeline(管道)

Spider(爬虫):定义了如何爬取某个网站,包括了爬取的动作(例如是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。简单来说,Spider就是定义爬取的动作及分析某个网页的地方。

Pipeline(管道):每个项目管道组件是一个实现简单方法的Python类。他们接受一个项目并对其执行操作,还决定该项目是否应该继续通过流水线或被丢弃并且不再被处理。

Pipeline(管道的作用):

Item管道的主要责任是负责处理由蜘蛛从网页中抽取的item,它的主要任务是清洗、验证和存储数据。当页面被蜘蛛解析后,将被发送到item管道,并经过几个特定的次序处理数据。

项目管道的用途:

  • 清理HTML数据
  • 验证抓取的数据(检查项目是否包含特定字段)
  • 检查重复
  • 将刮取的项目存储在数据库

第一个Scrapy项目

1、在你要存放项目的目录下,shift+右键在此处打开命令行,然后输入:scrapy startproject MyFirstDemo,创建成功,提示如图所示:



scrapy 框架文件解析:

  • MyFirstDemo/:该项目的Python模块,之后将在此处加入代码
  • MyFirstDemo/spiders/:放置spider代码的目录,在命令行使用“scrapy genspider+爬虫名”生成的--spider文件将会被放在此目录下。
  • MyFirstDemo/items.py:项目中的item文件
  • MyFirstDemo/pipelines.py:项目中的pipelines文件
  • MyFirstDemo/settings.py:项目的设置文件
  • scrapy.cfg:项目的配置文件,一般不需要修改,也不能删除

创建spider文件:在cmd中切换到MyFirstDemo文件中,输入“scrapy genspider spider_myfirstdemo baidu.com”,在spider下面生成spider_city_58文件,代码如下:




Scrapy基本方法和属性:

  • 爬虫名称:name属性
  • 启动方法:start_requests(),或start_urls()启动
  • 默认解析方法:parse()
  • 启动链接列表:start_urls()属性