人生苦短,我用Python
Scrapy安装
1、windows下安装流程:
命令行执行pip Install scrapy安装scrapy,如果你已经配置过环境变量,则任意打开命令行窗口,输入pip install scrapy命令,则可以执行安装。若没有配置过环境变量,则进入到你python的安装路径下,shift+右键,在此处打开命令行窗口,然后输入pip install scrapy安装。
特别说明:windows下安装,因为某些包不兼容,会出现安装失败的情况,一般是twisted安装失败,当然也会可能其他包安装失败,具体情况根据自己安装提示。若twisted安装失败,则去Python Extension Packages for Windows地址去搜索twisted,选好自己对应的版本,不然会安装失败,下载完之后,到下载文件所在位置,shift+右键,在此处打开命令行窗口,输入pip install xxx.whl(完整文件名)。安装完成之后,打开命令行:输入scrapy -h验证是否安装成功!若提示未成功,则重新执行pip install scrapy命令。
2、Mac系统安装流程
可以直接使用pip install scrapy进行安装
如果没有安装pip,可是使用以下命令行语句先安装pip:
Scrapy爬虫的使用
一个最基本的爬虫只需要两部分组成:Spider(爬虫)、Pipeline(管道)
Spider(爬虫):定义了如何爬取某个网站,包括了爬取的动作(例如是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。简单来说,Spider就是定义爬取的动作及分析某个网页的地方。
Pipeline(管道):每个项目管道组件是一个实现简单方法的Python类。他们接受一个项目并对其执行操作,还决定该项目是否应该继续通过流水线或被丢弃并且不再被处理。
Pipeline(管道的作用):
Item管道的主要责任是负责处理由蜘蛛从网页中抽取的item,它的主要任务是清洗、验证和存储数据。当页面被蜘蛛解析后,将被发送到item管道,并经过几个特定的次序处理数据。
项目管道的用途:
- 清理HTML数据
- 验证抓取的数据(检查项目是否包含特定字段)
- 检查重复
- 将刮取的项目存储在数据库
第一个Scrapy项目
1、在你要存放项目的目录下,shift+右键在此处打开命令行,然后输入:scrapy startproject MyFirstDemo,创建成功,提示如图所示:
scrapy 框架文件解析:
- MyFirstDemo/:该项目的Python模块,之后将在此处加入代码
- MyFirstDemo/spiders/:放置spider代码的目录,在命令行使用“scrapy genspider+爬虫名”生成的--spider文件将会被放在此目录下。
- MyFirstDemo/items.py:项目中的item文件
- MyFirstDemo/pipelines.py:项目中的pipelines文件
- MyFirstDemo/settings.py:项目的设置文件
- scrapy.cfg:项目的配置文件,一般不需要修改,也不能删除
创建spider文件:在cmd中切换到MyFirstDemo文件中,输入“scrapy genspider spider_myfirstdemo baidu.com”,在spider下面生成spider_city_58文件,代码如下:
Scrapy基本方法和属性:
- 爬虫名称:name属性
- 启动方法:start_requests(),或start_urls()启动
- 默认解析方法:parse()
- 启动链接列表:start_urls()属性