什么是分布式爬虫?

通俗来讲,分布式爬虫就是多台机器多个spider对多个url的同时处理操作,分布式的方式可以极大提高程序的抓取效率

 

分布式爬虫一般要配合redis数据库使用,原因有3点:

(1)redis数据库可以共享队列

(2)重写Scheduler,让其无论是去重还是任务都去访问共享队列

(3)为Scheduler定制去重规则

redis数据库的安装和使用见下文

 

分布式爬虫的结构:

分布式爬虫一般采用主从结构(master-slaver),master端管理redis数据库和分发下载任务,slaver部署爬虫提取网页、解析提取数据和存储数据

 

主从结构(master-slaver)的特点:

(1)如果master出现崩溃,可以马上将其中一个slaver重新部署为master,不会造成数据的丢失

(2)无论是master或者slaver修改数据时,所有master和slaver都会立马进行数据同步

(3)slaver可以有多个,master只能有一个

 

redis数据库的安装和使用:

(1)安装:

下载链接:https://github.com/MicrosoftArchive/redis/releases

python 置换皮肤_redis

下载完成后是一个压缩包,尽量解压到桌面并修改文件夹名为redis,之后使用会方便一点

注意:一定要把所有文件都放在同一个文件夹下

 

(2)使用:

修改一些数据,用编译器打开下面这个文件,用编译器可以根据行数快速找到要修改的数据

python 置换皮肤_分布式爬虫_02

1.注释掉第56行代码

python 置换皮肤_分布式爬虫概述_03

2.修改第75行数据,将yes改为no

python 置换皮肤_分布式爬虫概述_04

3.在123行添加一行代码

python 置换皮肤_分布式爬虫概述_05

 

进入终端,输入命令,无论是配置master或slaver时们尽量都要先cd到redis文件夹中,这样可以避免一些不必要的错误

1.配置master

cd C:\Users\Administrator\Desktop\redis >>> redis-server redis.windows.conf

出现以下界面说明配置成功

注意:配置成功后就不要动了,因为现在这是一个主服务器了

python 置换皮肤_分布式爬虫_06

2.配置slaver,并连接master

这里可以是另外一台机器,也可以依旧是本机,如果是做项目的话,推荐使用额外一台机器,这里只演示方法

cd C:\Users\Administrator\Desktop\redis >>> redis-cli -h 255.255.255.255 -p 6379

注意:-h后面写master的ip,我这里只是举例来完善写法

        -p 后面写端口号,默认为6379,-p 6379 可以省略

 

今天就先说这么多吧,之后会继续补充