去重是一种思想,不要拘束于某一个点上,去重的方法多种多样,但是各有优点和弊端
去重的五种方式详细分析
1、set与md5的特点
set:无序,不重复,没有索引
md5主要特点:不可逆 md5加密为什么不可逆
2、不去重的弊端:
①、数据重复
在进行批量海量的数据爬取的过程中,不可避免的会有大量的数据是重复的,这个时候就可以选择性的爬取,重复的部分筛掉。
②、陷入死循环
假如url1中有url2的超链接,url2有url3的超链接,url3又有url1的超链接。那么在爬取的过程中,从url1爬取了url2的超链接,从url2爬取了url3的超链接,从url3爬取了url1的超链接,从而陷入了死循环。
③、爬虫效率低
如果爬虫因为异常中断,重新开始爬虫的时候,会导致之前已经爬取的数据重复爬取,而导致效率低。
3、redis_set+md5去重代码实现
import redis
from hashlib import md5
class SaveRedisMd5(object):
'''
md5Str:需要加密的str
keys:存入redis的键
redisResult:返回去重结果,返回0则已存在,返回1则不存在
'''
def __init__(self,md5Str,keys,db=1):
self.host='localhost'
self.port=6379
self.db=db
self.conn=redis.Redis(host=self.host,port=self.port,db=self.db)
self.md5Str=md5Str
self.keys=keys
def master(self):
#使用md5加密
md5Result=self.runMd5(self.md5Str)
#使用redis去重
redisResult=self.runRedis(self.keys,md5Result)
#返回去重结果, 已存在返回0 不存在返回1
print(redisResult)
return redisResult
#使用redis的set去重
def runRedis(self,keys,md5Result):
try:
return self.conn.sadd(keys,md5Result )
finally:
self.conn.close()
#使用md5加密
def runMd5(self,md5Str):
m=md5()
m.update(md5Str.encode('utf-8'))
print(m.hexdigest())
return m.hexdigest()
if __name__=='__main__':
SaveRedisMd5('shenming','sm').master()
第一次运行结果;
第二次运行结果: