如何识别验证码
平时我们在写爬虫的时候,会经常碰到一些验证码。这里我来分享一下是如何识别图形验证码的。
常规图形验证码的识别
可以参考一下崔大神的博客python3网络爬虫开发实战
带干扰线的验证码识别
这里我主要是分享一下我在做微信公众号爬虫的时候碰到的搜狗验证码的干扰线的问题。
众所周知,搜狗的反爬十分厉害,爬久了严重的动辄就封IP,要不就会弹出一个要求输入验证码的界面来验证你是人工而不是程序
我们首先通过Xpath定位到图形验证码,然后再进行识别工作。如图,是我拿到的一张验证码,可以看出除了有数字,字母外,还有一条类似与正弦线的干扰线。如果将这样的图片直接用常规验证码的方法识别根本就识别不出来,所以我们首先要去掉干扰线
首先我们将图像进行二值化处理,来突出数字和干扰线的轮廓。(自己注意 导入相应的python的库)
二值化
image = image.convert('L')
threshold = 80
table = []
for i in range(256):
if i < threshold:
table.append(0)
else:
table.append(1)
image = image.point(table, '1')
image.show()
二值化后的效果如图
接着我们可以来处理干扰线了,主要是利用干扰线和我们要识别的验证码的粗细已经一些形态学上的特点来区分验证码和干扰线。从而只保留我们需要的验证码
干扰线一般比验证码细
思路:一般的干扰线比我们要的验证码会细一些,我们可以通过判断一个像素点周围与其像素相同的像素点的个数来判断这个像素点是干扰线的像素点还是验证码的。通过设置一个阈值,将小于周围像素点相同个数小于3的像素点判断为干扰线,然后将其置为白色。
具体的实现代码如下:
去除干扰线
from PIL import Image
import tesserocr
class demo():
def __init__(self, path):
self.image = Image.open(path)
self.image = self.image.convert('L')
def test(self):
threshold = 127
table = []
for i in range(256):
if i < threshold:
table.append(0)
else:
table.append(1)
self.image = self.image.point(table, '1')
self.img_array = self.image.load()
width = self.image.size[0]
height = self.image.size[1]
for i in range(0, 1000):
for x in range(1, width - 1):
for y in range(1, height - 1):
count = 0
if self.img_array[x, y] == self.img_array[x - 1, y + 1]:
count += 1
if self.img_array[x, y] == self.img_array[x, y + 1]:
count += 1
if self.img_array[x, y] == self.img_array[x + 1, y + 1]:
count += 1
if self.img_array[x, y] == self.img_array[x - 1, y]:
count += 1
if self.img_array[x, y] == self.img_array[x + 1, y]:
count += 1
if self.img_array[x, y] == self.img_array[x - 1, y - 1]:
count += 1
if self.img_array[x, y] == self.img_array[x, y - 1]:
count += 1
if self.img_array[x, y] == self.img_array[x + 1, y - 1]:
count += 1
if count <= 3 and count > 0:
self.img_array[x, y] = 1
self.image.show()
demo('./1.png').test()
去除干扰线之后的效果如下
然后我们再用常规的图形验证码的识别方法处理就可以识别出来了,然后再用selenium模拟浏览器操作的自动化的库输入识别后的二维码就可以跳过搜狗的验证界面了