文章目录

  • 一、识别流程
  • 二、部分代码,详细见项目:
  • 2.1、图片处理
  • 2.2、图片切割
  • 三、训练及识别
  • 3.1、模型训练
  • 3.2、使用训练好的模型进行识别



验证码在爬虫的工作中已经是不可避免的一环,本文将介绍一种传统的验证码识别流程,可以轻松应对一些不是特别复杂的验证码。

一、识别流程

流程:灰度–>二值化–>去干扰线及噪点–>切割成单个字符–>标注–>识别学习并得到模型–>使用模型识别

从某网站获取到的原始验证码:

python 开发接口验证码 python验证码处理_图像识别


处理流程总共分为以下几步:

1.读取图片,并根据需要决定是否调整图片尺寸;

2.对图片进行灰度处理;

python 开发接口验证码 python验证码处理_计算机视觉_02


3.根据自己设置的阈值,对图片进行二值化处理;

python 开发接口验证码 python验证码处理_python 开发接口验证码_03

4.降噪处理,去除干扰的像素点及像素块;

python 开发接口验证码 python验证码处理_机器学习_04


5.对图片进行切割,获得单个字符,并进行人工标注;

python 开发接口验证码 python验证码处理_计算机视觉_05

python 开发接口验证码 python验证码处理_图像识别_06

6.使用sklearn的svm分类器进行训练,得到模型;
7.使用训练得到的模型进行验证码识别;

二、部分代码,详细见项目:

2.1、图片处理

img = cv2.imread("image14.png") # 读取图片
im_gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY) # 转换为灰度图
# 二值化处理
ret, im_inv = cv2.threshold(im_gray, 150, 255, 0)
show_gray_img(im_inv)
img_clear = noise_remove_cv2(im_inv, 1) # 去除噪点

去燥点的原理及代码

python 开发接口验证码 python验证码处理_计算机视觉_07


一般常规的判断一个像素是否为噪点的方法有4邻域或8邻域判断法,即通过统计某个像素点周围4个或8个像素点中白色像素的个数来判断该像素点是否为孤立的,上图所示的这种肯定都为孤立像素,应该被去除掉。具体的实现代码如下:

# 去除噪点
def noise_remove_cv2(image, k):
    def calculate_noise_count(img_obj, w, h):
        """
        计算邻域非白色的个数
        """
        count = 0
        width, height = img_obj.shape
        for _w_ in [w - 1, w, w + 1]:
            for _h_ in [h - 1, h, h + 1]:
                if _w_ > width - 1:
                    continue
                if _h_ > height - 1:
                    continue
                if _w_ == w and _h_ == h:
                    continue
                if img_obj[_w_, _h_] < 230:  # 二值化的图片设置为255
                    count += 1
        return count

    w, h = image.shape
    for _w in range(w):
        for _h in range(h):
            if _w == 0 or _h == 0:
                image[_w, _h] = 255
                continue
            # 计算邻域pixel值小于255的个数
            pixel = image[_w, _h]
            if pixel == 255:
                continue

            if calculate_noise_count(image, _w, _h) < k:
                image[_w, _h] = 255
    return image

2.2、图片切割

# 垂直分割投影法分割图片
    img_list = cut_vertical(img_clear)
    t = 1
    for i in img_list:
        resize_img = cv2.resize(i, (15, 30))  # 重新定义大小
        # 这里可以对切割到的图片进行操作,显示出来或者保存下来
        cv2.imwrite(os.path.join(new_image_path, file + "_" + str(t) + '.jpg'), resize_img)
        t += 1

def cut_vertical(img_list, cvalue=255):
    """
    投影法竖直切割图片的数组
    :param img_list: 传入的数据为一个由(二维)图片构成的数组,不是单纯的图片
    :param cvalue: 切割的值 同cut_level中的cvalue
    :return: 切割之后的图片的数组
    """
    # 如果传入的是一个普通的二值化的图片,则需要首先将这个二值化的图片升维为图片的数组
    if len(np.array(img_list).shape) == 2:
        img_list = img_list[None]
    r_list = []
    for img_i in img_list:
        end = 0
        for i in range(len(img_i.T)):
            if count_number(img_i.T[i], cvalue) >= img_i.shape[0]:
                star = end
                end = i
                if end - star > 1:
                    r_list.append(img_i[:, star:end])
    return r_list

python 开发接口验证码 python验证码处理_计算机视觉_08

三、训练及识别

3.1、模型训练

因为标注数据里将标注数据作为了文件夹的名称,所以文件夹内的文件作为训练数据,文件夹名作为标签,这里使用sklearn.svm 支持向量机的算法,来对数据进行训练。(关于svm的讲解,可以看看知乎大神的理解https://www.zhihu.com/question/21094489 ),通过fit进行训练后,将训练的结果保存到pkl文件里,其实里面都是0和1的特征值。

import os
import cv2
import joblib
from sklearn.svm import SVC

train_set_x = []
train_set_y = []
path = "./train_img"

# 遍历文件夹 获取下面的目录
for category in os.listdir(path):  # listdir的参数是文件夹的路径
    for dir_name in os.listdir(os.path.join(path, category)):
        for file_name in os.listdir(os.path.join(path, category, dir_name)):
            img1 = cv2.imread(os.path.join(path, category, dir_name, file_name), cv2.IMREAD_GRAYSCALE)
            res1 = cv2.resize(img1, (28, 28))
            res1_1 = res1.reshape(784)  # 将表示图片的二维矩阵转换成一维
            res1_1_1 = res1_1.tolist()  # 将numpy.narray类型的矩阵转换成list
            train_set_x.append(res1_1_1)  # 将list添加到已有的list中
            train_set_y.append(dir_name)

letterSVM = SVC(kernel="linear", C=1).fit(train_set_x, train_set_y)
# 生成训练结果
joblib.dump(letterSVM, './model_data/letter.pkl')

3.2、使用训练好的模型进行识别

识别流程要与我们训练时步骤一样,先灰度,再二值化,然后降噪,切割,使用模型分类,识别结果就出来了。

import cv2
import joblib
from matplotlib import pyplot as plt, cm
from split_image import noise_remove_cv2, cut_vertical


def ocr_img(file_name):
    captcha = []
    clf = joblib.load('model_data/letter.pkl')
    img = cv2.imread(file_name)

    # 转换为灰度图
    im_gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    # 二值化处理
    ret, im_inv = cv2.threshold(im_gray, 140, 255, 0)
    # 去除孤立点,噪点
    img_clear = noise_remove_cv2(im_inv, 1)
    # 垂直分割投影法分割图片
    img_list = cut_vertical(img_clear)
    for i in img_list:
        res1 = cv2.resize(i, (28, 28))
        data = res1.reshape(784)
        data = data.reshape(1, -1)
        one_letter = clf.predict(data)[0]
        captcha.append(one_letter)
    captcha = [str(i) for i in captcha]
    print("the captcha is :{}".format("".join(captcha)))
    plt.imshow(img, cmap=cm.gray)
    plt.show()


if __name__ == '__main__':
    ocr_img("./test_img/test_img_1.png")

识别效果如下图:

python 开发接口验证码 python验证码处理_python 开发接口验证码_09


源码及训练的图片等已上传github(https://github.com/deepcoldwing/verification_code)

本文中的方法,更多的目的是介绍一种通用的识别原理。后续还将继续将自己知道的一些方法分享给大家,包括像点选验证码,滑动验证码,不定长验证码等等。