2021SC@SDUSC

  OCR全称为Optical Character Recognition,即光学字符识别技术。PP-OCR是在飞浆Paddle平台上发布的一种实用的超轻量级OCR系统,该系统由文本检测、检测框校正和文本识别三部分组成。我负责文本检测的方向分类器部分的深入学习和探索。

  PP-OCR系统选择CPU来提高计算效率,以满足处理大量图像的需求。具体工作流程为,图像先经过文字检测,将图中可能包含文字的部分进行分割处理,形成一个一个的检测框。然后系统矫正检测框,将检测框转换为水平矩形框进行后续的文本识别。在这个环节中矫正后的框体可能会被反转,系统使用方向分类器来检测并改正文本的方向为正向。最后系统进行文字识别,将检测框里的文字打印出来。过程如下图1。可微分二值化(DB,Differentiable Binarization)作为基于简单分割网络的文本检测器,CRNN作为文本识别器。

paddlenlp uie模型原理 paddleocr原理_数据

  在文本检测方面,PP-OCR使用MobileNetV3作为文本检测器模型的骨架。当预测时间相同时,MobileNetV3可以达到更高的精度。方向分类器的主干也是MobileNetV3。由于方向分类这个任务比较简单,所以系统选用MobileNetV3_small_x0.35来平衡准确性和效率。基础数据增强算法(BDA,Base Data Augmentation)和RandAugment算法是很好的图像数据增强算法,而且可以用于方向分类器的训练。PP-OCR中就在方向分类的训练图像中使用了这两种算法。图像的分辨率与识别精度有关,PP-OCR将归一化图像的高度和宽度分别设置为48和192,以此来提高方向分类器的准确率。量化(quantization)可以减小模型体积和加速计算,但是会造成一定程度上的精度受损。由于骨架MobileNetV3中的激活函数为ReLU和hard swish,所以如果使用普通的PACT(PArameterized Clipping acTivation)量化会导致更高的量化损失。PACT对激活进行预处理的公式如下图2所示。系统采用改进后的PACT量化方法对方向分类器模型进行量化。改进后的PACT处理公式如下图3所示。

paddlenlp uie模型原理 paddleocr原理_数据_02


paddlenlp uie模型原理 paddleocr原理_数据_03


  我将在以后的时间对方向处理器涉及的模型和算法进行深入学习和探究。