OCR(Optical Character Recognition, 光学字符识别)是指对输入图像进行分析识别处理,获取图像中文字信息的过程,具有广泛的应用场景,例如场景图像文字识别、文档图像识别、卡证识别(如身份证、银行卡、社保卡)、票据识别等。而场景文字识别(Scene Text Recognition,STR) 不需要针对特殊场景进行定制,可以识别任意场景图片中的文字

 

场景图片需要将照片或视频中的文字识别出来,其主要分为两个步骤:

  • 对照片中存在文字的区域进行定位(Text Detection),即找到单词或文本行(Word/Line-level)的边界框(Bounding Box);
  • 对定位后的文字进行识别(Text Recognition)
  • 1、文本检测技术
  • (1)基于连通域的方法
    该类方法认为场景图像中的文字一般都是作为连通域出现,这类方法一般可以分为连通域提取和文字连通域判别两个环节。其中,连通域提取环节会将图像中的所有连通域提取出来作为备选,文字连通域判别环节则会根据分类器或者启发式规则判断提取的连通域到底是文字连通域还是背景连通域。
     
    图2 基于连通域的文本检测方法流程图
    (2)基于滑动窗口的方法
    将场景文字作为一类特殊的目标,使用类似于目标检测的方法对场景文字进行定位。首先从每一个滑动窗口中提取若干特征,然后将提取的特征送入事先训练好的分类器判断当前滑动窗口中是否包含文字,最后需要通过二值化来精确定位场景文本的位置。
     
    图3 基于滑动窗口的文本检测方法流程图
    (3)基于深度学习的方法
    近年来,深度学习因其强大的学习能力以及广泛的适用性,已经成为人工智能领域最热门的方向之一。虽然基于连通域和滑动窗口的方法在传统OCR任务能够获得不错的效果,但在更为复杂的场景图像文本检测任务中却完全落后于深度学习方法。基于深度学习的文本检测方法使用效果更加鲁棒的高层语义特征,利用更多的数据去拟合更复杂、泛化能力更强的模型,在场景图片文本检测中取得了突破性进展。在基于深度学习的文本检测方法中,使用最广泛的是基于Region Proposal的方法