感想
这篇文章提出了一个针对中文文本的特征提取器,能同时用于文本检测和识别,还人工和成了数据集,应该说思路是可以借鉴测。特别是我们在针对某一领域数据缺乏的时候,我们可以考虑用人工合成数据来提高实验的样本数据,满足深度模型的需要。
介绍
文本,一种人工信息的抽象表示,普遍存在人类社会之中。随着可携带的数字记录设备在普通人中流行起来,自然场景图片和视频在图片和视频分享网站上激增,例如YouTube,Flickr.
其中的文本信息包含高水品的语义(high-level semantics),我们通过提取文本信息,使得媒体的内容可以有效的被计算机理解和使用。这对一些其它应用也是非常关键的地方,例如图片分类,场景识别,城市环境自动导航等。
扫描文档的文本识别已经研究的很好了,并且已经成功应用到真实世界应用中了。但是在不可控环境下的文本检测与识别仍然是一个公开的问题。通常,文本信息抽取可以分为两个阶段,即文本检测和识别。传统上,大多数的研究都把把它看做两个连续的阶段,文本检测处理的是文本的字体,大小,风格,复杂背景,噪声,灯光条件等多变的挑战问题。文本识别算法处理的是文本的布局,方向,几何扭曲等的挑战问题。这些挑战已经促使了很多不同的特征设计研究。最近,提出了许多端到端的文本信息提取算法,用来整合两个阶段的特征,进而移除一个阶段的误差传播到下一个阶段,并且使得识别效果得到提升。
大多数研究都是围绕英文文本展开的,英文文本很容易定义和识别,应为它简单的笔画和结构。在全球化的时代,识别多语言文本显得越来越重要,语标文本(logographic text)是最特殊的一种文本类型,它的外形同时蕴含这发音和含义。典型的语标文本,中文,和英文差异很大。是一种典型的基于拉丁的文本并且已经在研究上已经取得了不错的成绩,主要在一下几方面:
1.
笔画数。多数中文包含至少五个笔画,而最复杂的英文字符只有4笔画。
2.
笔画的类型。中文笔画有三十种不同的类型,英文只有10中不同的笔画类型。
3.
文字的内部结构(Intra-character structures)。中文字符比英文字符复杂得多,英文的特定结构往往只对应一个字符。
由于中文的复杂性,英文的检测与识别方法很难用于中文识别和检测。
贡献
一个新颖的文本结构特征提取器。受心理学上的三层中文识别模型的启发,我们结合了文本结构组件组件探测器(text structure component detector,TSCD)和残差网络(residual network),去模拟三层模型的连个核心组件。TSCD层是专门为中文结构组件而建立的模型,它是笔画和字符的桥梁。残差网络是一个高效的低层与高层之间双向传递装置。这和三层模型中双向连接的核心组件非常相似,把TSCD层的组件重构成TSCD block,TSCD block如下图。这样就建立了一个三层中文文本识别模型,使得提取的特征用于文本检测和识别任务中。
2. 在文本检测和识别中共用文本特征提取器的参数。在深度学习模型中,文本检测和识别都被看做是分类任务,在我们的文本检测和识别模型中,特征提取器在文本识别的时候训练,该特征主要是中文字符的结构特征。结构特征是独一无二的,在背景图片中却没有,所以它可以用于判别文本和背景区域。
3. 合成数据引擎。由于公共的中文文本数据集不足以训练深度学习模型,我们用合成引擎来合成人工数据帮助训练,合成引擎由三个阶段组成,第一是模拟自然场景文本的特点;第二是产生的样例图片可以部分替代自然场景文本图片,成为训练这个中文结构特征提取器的一部分。
模型
Chinese text feature extractor主要包含一个卷积层,两个卷积块集合(convolutional block
sets)和一个TSCD块集合,每个块集合包含3个块。卷积层有16个滤波器(filters),窗口大小为3*3.第一个卷积块集合包含32个滤波器,窗口大小为3*3;第二个卷积块集合有64个滤波器,窗口大小为3*3.每个卷积块的输出特征用2*2的max-pooling进行下采样。TSCD块的每一层有128个滤波器,根据比例分成8个文本结构组件类型,输出的特征用了average-pooling进行下采样,池化的大小为4*4。池化后的输出就是Chinese text feature extractor的特征。
自然场景下汉字文本识别模型依次由Chinese text featureextractor,一个全连接层,一个softmax分类器组成。全连接层有2048个单元。Softmax分类有1500个输出对应1500个汉字。
自然场景下文本检测模型依次由Chinese text featureextractor,一个全连接层,一个softmax分类器,全连接层有512个单元。Softmax分类器是个二分类,对应文本区域和背景区域。
训练
Chinese text feature extractor和自然场景文本识别模型一起训练。一开始,我们用人工部分的所有字符图片训练识别模型,然后用所有字自然场景文字图片和7500张人工合成的文字图片一起训练。每一次随机从中取5张进行训练。
训练好后,这个Chinese text feature extractor运用到自然场景文本检测模型中训练检测模型的卷积网络和softmax分类器。训练中,特征提取器(feature extractor)参数固定,仅仅是全连接层被训练。
实验结果
ABBY是一个非常著名的OCR系统,S代表自然场景的的字符图片,A代表人工合成的字符图片,A+S表示自然场景的文本图片和人工合成的文本图片都用与训练模型。Residual network有20层,有3个卷积块集合,每个集合包含三个块。
CNN是basline模型,有两个卷积层,连个下采样层,一个全连接层。CSAE模型使用无监督学习方法,详情请参见论文参考。CSAE+TSCD层,使用CSAE无监督学习方法预训练TSCD层。Residual network有20层,有3个卷积块集合,每个集合包含三个块。
不同的算法的比较。
文章提到的CSAE算法如下:
英汉互译
logographic指图形图像文字,比如汉字
intra-表示“在内,内部”
aspect ratio 纵横比,屏幕高宽比; 宽高比;
patch 补丁,补片; 眼罩; 斑点; 小块;
参考文献
[1] Overview of Chinese Text Detection andRecognition.https://bboyzhou.github.io/2017/03/27/17_3_27/
[2]Xiaohang Ren, Yi Zhou, Zheng Huang, Jun Sun, Xiaokang Yang, Kai Chen:
A Novel Text Structure Feature Extractor for Chinese Scene Text Detection and Recognition. IEEE Access 5: 3193-3204 (2017)