思路: 这篇论文采用矫正再识别的思路进行文字识别,主要有矫正网络和识别网络两大部分,其中矫正网络采用TPS的思路,不过不是和tps一样直接预测2*n个关键点,而是预测中心线,然后加上一个偏置b。识别部分采用GRU实现的attention进行解码,采用了一种新的双向方式替换了aster的方法。具有更好的效果。
3. 论文方法
3.1 矫正网络
矫正网络采用了STN,关键就是如何预测STN网络的控制点。
由于2D场景文本图像中的大多数字符都是沿直线或平滑曲线运动的,所以控制点也具有相同的特性趋势,多项式曲线是有效的估计趋势文本布局。我们可以用带有偏差的曲线来估计每条线的控制点Ci
矫正网络结构为:
而ASTER等矫正网络的参数个数为MN2,不过这个只有在关键点多的时候才能体现出来。论文说这种偏置的关键点预测方法能更好的包络文字区域。
3.2 识别网络
相较于ASTER,论文只用了一个解码层,GRU接受一个方向编码实现ASTER两个不同方向编码的效果。
ASTER等方法采用两个不同的分支来预测west
和tsew
,论文的方法可以在解码部分可以减少1/2的参数。
方向向量由一个独热向量嵌入而来,如1
表示正向,0
表示反向。
4.结果
在更区的文字上效果可能更好一点。
总结
- 优化了STN关键点的产生过程,对更区的文字效果更好
- 优化了ASTER方法解码部分双向解码时的参数