问题

  1. FCN module for multi-language text recognition,FCN不是做分割的吗?怎么做ocr呢。好像用了FCN之后可以省略RNN层,好像现在的论文都是FCN ocr,crnn,seqtoseq attention ocr这三种技术。有时间撸个项目出来。
  2. spatial transformer layer,自动做字符修正的。
  3. bilinear interpolation双线性插值得到ocr的输入
  4. 损失函数,还是都会用Connectionist Temporal Classification(CTC)
  5. a simple majority voting from each character to predict the final script class,多数投票的策略?这是一种什么策略?