转载自:CAAI AIDL 演讲实录丨金连文:“文字检测与识别:现状及展望” 以下是金连文的演讲实录:金连文:谢谢许老师的介绍,也谢谢组委会的组织及邀请。今天很高兴来这里做一个关于场景文字检测识别最新进展的报告,来到华中科技大学做这个报告压力很大,因为大家知道华中科技大学白老师团队在场景文字
文章目录摘要1. 简介2. 数据集2.1 人工合成的数据集2.2 显示数据集for测试3. STR框架分析4. 实验和分析摘要1. 简介使用递归神经网络来预测不定长的字符。也有人提出了一个转换模块,将输入的图片进行矫正来处理弯曲的文本。论文的主要贡献分析了现有论文提到的各个数据集的不一致性。针对OCR识别提出了一个统一的框架,将模型分成4个连续的部分:矫正转换(Trans),...
端到端OCR实验与结果记录上一份工作主要是做OCR识别的相关工作。当时的主要思路就是分成检测+ocr识别两个步骤来实现。关键点:图像采集设备。很容易出现曝光过重的情况。文字有长,有短。文本行有倾斜,旋转的情况,对检测部分就需要支持旋转文本检测同时在很多OCR识别场景中是比较简单的。比如车牌识别,在这个任务中:1. 检测部分目标较少。一个场景中最多只有几张车牌。2. 识别部分相对来说...
文章目录IncepText: A New Inception-Text Module with Deformable PSROI Pooling for Multi-Oriented Scene Text Detection先来张图片,这是最近最好的算法。IncepText: A New Inception-Text Module with Deformable PSROI Pooling ...
地址:Task 1 - Text Localization图:FOTS还是前排的存在
ocr标注工具采用python-flask框架开发图像标注工具,主要思路是在标注的过程中先调用百度/阿里等免费的api进行标注,并进行人工的验证或目标矩形框的修正,同时支持单张图片多个目标的标注。整理想法很简单,但是实现起来还是很麻烦的。大概用了2周的时间(而且是在开源项目上修改来的)。原特点B/S方式交互支持多人同时标注(可分配不同标注人员的标注范围,或不同人员标注不同类别)类别采用...
主要思路: 将attention和ctc两种方式进行融合,利用attention对ctc的对齐进行监督和引导,同时,在ctc分支中加入GCN图卷积神经网络提高模型表达能力。 简介 为了克服CTC的局限性,我们必须两个动机:(1)学习更好的特征表示从更有效的引导和(2)建立label和局部特征的联系。模型模型示意图如下所示:来自强大网络的编码器可以学习更好的对齐和特征表示,其中的特征映射更容易解码
思路: 这篇论文采用矫正再识别的思路进行文字识别,主要有矫正网络和识别网络两大部分,其中矫正网络采用TPS的思路,不过不是和tps一样直接预测2*n个关键点,而是预测中心线,然后加上一个偏置b。识别部分采用GRU实现的attention进行解码,采用了一种新的双向方式替换了aster的方法。具有更好的效果。 3. 论文方法 3.1 矫正网络 矫正网络采用了STN,关键就是如何预测STN网络的控制
类别: 文本合成来源: CVPR2020,旷视code: https://jyouhou.github.io/UnrealText/摘要: 合成数据是训练场景文本检测和识别模型的关键工具。一方面,在场景文本识别器的训练中,合成词图像已被证明是真实图像的成功替代品。然而,另一方面,场景文本检测器仍然严重依赖于大量手工注释的真实世界图像,这是非常昂贵的。在本文中,我们介绍了一种有效的图像合成方法...
下载地址:https://arxiv.org/pdf/1912.12422.pdfcoming soon…
地址: Word Recognition部分sample识别这块算法相对检测就要少一些了,开源的论文也不多。
文章目录摘要1. 网络结构2. 结果摘要深度学习用于文字识别现在在一些场景中已经很成熟了,主要就是分为CTC和attention两种方案。现在基于attention的方...
项目地址: https://github.com/chenjun2hao/Bert_OCR.pytorchUnofficial PyTorch implementation of the paper, which transforms the irregular text with 2D layout to character sequence directly via 2D attention...
原理解读参考:2D Attention Network for Scene Text Recognition个人复现的代码:Bert_OCR.pytorch
ocr标注工具提供预训练模型的标注结果采用python-flask框架开发图像标注工具,主要思路是在标注的过程中先调用百度/阿里等免费的api进行标注,并进行人工的验证或目标矩形框的修正,同时支持单张图片多个目标的标注。整理想法很简单,但是实现起来还是很麻烦的。大概用了2周的时间(而且是在开源项目上修改来的)。原特点B/S方式交互支持多人同时标注(可分配不同标注人员的标注范围,或不同人...
Reference高大上的动图对数域的计算log_add【Learning Notes】CTC 原理及实现
摘要:文字识别方法在不规则文本识别上,多采用attention的方式,但是采用自回归模型的attention容易存在attention对齐的问题。文章提出了一个 a decoupled attention network (DAN)网络。其主要由:1.特征采集器;2.一个卷积对齐模块,根据编码器的输出进行特征对齐;3.一种解耦的文本解码器,通过联合使用特征图和注意图进行最终预测 介绍 atten
1. 环境这里新建了一个conda环境用于测试,官方推荐采用docker# 1. 新建conda环境conda create -n paddleocr python==3.7# 2. 安装paddle1.7.2python3 -m pip install paddlepaddle-gpu==1.7.2.post107
论文地址: https://arxiv.org/pdf/2009.10874.pdf摘要近年来,基于自注意的场景文本识别方法受到Transformer的启发,取得了优异的性能。但是,我们发现模型的尺寸随着词汇量的增加而迅速增大。其中,softmax分类层和输出嵌入层的参数数量与词汇量大小成正比。它阻碍了轻量
描述电表读数识别的时候,需要进行读数区域的检测。在PC上用什么方法都可以因为没有硬件限制。在移动端/终端的时候,因为硬件的限制无法用深度学习,可以尝试图像处理的模板匹配。模板图片测试图片code# -*- coding:utf-8 -*-__author__ = 'yibao2hao' import cv2import numpy as npfrom matplotlib ...
3.2 文字识别部分采用RoIRotate将文字区域输出为固定高度,不同长度的图片,并保持长宽比不变。示意图如下:同时这里采用的是双线性插值方式实现的(有点像roi align)。同时论文提到将特征映射填充到最大宽度,在损失函数中忽略填充部分。此外,不像图像分类,文字识别对检测结果非常敏感,一点的检测误差就会切掉几个像素,这对识别网络是非常有害的。所以训练的时候用的是标注数据;测试...
文章目录摘要1. 介绍3. 提出的方法3.1 整体框架3.2 网络设计3.3 渐进式尺度扩展算法3.4 目标标签3.5 损失函数4. 实验摘要1. 介绍PSENet的优势有:基于分割的办法,能检测任意形状的文字提出了一种渐进扩张算法,能有效分割位置很近的文本每个文本实例(目标区域)有多个预测的分割实例(如何整合得到输出的?)为了得到最后的文本区域采用了Breadth-Fir...
文章目录摘要介绍相关工作提出的方法3.1 overview3.2 Inception-Text3.3 deformable PSPOI Pooling3.4 标签和损失函数实验摘要介绍文本检测的难点是有多种变化的场景:如街景,邮局,室内等,还有各种各样的前景文字和背景物体,各种光亮、模糊和方向。文字检测算法的发展传统特征方法:MSER(2010),FASText(2015)基...
文章目录1. 简介2. 相关工作3. 方法1. 简介EAST的问题:问题是,找到一个合适的排序规则来避免由点的序列引起的学习混淆(LC)并非易事基于这一问题,本文提出了一个简单的但是有效的方法称为无顺序盒离散化(SBD),它可以将边界框参数化为键边缘。主要观点是找到与标签无关的至少四个不变点(例如,对角线的平均中心点和交点)我们可以用这些不变点来求反向推导边界框坐标。实验部分显示比现...
文章目录摘要1.简介2. 相关工作4. 实验4.1 场景文字识别4.1.3 实验结果摘要1.简介最近出现的CTC[13]和注意机制[1]通过绕过输入图像与其对应标签序列之间的先验对齐,显著缓解了这种顺序训练问题。但是CTC有大量的计算消耗,此外,CTC很难处理2D的序列问题。attention需要额外的标签和计算消耗,同时很难从零开始学习,此外attention对长序列的效果不好...
不同样式的字体竖直的文本特殊的字符,如符号等曝光或被遮蔽低分辨率标注有问题的
用于数据标注,一天200次以内是免费的。1. 获取access_token在百度大脑上新建应用,在管理应用中获得API Key和Secret Key,得到access_token修改以下的对应位置,获得access_token.# import requests # # client_id 为官网获取的AK, client_secret 为官网获取的SK# host = 'https...
首先,提出了一种新的文本交换网络来代替前景图像中的文本标签。其次,学习背景补全网络来重建背景图像。最后,利用所生成的前景图像和背景图像,通过融合网络...
Copyright © 2005-2025 51CTO.COM 版权所有 京ICP证060544号