PaddleOCR详细实现流程

  • 快速安装(Windows版)
  • 1安装PaddlePaddle
  • 2克隆PaddleOCR repo代码
  • 3安装第三方库
  • 文本检测
  • 1数据准备
  • 2启动训练
  • 3指标评估
  • 4测试检测效果
  • 文本识别
  • 1数据准备
  • 2启动训练
  • 3评估
  • 4预测


快速安装(Windows版)

1安装PaddlePaddle

如果您的机器是CPU,请运行以下命令安装:
python -m pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple

如果您的机器安装的是CUDA,因版本不同则具体安装命令不同,详细请参考官网安装链接:
https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/install/pip/windows-pip.html

2克隆PaddleOCR repo代码

【推荐】git clone https://github.com/PaddlePaddle/PaddleOCR 如果因为网络问题无法pull成功,也可选择使用码云上的托管:git clone https://gitee.com/paddlepaddle/PaddleOCR
注:码云托管代码可能无法实时同步本github项目更新,存在3~5天延时,请优先使用推荐方式。

3安装第三方库

cd PaddleOCR
pip install -r requirements.txt

若报错则尝试使用pip install xxx对各个包进行逐一安装)
注意,windows环境下,建议从https://www.lfd.uci.edu/~gohlke/pythonlibs/下载shapely安装包完成安装, 直接通过pip安装的shapely库可能出现[winRrror 126] 找不到指定模块的问题。

文本检测

1数据准备

以使用icdar2015数据集为例(来源https://pan.baidu.com/s/12cPnZcVuV1zn5DOd4mqjVw#list/path=%2F 提取码:2bpi),将下载到的数据集解压到工作目录下,假设解压在 PaddleOCR/train_data/ 下,train_data目录为自己新建,则此目录下应包含两个文件夹和两个文件:

paddlenlp 文本分类 paddleocr文档_paddlenlp 文本分类

2启动训练

首先下载模型backbone的pretrain model,PaddleOCR的检测模型目前支持两种backbone,分别是MobileNetV3、ResNet_vd系列, 可以根据需求使用PaddleClas中的模型更换backbone, 对应的backbone预训练模型可以从https://gitee.com/paddlepaddle/PaddleOCR/blob/release/2.1/doc/doc_ch/algorithm_overview.md 主页中找到下载链接。

paddlenlp 文本分类 paddleocr文档_python_02


以下载最后一个为例:会下载得到 ,并将其解压,然后将此文件夹名改为pretrain_models,将其置于PaddleOCR下,应与train_data位于同级目录,如下:

paddlenlp 文本分类 paddleocr文档_paddlenlp 文本分类_03

此外重要的步骤,因为安装的是cpu版本,需要修改configs/det/det_r50_vd_sast_icdar15.yml配置文件,将配置文件中的 use_gpu 字段修改为false. 此外还有其它几个需要修改的参数还应做出如下修改:

paddlenlp 文本分类 paddleocr文档_python_04


paddlenlp 文本分类 paddleocr文档_paddlenlp 文本分类_05


paddlenlp 文本分类 paddleocr文档_python_06

其中箭头所指处可微调。
修改好配置文件后运行如下语句就可以启动训练了:

python tools/train.py -c configs/det/det_r50_vd_sast_icdar15.yml -o Global.pretrain_weights=./pretrain_models/ResNet50_vd_ssld_pretrained/best_accuracy

或者

python tools/train.py -c configs/det/det_r50_vd_sast_icdar15.yml -o Optimizer.base_lr=0.0001

3指标评估

根据配置文件det_r50_vd_sast_icdar15.yml中save_res_path指定的测试集检测结果文件,计算评估指标。评估时设置后处理参数box_thresh=0.5,unclip_ratio=1.5,使用不同数据集、不同模型训练,可调整这两个参数进行优化。训练中模型参数默认保存在Global.save_model_dir目录下。在评估指标时,需要设置Global.checkpoints指向保存的参数文件。
运行如下评估命令:

python tools/eval.py -c configs/det/det_r50_vd_sast_icdar15.yml  -o Global.checkpoints="./output/sast_r50_vd_ic15/latest" PostProcess.box_thresh=0.5 PostProcess.unclip_ratio=1.5

注:box_thresh、unclip_ratio是DB后处理所需要的参数,在评估EAST模型时不需要设置。

4测试检测效果

测试文件夹下所有图像的检测效果:

python tools/infer_det.py -c configs/det/det_r50_vd_sast_icdar15.yml -o Global.infer_img="./doc/imgs_en/" Global.pretrained_model="./output/sast_r50_vd_ic15/latest"

文本识别

1数据准备

此部分依然使用icdar2015数据集,注意与文本检测部分数据集不同。下载来源:https://rrc.cvc.uab.es/?ch=4&com=downloads 首次登录需注册。

paddlenlp 文本分类 paddleocr文档_深度学习_07


paddlenlp 文本分类 paddleocr文档_计算机视觉_08


训练集、测试集以及标签都应放在train_data目录下,此外应格外注意,官网上下载的数据集标签文件中文件名与内容之间是用“ ”而不是“\t”分割的,且有“,”和“”””,应将其去掉且转换为“\t”分割,可借助于excel分列进行转换,此外转换后的标签txt文件编码格式应为“UTF-8”,正确的格式见右上图。

2启动训练

paddlenlp 文本分类 paddleocr文档_python_09


下载预训练模型,以最后一个SRN为例:下载完成后将其解压在pretrain_models目录下。

配置文件以configs/rec/rec_icdar15_train.yml为例,需做出以下修改:

paddlenlp 文本分类 paddleocr文档_paddlenlp 文本分类_10

paddlenlp 文本分类 paddleocr文档_深度学习_11

paddlenlp 文本分类 paddleocr文档_paddlenlp 文本分类_12


paddlenlp 文本分类 paddleocr文档_paddlenlp 文本分类_13


然后运行以下命令开始训练:

python tools/train.py -c configs/rec/rec_icdar15_train.yml

3评估

python tools/eval.py -c configs/rec/rec_icdar15_train.yml -o Global.checkpoints=./output/rec/ic15/latest

4预测

使用 PaddleOCR 训练好的模型,可以通过以下脚本进行快速预测。预测使用的配置文件必须与训练一致,使用如下命令进行英文模型预测,默认预测图片存储在 infer_img 里,通过 -o Global.checkpoints 指定权重:

python tools/infer_rec.py -c configs/rec/rec_icdar15_train.yml -o Global.pretrained_model=./output/rec/ic15/latest Global.load_static_weights=false Global.infer_img=doc/imgs_words/en/word_1.png