PaddleOCR详细实现流程
- 快速安装(Windows版)
- 1安装PaddlePaddle
- 2克隆PaddleOCR repo代码
- 3安装第三方库
- 文本检测
- 1数据准备
- 2启动训练
- 3指标评估
- 4测试检测效果
- 文本识别
- 1数据准备
- 2启动训练
- 3评估
- 4预测
快速安装(Windows版)
1安装PaddlePaddle
如果您的机器是CPU,请运行以下命令安装:
python -m pip install paddlepaddle -i https://mirror.baidu.com/pypi/simple
如果您的机器安装的是CUDA,因版本不同则具体安装命令不同,详细请参考官网安装链接:
https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/install/pip/windows-pip.html
2克隆PaddleOCR repo代码
【推荐】git clone https://github.com/PaddlePaddle/PaddleOCR 如果因为网络问题无法pull成功,也可选择使用码云上的托管:git clone https://gitee.com/paddlepaddle/PaddleOCR
注:码云托管代码可能无法实时同步本github项目更新,存在3~5天延时,请优先使用推荐方式。
3安装第三方库
cd PaddleOCR
pip install -r requirements.txt
若报错则尝试使用pip install xxx对各个包进行逐一安装)
注意,windows环境下,建议从https://www.lfd.uci.edu/~gohlke/pythonlibs/下载shapely安装包完成安装, 直接通过pip安装的shapely库可能出现[winRrror 126] 找不到指定模块的问题。
文本检测
1数据准备
以使用icdar2015数据集为例(来源https://pan.baidu.com/s/12cPnZcVuV1zn5DOd4mqjVw#list/path=%2F 提取码:2bpi),将下载到的数据集解压到工作目录下,假设解压在 PaddleOCR/train_data/ 下,train_data目录为自己新建,则此目录下应包含两个文件夹和两个文件:
2启动训练
首先下载模型backbone的pretrain model,PaddleOCR的检测模型目前支持两种backbone,分别是MobileNetV3、ResNet_vd系列, 可以根据需求使用PaddleClas中的模型更换backbone, 对应的backbone预训练模型可以从https://gitee.com/paddlepaddle/PaddleOCR/blob/release/2.1/doc/doc_ch/algorithm_overview.md 主页中找到下载链接。
以下载最后一个为例:会下载得到 ,并将其解压,然后将此文件夹名改为pretrain_models,将其置于PaddleOCR下,应与train_data位于同级目录,如下:
此外重要的步骤,因为安装的是cpu版本,需要修改configs/det/det_r50_vd_sast_icdar15.yml配置文件,将配置文件中的 use_gpu 字段修改为false. 此外还有其它几个需要修改的参数还应做出如下修改:
其中箭头所指处可微调。
修改好配置文件后运行如下语句就可以启动训练了:
python tools/train.py -c configs/det/det_r50_vd_sast_icdar15.yml -o Global.pretrain_weights=./pretrain_models/ResNet50_vd_ssld_pretrained/best_accuracy
或者
python tools/train.py -c configs/det/det_r50_vd_sast_icdar15.yml -o Optimizer.base_lr=0.0001
3指标评估
根据配置文件det_r50_vd_sast_icdar15.yml中save_res_path指定的测试集检测结果文件,计算评估指标。评估时设置后处理参数box_thresh=0.5,unclip_ratio=1.5,使用不同数据集、不同模型训练,可调整这两个参数进行优化。训练中模型参数默认保存在Global.save_model_dir目录下。在评估指标时,需要设置Global.checkpoints指向保存的参数文件。
运行如下评估命令:
python tools/eval.py -c configs/det/det_r50_vd_sast_icdar15.yml -o Global.checkpoints="./output/sast_r50_vd_ic15/latest" PostProcess.box_thresh=0.5 PostProcess.unclip_ratio=1.5
注:box_thresh、unclip_ratio是DB后处理所需要的参数,在评估EAST模型时不需要设置。
4测试检测效果
测试文件夹下所有图像的检测效果:
python tools/infer_det.py -c configs/det/det_r50_vd_sast_icdar15.yml -o Global.infer_img="./doc/imgs_en/" Global.pretrained_model="./output/sast_r50_vd_ic15/latest"
文本识别
1数据准备
此部分依然使用icdar2015数据集,注意与文本检测部分数据集不同。下载来源:https://rrc.cvc.uab.es/?ch=4&com=downloads 首次登录需注册。
训练集、测试集以及标签都应放在train_data目录下,此外应格外注意,官网上下载的数据集标签文件中文件名与内容之间是用“ ”而不是“\t”分割的,且有“,”和“”””,应将其去掉且转换为“\t”分割,可借助于excel分列进行转换,此外转换后的标签txt文件编码格式应为“UTF-8”,正确的格式见右上图。
2启动训练
下载预训练模型,以最后一个SRN为例:下载完成后将其解压在pretrain_models目录下。
配置文件以configs/rec/rec_icdar15_train.yml为例,需做出以下修改:
然后运行以下命令开始训练:
python tools/train.py -c configs/rec/rec_icdar15_train.yml
3评估
python tools/eval.py -c configs/rec/rec_icdar15_train.yml -o Global.checkpoints=./output/rec/ic15/latest
4预测
使用 PaddleOCR 训练好的模型,可以通过以下脚本进行快速预测。预测使用的配置文件必须与训练一致,使用如下命令进行英文模型预测,默认预测图片存储在 infer_img 里,通过 -o Global.checkpoints 指定权重:
python tools/infer_rec.py -c configs/rec/rec_icdar15_train.yml -o Global.pretrained_model=./output/rec/ic15/latest Global.load_static_weights=false Global.infer_img=doc/imgs_words/en/word_1.png