这两天自学关于自我感觉很牛的图文识别系统,给你一张图片可以扫描其中的文字(是不是很牛嘿嘿!!!),以下是我在学习过程中所遇到的一点问题。先前在学习之前肯定是安装各种文件,各种包……(头痛……),查过各种版本的安装流程。其中也有好多大牛写的(大牛请之行绕道……),而我是总结一下自己的安装加理解经验。
1.安装tesseract:这个文件很是智能,我们不用为环境变量中的path发愁,安装时安装包自动设置PATH变量
然而我安装的时候由于各种原因,我的语言包安装一直出现error,所以我直接跳过安装语言,并删除该软件文件夹的tessdata(语言包),在网上直接找到语言包解压,导入……
数字,简单识别),创建一个imgname.png 图片,保存到一个文件夹,用dos 命令 输入:tesseractimgname.png imgname -l eng -psm 7 nobatch digits(imgname是自己文件的名字)
会在文件中找到一个文本文档,打开其中就有自己编写的数字。
安装pytesseract(win)
应用Fiddler获得验证码下载并用自己熟悉的语言(python)抓取网站的一系列验证码进行识别训练
2. 下载jTessBoxEditor:http://sourceforge.net/projects/vietocr/files/jTessBoxEditor/
合并图像的作用把上面我们爬取的验证码,进行合并,打包,
运行jTessBoxEditor工具
在点击菜单栏中Tools--->Merge TIFF
在弹出的对话框中选择样本图像(按Shift选择多张),合并成num.font.exp0.tif文件(注意文件名要严格一样num.font.exp0.tif)
生成Box File文件:CMD:tesseract.exe num.font.exp0.tif num.font.exp0 batch.nochop makebox
box文件的矫正:用jTessBoxEditor打开num.font.exp0.tif文件(必须将上一步生成的.box和.tif样本文件放在同一目录,并且为了方便使用我经他们和图片文件夹放到同级目录命名为左边的为img,右边的为生成的几个文件)
定义字体特征文件:在样本图片所在目录下创建一个名称为font_properties的文件,用记事本打开,输入以下下内容:font 0 0 0 0 0
注意: font_properties 和.box 一样是个文件不是其他
3.生成语言文件:调用 make_traineddata.bat
4. 复制语言文件
将生成的num.traineddata拷贝到Tesseract-OCR安装目录下的tessdata文件夹中