这个教程也是从其他多篇文章综合起来,然后写的更详细。
Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。
然而,HP不久便决定放弃OCR业务,Tesseract也从此尘封。
数年以后,HP意识到,与其将Tesseract束之高阁,不如贡献给开源软件业,让其重焕新生--2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于Google对Tesseract进行改进、消除Bug、优化工作。
1、安装依赖包
依赖包一共包括: autoconf、automake、 libtool、 libjpeg、 libpng、 libtiff、 zlib、 libjpeg-devel、 libpng-devel、 libtiff-devel、 zlib-devel、
1.1 检查系统是否存在该依赖包
以autoconf为例:
rpm -qa |grep autoconf
如果返回为空,则需要安装,否则无需安装
除了依赖包外,还有一些编译软件如gcc-c++等,这些自行去安装,就不一一介绍了,不懂得可以按之前的php的分享
2. 安装Leptonica
这里安装的是1.73版本
在这里下载: http://www.leptonica.org/download.html
我这里下载的是当前最新版,如果看过我之前的分享,这里的操作跟之前一样
下载解压
解压后按照下面图示命令安装
./configure
./make
make install
最后执行ldconfig
3. 安装Tesseract
可以在官网上下载,但在download页面上找到的是3.02及以前的版本,要装3.04怎么破?
在Tesseract主页 tesseract-ocr/tesseract 可以找到“release”,点击进去就能看到很多版本了,选择3.04下载
这里下载3.05.00,3.05.01版本有问题,我安装不行,你如果有兴趣也可以安装最新版
先退到tesseract目录下,然后用wget 命令下载
之后解压,安装,命令跟安装Leptonica基本一样,这里就不一一截图了。
需要注意的地方时,在./configure 命令前多了一个./autogen.sh命令
然后按照下面的命令行操作,就不截图了
./configure
make
make install
ldconfig
4. 安装Tesseract-OCR
首先在页面 tesseract-ocr/tessdata 下载tesseract-ocr安装包,或者在release页面找到相应的版本下载
下载并解压样本库
下载完成后,解压,然后进入解压包将所有文件拷贝到 /usr/local/share/tessdata 目录里去,按照下列图示操作即可。
tar -zxvf 3.04.00.tar.gz
cp -r tessdata-3.04.00/* /usr/local/share/tessdata
拷贝完成后,搞张图片测试下,图片是下面这样的,具体操作看下列图示
到这里基本上就完成了。
5、接下来使用php来对接接口
然后在使用php-第三方库,进入下面的地址下载
thiagoalessio/tesseract-ocr-for-php
先创建一个php-tess目录,在目录里下载、解压、测试
mkdir php-tess
cd php-tess
然后进入解压文件目录里的src目录,将之前下载的sign.jpg拷贝过来,编写一个测试文件测试下
编写代码
运行测试
bingo成功,对于php接口的时候可自行看README文件,对于tesseract更多的了解可自行查找相关资料