最近研究OCR技术实现较多,各种OCR实现方式做了一些测试和对比,针对不同的业务需要采用不同的实现方式,今天写的这个案例是利用百度AI来实现的通用OCR文字识别。实现方式非常简单,十几行代码就能搞定,但识别率如何就要看图片质量和所用字体了。

从根本上来说,OCR的技术实现有两种方式:

第一种较为简单,就是调用各个云平台提供的OCR服务来识别图片上的文字。这种实现方式的优点是简单易用,识别率较高,灵活性较弱,定制化不容易实现,但是需要上传图片信息,如果图片上包含敏感信息就有数据安全性和隐私性方面可能的问题,而正是这最后一点让很多客户对这种OCR实现方式敬谢不敏。

第二种实现起来较为复杂,就是在本地实现OCR文字识别,需要在本机安装OCR识别软件和类库——这些软件和类库可以是第三方提供的,例如Google Tesseract OCR软件和类库,也可以是自开发的机器学习基础上的OCR文字识别程序。这种实现方式的优点是数据安全性和隐私性较强,不需要上传图片信息,OCR识别完全在本地完成,效率较高,而且可定制化高(图片处理,指定字体等),灵活性较强,但是缺点就是需要在本地安装和配置OCR识别的软件或程序。识别率要看本地安装的OCR识别软件和程序的算法实现,在性能上依赖于本地硬件配置。从数据安全性和隐私性角度,客户更多倾向于这一种实现方式。

第二种OCR实现方式的案例已经写了,就是利用Google Tesseract OCR本地软件和类库来实现的OCR文字识别,具体可参考我写的一个案例(

今天这个OCR文字识别的案例是采用第一种实现方式,调用百度AI的OCR服务来实现图片上的文字识别。在百度AI平台上注册一个账号,然后就可以调用OCR服务了,每天5000次内调用免费。

从百度图片下载了一个新闻图片:

运行写的Python程序调用百度AI的OCR服务来识别这个新闻图片:

百度AI的OCR服务返回内容写入了一个文本文件:

这个案例的Python程序的源代码已经上传到github,需要的可以直接点击下载(下载前请点个赞,加个星star):

百度AI平台提供的各种人工智能服务还是非常好用的,从学习和研究人工智能的实现效果,或者用来实际处理不是敏感的信息的应用角度而言,实现起来非常简单,测试效果也非常不错。最重要的,很多服务是有免费使用次数的。

故有此文,与君分享。