Tesseract Ocr文字识别-低调大师

Tesseract Ocr文字识别

2018-04-19 698

Tesseract的OCR引擎最先由HP实验室于1985年开始研发，至1995年时已经成为OCR业内最准确的三款识别引擎之一。2005年，Tesseract由美国内华达州信息技术研究所获得，并求诸于Google对Tesseract进行改进、消除Bug、优化工作。Tesseract目前已作为开源项目发布在Google Project.

运行环境：

windows10 + python 3.6 + tesseract 4.0.0-beta.1

先看效果：

一、安装python模块

pip3 install pytesseract

二、安装tesseract orc

下载地址：https://github.com/UB-Mannheim/tesseract/wiki 点击“tesseract-ocr-w64-setup-v4.0.0-beta.1.20180414.exe”下载安装。

注意：安装的时候选中中文包。

本人安装目录：C:\Users\Administrator\AppData\Local\Tesseract-OCR

使用命令，查看版本号和支持语言：

cd C:\Users\Administrator\AppData\Local\Tesseract-OCR tesseract -v tesseract --list-langs　　#查看Tesseract-OCR支持语言

三、配置tesseract运行文件

C:\Python36\Lib\site-packages\pytesseract\pytesseract.py 找到文件：

tesseract_cmd = 'tesseract'

修改为：

tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

四、代码识别

from PIL import Image
import pytesseract

path = "img\\text-img.png"

text = pytesseract.image_to_string(Image.open(path), lang='chi_sim')
print(text)

作为非常优秀的Ocr识别库，tesseract当然可以训练自己的数据模型，从而达到为我所用目的，后续文字会介绍如果训练自己的文字识别库。

如果本文对你有所帮助，请打赏——1元就足够感动我：）

联系邮箱：intdb@qq.com
我的GitHub： https://github.com/vipstone

关注公众号：

作者：王磊
出处： http://vipstone.cnblogs.com/
本文版权归作者和博客园共有，欢迎转载，请标明出处。

微信关注我们

原文链接：https://yq.aliyun.com/articles/629873

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Github Pages + Hexo搭建个人博客

Github Pages +Hexo搭建个人博客之前在简书上写东西，觉得自己还是太浮躁。本来打算用Flask自己写一个，以为是微框架就比较简单，naive。HTML、CSS、JS等都要学啊，我几乎没有这方面的基础，写到Web表单那儿果断弃了，转向简单的Hexo + Github Pages。不过要想搭建博客的同时巩固Python，Flask确实是一个不错的选择。获取Github Pages 去Github官网注册账号新建一个repo，注意名称一定是your_username.github.io这样的格式。比如你的用户名为zhangsan，Repository name里面就填上zhangsan.github.io 进入刚新建的仓库，点击Setting，一直拖到最下面，选择Automatic Page Generator，随便选个主题然后发布即可。详细步骤见这个博客 Hexo搭建静态博客 hexo是一款基于Node.js的静态博客框架，Github官方推荐的是Jekyll。对比了下，大多认为hexo比较简单，于是我选择了它。我们需要安装如下软件 Node.js Github f...

2018-04-19

704

java的运行过程实质? 源代码被编译然后被解释成机器语言源代码--->编译器--->字节码--->解释器---机器码 .java--->Compiler--->.class--->Interpreter---Machine code 生米--->锅--->熟饭--->筷子---品尝 Compiler+Interpreter构成JVM虚拟机的基本功能静下来分析可以发现java的整个运行过程只是把生米用锅煮成熟饭最后用筷子吃源代码就是生米(没有正常人会把生米拿来吃吧?) 编译器就是锅(有各种型号的锅,但目的都一样:加工食材) 字节码就是熟饭(熟饭还是要用工具来进食的) 解释器就是筷子(就像有些人只食口前饭) 机器码就是品尝过程了整个过程JVM负责2次转译,可以看出效率并不高,但是正是因为他的存在才让JAVA可以一次编写,随处可用提一个不专业的疑问: 可否将JVM看成给每个平台都是定制的,而程序是一个相对单一的,这一点貌似在hibernate框架的多对多映射中有相似处

2018-04-20

710

资源下载

更多资源

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。