Tesseract Ocr文字识别
Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于Google对Tesseract进行改进、消除Bug、优化工作。Tesseract目前已作为开源项目发布在Google Project.
运行环境:
windows10 + python 3.6 + tesseract 4.0.0-beta.1
先看效果:
一、安装python模块
pip3 install pytesseract
二、安装tesseract orc
下载地址:https://github.com/UB-Mannheim/tesseract/wiki 点击“tesseract-ocr-w64-setup-v4.0.0-beta.1.20180414.exe”下载安装。
注意:安装的时候选中中文包。
本人安装目录:C:\Users\Administrator\AppData\Local\Tesseract-OCR
使用命令,查看版本号和支持语言:
cd C:\Users\Administrator\AppData\Local\Tesseract-OCR tesseract -v tesseract --list-langs #查看Tesseract-OCR支持语言
三、配置tesseract运行文件
C:\Python36\Lib\site-packages\pytesseract\pytesseract.py 找到文件:
tesseract_cmd = 'tesseract'
修改为:
tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'
四、代码识别
from PIL import Image import pytesseract path = "img\\text-img.png" text = pytesseract.image_to_string(Image.open(path), lang='chi_sim') print(text)
作为非常优秀的Ocr识别库,tesseract当然可以训练自己的数据模型,从而达到为我所用目的,后续文字会介绍如果训练自己的文字识别库。
联系邮箱:intdb@qq.com
我的GitHub: https://github.com/vipstone
作者: 王磊
出处: http://vipstone.cnblogs.com/
本文版权归作者和博客园共有,欢迎转载,请标明出处。
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
Github Pages + Hexo搭建个人博客
Github Pages +Hexo搭建个人博客 之前在简书上写东西,觉得自己还是太浮躁。本来打算用Flask自己写一个,以为是微框架就比较简单,naive。HTML、CSS、JS等都要学啊,我几乎没有这方面的基础,写到Web表单那儿果断弃了,转向简单的Hexo + Github Pages。不过要想搭建博客的同时巩固Python,Flask确实是一个不错的选择。 获取Github Pages 去Github官网注册账号 新建一个repo,注意名称一定是your_username.github.io这样的格式。 比如你的用户名为zhangsan,Repository name里面就填上zhangsan.github.io 进入刚新建的仓库,点击Setting,一直拖到最下面,选择Automatic Page Generator,随便选个主题然后发布即可。 详细步骤见这个博客 Hexo搭建静态博客 hexo是一款基于Node.js的静态博客框架,Github官方推荐的是Jekyll。对比了下,大多认为hexo比较简单,于是我选择了它。我们需要安装如下软件 Node.js Github f...
- 下一篇
JAVA重拾1
java的运行过程实质? 源代码被编译然后被解释成机器语言 源代码--->编译器--->字节码--->解释器---机器码 .java--->Compiler--->.class--->Interpreter---Machine code 生米--->锅--->熟饭--->筷子---品尝 Compiler+Interpreter构成JVM虚拟机的基本功能 静下来分析可以发现java的整个运行过程只是把生米用锅煮成熟饭最后用筷子吃 源代码就是生米(没有正常人会把生米拿来吃吧?) 编译器就是锅(有各种型号的锅,但目的都一样:加工食材) 字节码就是熟饭(熟饭还是要用工具来进食的) 解释器就是筷子(就像有些人只食口前饭) 机器码就是品尝过程了 整个过程JVM负责2次转译,可以看出效率并不高,但是正是因为他的存在才让JAVA可以一次编写,随处可用 提一个不专业的疑问: 可否将JVM看成给每个平台都是定制的,而程序是一个相对单一的,这一点貌似在hibernate框架的多对多映 射中有相似处
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- SpringBoot2配置默认Tomcat设置,开启更多高级功能
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- CentOS8编译安装MySQL8.0.19
- CentOS7设置SWAP分区,小内存服务器的救世主
- Jdk安装(Linux,MacOS,Windows),包含三大操作系统的最全安装