Tesseract 5.0 发布,开源 OCR 引擎
Tesseract 是一个最初由惠普公司开发的 OCR 引擎,并于 2005 年开源,Google 在第二年接管了项目的大部分开发工作。
Tesseract 5.0 发布,更新内容如下:
- 原生支持 Apple Silicon
- 默认情况下,训练和识别速度更快;
- 更多的二值化选项
- 改进了对 ARM NEON 的支持
- 现代化的代码
- 从公共 API 中删除了专有数据类型,如 GenericVector 和 STRING
- 不再需要 pdf.ttf,现在集成到了代码中
- 使用 automake 更快地进行平面构建
- combine_tessdata 的新选项可以显示 traineddata 文件的细节
- 改进了训练信息
- 改进了单元测试和模糊测试
- 大量的错误修正
更多详情可查看:https://github.com/tesseract-ocr/tesseract/releases/tag/5.0.0