百度 PaddleOCR 累计下载量突破 900 万,被超 5.9k 开源项目使用
近日,百度在海外官方账号介绍了最新轻量级文字识别模型 PP-OCRv5。该模型仅0.07B参数,以千分之一参数量实现与700亿参数大模型相媲美的OCR精度。在多项 OCR 场景测试中,PP-OCRv5 的表现超越GPT-4o、Qwen2.5-VL-72B等通用视觉大模型。最新信息显示,飞桨团队发布的技术Blog已连续一周登顶Hugging Face博客热度榜首,受到开发者社区的广泛关注。
据了解,2025年5月,飞桨团队推出PaddleOCR 3.0版本,文字识别方案PP-OCRv5与通用文档解析方案PP-StructureV3,以及原生支持文心大模型4.5的智能文档理解方案PP-ChatOCRv4共同构成其三大特色能力。自2020年开源以来,PaddleOCR累计下载量突破900万,被超过5.9k开源项目直接或间接使用,是GitHub 社区中唯一一个 Star数超过50k的中国OCR项目。
关注公众号
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
中文互联网基础语料 3.0 发布,数据量高达120GB
中文互联网基础语料3.0正式发布。这一新版本的数据量达到了惊人的120GB,旨在为大模型训练和人工智能的进一步发展提供可靠的数据支持。 中文互联网基础语料3.0的发布,是在中央网信办的指导下,由中国网络空间安全协会与国家互联网应急中心等单位协同合作的成果。 此次语料的开发与构建,得益于企业、高校和科研单位之间的紧密合作,充分利用了网安协会人工智能安全治理专委会建立的语料共建共享机制。与前两版相比,3.0版本在信源范围上进行了扩大,进一步提升了数据的质量。 在数据处理方面,语料3.0经过了严格的信源筛选、内容过滤和数据去重等一系列细致的加工处理措施。这些措施确保了发布的数据更加可信,有助于过滤掉违法和不良信息,为人工智能的研究和应用提供一个更为健康的环境。 用户可以通过登录中国网络空间安全协会网站,点击 “中文互联网语料资源平台” 链接,注册并认证后下载相关语料。该负责人表示,中文互联网基础语料3.0的推出标志着各界对高质量中文语料的共同努力与成果,未来还将继续加强中文互联网基础语料的建设,以支撑人工智能技术的创新与产业发展。
-
下一篇
用 Python 代码给微信“去重瘦身”?工程师回应:非常粗暴,可能导致文件打不开
近日有网友分享了一段能帮助微信“去重瘦身”的 Python 代码,专门针对微信“每一次转发都会重新保存一份”的情况,删除重复的文件,称能搞定微信这个易胖体质。 微信员工 @客村小蒋 今日转发了该消息,并表示“非常不建议这么做,没用,而且可能带来不好的后果”。 1)微信并没有对多次转发的同一个文件重复存储,电脑里看到的同文件名加 (1)、(2),是硬链接,实际只有一份真实存储; 2)这里的代码,是通过名字重复来判断,非常粗暴,删除之后,可能导致原来消息打不开,还存在误删可能性
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS8编译安装MySQL8.0.19
- SpringBoot2全家桶,快速入门学习开发网站教程
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS8,CentOS7,CentOS6编译安装Redis5.0.7
- CentOS关闭SELinux安全模块
- SpringBoot2整合MyBatis,连接MySql数据库做增删改查操作
- MySQL数据库在高并发下的优化方案
- SpringBoot2整合Thymeleaf,官方推荐html解决方案
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池



微信收款码
支付宝收款码