百度发布新一代文字识别解决方案：PP-OCRv5-低调大师

百度发布新一代文字识别解决方案：PP-OCRv5

2025-09-12 190

百度发布了 OCR 模型 PP-OCRv5，旨在解决通用视觉语言模型（VLMs）在 OCR 领域的局限性。PP-OCRv5 作为 PP-OCR 新一代文字识别解决方案，该方案聚焦于多场景、多文字类型的文字识别。

在文字类型方面，PP-OCRv5 支持简体中文、中文拼音、繁体中文、英文、日文 5 大主流文字类型，在场景方面，PP-OCRv5 升级了中英复杂手写体、竖排文本、生僻字等多种挑战性场景的识别能力。在内部多场景复杂评估集上，PP-OCRv5 较 PP-OCRv4 端到端提升 13 个百分点。

PP-OCRv5 采用模块化两阶段流程，专为高速、精确的文本检测和识别设计。该模型更小、更高效，尤其适合资源受限硬件。

PP-OCRv5 模型架构为两阶段流水线，包含图像预处理、文本检测、文本行方向分类和文本识别四个核心组件。

该模型已在 Hugging Face 上线，用户可通过在线 Demo 测试其在处理多语言文档、手写文本和低质量扫描件时的实时精确结果。开发者可从 Hugging Face Models 下载模型，并通过安装 PaddlePaddle 和 PaddleOCR 库在本地部署使用。

https://huggingface.co/blog/baidu/ppocrv5

微信关注我们

原文链接：https://www.oschina.net/news/371783/baidu-ppocrv5

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

字节跳动联合清华大学开源统一多模态框架：HuMo

字节跳动智能创作团队联合清华大学共同开源了名为HuMo的统一 HCVG（Human-Centric Video Generation）框架。论文地址: https://arxiv.org/abs/2509.08519 Human-Centric Video Generation，即人体视频生成框架，支持文本、图像、音频三种模态协同驱动。 HuMo（意指 Human-Modal）通过构建高质量数据集和设计创新的渐进式训练范式，成功实现了对多模态输入的协同控制，在各项子任务上超越了现有的专业化方法，可输出 480P 与 720P 分辨率、最长 97 帧、25FPS 的精细可控人物视频。 HuMo 框架的核心在于其创新的数据处理流程、渐进式多模态训练范式以及灵活的推理策略。项目地址: https://phantom-video.github.io/HuMo https://github.com/phantom-video/humo

2025-09-12

173

在癌症的免疫治疗中，体内免疫细胞需接受足够强和足够多的信号，才能对癌细胞发起攻击。但狡猾的癌细胞善于伪装，表面的天然信号非常稀疏。如何精准识别癌细胞？中国科学院分子细胞科学卓越创新中心韩硕研究团队将化学生物学研究中的邻近标记技术应用于疾病治疗，通过构建一种深红光或超声波响应的工程化纳米酶，成功开发出可对癌细胞精准识别的“纳米标记机器人”。 “纳米标记机器人”工作原理示意图。（中国科学院分子细胞科学卓越创新中心供图）国际学术期刊《自然》于9月10日在线发表了相关研究论文。中国科学院分子细胞科学卓越创新中心韩硕研究员和复旦大学附属中山医院高强教授为该论文共同通讯作者。据韩硕介绍，邻近标记技术是一种强大的“分子地图”绘制技术，能在细胞的特定位置对周边环境进行催化标记。利用这一技术原理开发的“纳米标记机器人”，可搭载识别癌细胞的抗体或配体，通过血液循环富集在癌细胞的表面，再通过深红光或超声波下达指令，就可以给癌细胞打上清晰的标记，成为“人造靶标”。针对这些“人造靶标”，研究人员在实验中为小鼠注射了一种特制的BiTE分子，这种分子一方面能增强“人造靶标”标记信号，另一方面还可以激活并召集...

2025-09-12

169

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。