小红书开源基于 VLM 的文档解析模型 dots.ocr-低调大师

小红书开源基于 VLM 的文档解析模型 dots.ocr

2025-08-05 379

小红书发布并开源了 dots.ocr，这是一款基于视觉语言模型（VLM）的文档解析模型，支持多语言识别、布局检测与内容识别的一体化处理。

据介绍，dots.ocr 在单一的视觉语言模型中统一了布局检测和内容识别，同时能保持良好的阅读顺序。尽管其基础仅是一个 17 亿参数的” 小模型 “，但依然在多个 benchmark 上获得了匹配超大参数量闭源模型的业界领先（SOTA）性能。

模型亮点

在 OmniDocBench 上，在文本、表格、阅读顺序三项任务中均取得 SOTA 表现
支持中文、英文及多种小语种，填补开源社区在多语言文档解析领域的空白
通过更换 prompt 可灵活切换任务，省去了多模型流水线的复杂设计
检测能力可媲美 YOLO 类模型
基于 1.7B 参数构建，推理速度优于多种更大规模的 VLM 方案

目前 dots.ocr 已在 GitHub 和 Hugging Face 正式开源。

GitHub：https://github.com/rednote-hilab/dots.ocr
Hugging Face：https://huggingface.co/rednote-hilab/dots.ocr 
Demo：https://dotsocr.xiaohongshu.com/

微信关注我们

原文链接：https://www.oschina.net/news/364391

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

全球首个人形机器人 3D 视觉系统诞生

北京人形机器人创新中心近日宣布推出名为"Humanoid Occupancy"的革命性视觉感知系统，这项技术被业界认为是人形机器人环境理解能力的重大突破。长期以来，机器人感知系统面临着严峻挑战。现有的感知技术大多只能适应单一或特定场景，当面对复杂多变的真实环境时，往往表现不佳。更为严重的是，许多系统无法有效整合来自不同传感器的数据，导致大量有价值的环境信息被浪费，甚至出现感知盲区，这直接影响了机器人的移动、导航和操作精度。 "Humanoid Occupancy"系统的核心创新在于引入了语义占用表征技术。该技术能够对三维空间进行精细化建模，通过体素单元直接描述每个空间位置的占用状态和物体类别信息。与传统的鸟瞰图表征方式相比，这种方法能够提供更加立体和全面的环境信息。该系统展现出三大技术优势。在空间信息处理方面，系统实现了对三维环境的完整编码，每个空间单元都能被准确识别和分类。在数据融合层面，语义占用表征天然支持多模态传感器协同工作，能够将RGB摄像头、深度传感器、激光雷达等设备采集的数据进行统一处理和分析。在系统架构上，研发团队通过优化传感器配置、构建专门的全景占用感知数据集，并设...

2025-08-05

280

一. 前言丨1. 行业背景在现代播放器架构中，音频后处理已不仅是锦上添花的功能，而是构建差异化听觉体验的关键组件。尤其在多样化的播放场景（手机外放、耳机、电视音响等）下，通过定制化的音效增强手段，有效提升听感表现已成为基础能力之一。丨2. 本文概览本系列文章将系统介绍我们在播放器音频后处理模块中的技术方案与工程实现，主要面向音视频方向的开发者。我们主要基于 FFmpeg的音频滤镜框架，结合自定义模块，构建了一套可扩展、高性能、易适配的音效处理链路。第一期内容聚焦在两项核心基础音效：重低音：通过构建低通滤波器与动态增益控制逻辑，增强低频段表现，适配小型设备下的听感优化清晰人声：结合频段增强、人声掩码与背景音抑制技术，有效提升对白清晰度，在嘈杂或背景音复杂的场景下保持语音主干突出我们将分享上述音效的整体处理流程、关键滤镜链搭建方式、滤波器设计细节，以及如何在保证延迟与功耗可控的前提下，通过 FFmpeg 的 af（audio filter）机制灵活插拔各类处理节点。希望本系列文章能为你提供实用的技术参考，也欢迎有 FFmpeg 或音效处理相关实践经验的开发者交流碰撞，共同...

2025-08-05

319

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。