小红书开源基于 VLM 的文档解析模型 dots.ocr
小红书发布并开源了 dots.ocr,这是一款基于视觉语言模型(VLM)的文档解析模型,支持多语言识别、布局检测与内容识别的一体化处理。
据介绍,dots.ocr 在单一的视觉语言模型中统一了布局检测和内容识别,同时能保持良好的阅读顺序。尽管其基础仅是一个 17 亿参数的” 小模型 “,但依然在多个 benchmark 上获得了匹配超大参数量闭源模型的业界领先(SOTA)性能。
模型亮点
- 在 OmniDocBench 上,在文本、表格、阅读顺序三项任务中均取得 SOTA 表现
- 支持中文、英文及多种小语种,填补开源社区在多语言文档解析领域的空白
- 通过更换 prompt 可灵活切换任务,省去了多模型流水线的复杂设计
- 检测能力可媲美 YOLO 类模型
- 基于 1.7B 参数构建,推理速度优于多种更大规模的 VLM 方案
目前 dots.ocr 已在 GitHub 和 Hugging Face 正式开源。
GitHub:https://github.com/rednote-hilab/dots.ocr
Hugging Face:https://huggingface.co/rednote-hilab/dots.ocr
Demo:https://dotsocr.xiaohongshu.com/

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
全球首个人形机器人 3D 视觉系统诞生
北京人形机器人创新中心近日宣布推出名为"Humanoid Occupancy"的革命性视觉感知系统,这项技术被业界认为是人形机器人环境理解能力的重大突破。 长期以来,机器人感知系统面临着严峻挑战。现有的感知技术大多只能适应单一或特定场景,当面对复杂多变的真实环境时,往往表现不佳。更为严重的是,许多系统无法有效整合来自不同传感器的数据,导致大量有价值的环境信息被浪费,甚至出现感知盲区,这直接影响了机器人的移动、导航和操作精度。 "Humanoid Occupancy"系统的核心创新在于引入了语义占用表征技术。该技术能够对三维空间进行精细化建模,通过体素单元直接描述每个空间位置的占用状态和物体类别信息。与传统的鸟瞰图表征方式相比,这种方法能够提供更加立体和全面的环境信息。 该系统展现出三大技术优势。在空间信息处理方面,系统实现了对三维环境的完整编码,每个空间单元都能被准确识别和分类。在数据融合层面,语义占用表征天然支持多模态传感器协同工作,能够将RGB摄像头、深度传感器、激光雷达等设备采集的数据进行统一处理和分析。在系统架构上,研发团队通过优化传感器配置、构建专门的全景占用感知数据集,并设...
- 下一篇
播放器音频后处理实践(一)
一. 前言 丨1. 行业背景 在现代播放器架构中,音频后处理已不仅是锦上添花的功能,而是构建差异化听觉体验的关键组件。尤其在多样化的播放场景(手机外放、耳机、电视音响等)下,通过定制化的音效增强手段,有效提升听感表现已成为基础能力之一。 丨2. 本文概览 本系列文章将系统介绍我们在播放器音频后处理模块中的技术方案与工程实现,主要面向音视频方向的开发者。我们主要基于 FFmpeg的音频滤镜框架,结合自定义模块,构建了一套可扩展、高性能、易适配的音效处理链路。 第一期内容聚焦在两项核心基础音效: 重低音:通过构建低通滤波器与动态增益控制逻辑,增强低频段表现,适配小型设备下的听感优化 清晰人声:结合频段增强、人声掩码与背景音抑制技术,有效提升对白清晰度,在嘈杂或背景音复杂的场景下保持语音主干突出 我们将分享上述音效的整体处理流程、关键滤镜链搭建方式、滤波器设计细节,以及如何在保证延迟与功耗可控的前提下,通过 FFmpeg 的 af(audio filter)机制灵活插拔各类处理节点。 希望本系列文章能为你提供实用的技术参考,也欢迎有 FFmpeg 或音效处理相关实践经验的开发者交流碰撞,共同...
相关文章
文章评论
共有0条评论来说两句吧...