您现在的位置是:首页 > 文章详情

小红书开源基于 VLM 的文档解析模型 dots.ocr

日期:2025-08-05点击:43

小红书发布并开源了 dots.ocr,这是一款基于视觉语言模型(VLM)的文档解析模型,支持多语言识别、布局检测与内容识别的一体化处理。

据介绍,dots.ocr 在单一的视觉语言模型中统一了布局检测和内容识别,同时能保持良好的阅读顺序。尽管其基础仅是一个 17 亿参数的” 小模型 “,但依然在多个 benchmark 上获得了匹配超大参数量闭源模型的业界领先(SOTA)性能。

模型亮点

  • 在 OmniDocBench 上,在文本、表格、阅读顺序三项任务中均取得 SOTA 表现
  • 支持中文、英文及多种小语种,填补开源社区在多语言文档解析领域的空白
  • 通过更换 prompt 可灵活切换任务,省去了多模型流水线的复杂设计
  • 检测能力可媲美 YOLO 类模型
  • 基于 1.7B 参数构建,推理速度优于多种更大规模的 VLM 方案

目前 dots.ocr 已在 GitHub 和 Hugging Face 正式开源。

GitHub:https://github.com/rednote-hilab/dots.ocr
Hugging Face:https://huggingface.co/rednote-hilab/dots.ocr
Demo:https://dotsocr.xiaohongshu.com/

原文链接:https://www.oschina.net/news/364391
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章