您现在的位置是:首页 > 文章详情

IBM 发布 Granite-Docling-258M:开源企业级文档 AI 模型

日期:2025-09-18点击:10

IBM 正式发布了 Granite-Docling-258M,这是一个开源的视觉语言模型,专为端到端文档转换而设计。与传统的 OCR(光学字符识别)技术相比,Granite-Docling 注重保持文档的布局信息,能够有效提取表格、代码、公式、列表、标题等元素,并输出结构化的机器可读格式,而非简化的 Markdown 格式。

Granite-Docling 是 SmolDocling-256M 的改进版。IBM 对原有的技术架构进行了优化,采用了 Granite165M 语言模型,并升级了视觉编码器为 SigLIP2,同时保持了 Idefics3风格的连接器。

这一系列更新使得 Granite-Docling 的参数量达到了258M,并在布局分析、全页 OCR、代码、公式及表格的精确度上都有显著提升。此外,IBM 还解决了在预览模型中发现的不稳定性问题,如重复令牌循环现象。

Granite-Docling 采用了基于 Idefics3的架构,使用了 nanoVLM 训练框架。其输出的 DocTags 是 IBM 开发的一种标记语言,能够清晰地表示文档结构,包括元素、坐标和关系,方便后续工具将其转换为 Markdown、HTML 或 JSON 格式。这种结构化的输出方式,不仅保持了表格拓扑、数学公式、代码块及标题的顺序,还提高了数据索引的质量和增强了检索能力。

在多语言支持方面,Granite-Docling 首次增加了对日语、阿拉伯语和中文的实验性支持,但目前以英语为主要目标。IBM 建议用户将 Granite-Docling 与 Docling 集成,利用其 CLI/SDK 自动转换 PDF、办公文档及图片至多种格式。这款模型能够在 Transformers、vLLM、ONNX 和 MLX 等运行环境中流畅运行,特别为 Apple Silicon 进行了优化。

原文链接:https://www.oschina.net/news/372918
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章