IBM 发布 Granite-Docling-258M:开源企业级文档 AI 模型

IBM 正式发布了 Granite-Docling-258M,这是一个开源的视觉语言模型,专为端到端文档转换而设计。与传统的 OCR(光学字符识别)技术相比,Granite-Docling 注重保持文档的布局信息,能够有效提取表格、代码、公式、列表、标题等元素,并输出结构化的机器可读格式,而非简化的 Markdown 格式。

Granite-Docling 是 SmolDocling-256M 的改进版。IBM 对原有的技术架构进行了优化,采用了 Granite165M 语言模型,并升级了视觉编码器为 SigLIP2,同时保持了 Idefics3风格的连接器。

这一系列更新使得 Granite-Docling 的参数量达到了258M,并在布局分析、全页 OCR、代码、公式及表格的精确度上都有显著提升。此外,IBM 还解决了在预览模型中发现的不稳定性问题,如重复令牌循环现象。

Granite-Docling 采用了基于 Idefics3的架构,使用了 nanoVLM 训练框架。其输出的 DocTags 是 IBM 开发的一种标记语言,能够清晰地表示文档结构,包括元素、坐标和关系,方便后续工具将其转换为 Markdown、HTML 或 JSON 格式。这种结构化的输出方式,不仅保持了表格拓扑、数学公式、代码块及标题的顺序,还提高了数据索引的质量和增强了检索能力。

在多语言支持方面,Granite-Docling 首次增加了对日语、阿拉伯语和中文的实验性支持,但目前以英语为主要目标。IBM 建议用户将 Granite-Docling 与 Docling 集成,利用其 CLI/SDK 自动转换 PDF、办公文档及图片至多种格式。这款模型能够在 Transformers、vLLM、ONNX 和 MLX 等运行环境中流畅运行,特别为 Apple Silicon 进行了优化。

优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/372918

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
Mario,低调大师唯一一个Java游戏作品

Mario,低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Apache Tomcat7、8、9(Java Web服务器)

Apache Tomcat7、8、9(Java Web服务器)

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Eclipse(集成开发环境)

Eclipse(集成开发环境)

Eclipse 是一个开放源代码的、基于Java的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。幸运的是,Eclipse 附带了一个标准的插件集,包括Java开发工具(Java Development Kit,JDK)。

Sublime Text 一个代码编辑器

Sublime Text 一个代码编辑器

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。