IBM 发布 Granite-Docling-258M:开源企业级文档 AI 模型
IBM 正式发布了 Granite-Docling-258M,这是一个开源的视觉语言模型,专为端到端文档转换而设计。与传统的 OCR(光学字符识别)技术相比,Granite-Docling 注重保持文档的布局信息,能够有效提取表格、代码、公式、列表、标题等元素,并输出结构化的机器可读格式,而非简化的 Markdown 格式。 Granite-Docling 是 SmolDocling-256M 的改进版。IBM 对原有的技术架构进行了优化,采用了 Granite165M 语言模型,并升级了视觉编码器为 SigLIP2,同时保持了 Idefics3风格的连接器。 这一系列更新使得 Granite-Docling 的参数量达到了258M,并在布局分析、全页 OCR、代码、公式及表格的精确度上都有显著提升。此外,IBM 还解决了在预览模型中发现的不稳定性问题,如重复令牌循环现象。 Granite-Docling 采用了基于 Idefics3的架构,使用了 nanoVLM 训练框架。其输出的 DocTags 是 IBM 开发的一种标记语言,能够清晰地表示文档结构,包括元素、坐标和关系,方便后续...
