智谱发布多模态模型 GLM-OCR 技术报告
智谱团队正式发布其多模态模型GLM-OCR 技术报告,详细介绍了模型「SOTA 文档理解能力」背后的技术细节。 为了解决复杂文档理解的高性能与高吞吐需求,GLM-OCR 的设计基于三项关键观察与技术创新: 集成版面分析:在识别前先进行版面检测,将复杂页面分割为多个简单区域,这提升了模型对复杂版面的鲁棒性和性能稳定性,并支持并行处理以提升效率。 统一文档解析与关键信息提取:将这两项任务统一在一个共享的生成式框架下,通过不同的输入提示来控制输出格式,使模型能够学习通用的文档级表征。 采用多token预测:模型在解码时每一步同时预测多个token,这大幅提升了推理速度,并迫使模型进行更长远的规划,从而生成结构更一致、更鲁棒的输出(如表格标签)。 系统架构方面,模型核心包括一个视觉编码器和一个大语言模型解码器。处理流程根据任务而有所不同: 文档解析:采用“版面分析 -> 区域裁剪 -> 独立识别 -> 合并输出”的流程,生成结构化的Markdown和JSON。 关键信息提取:将完整文档图像和任务提示直接输入模型,由模型在提示引导下直接提取并生成结构化的JSON信息。 多阶段训...

