智谱提出 Glyph:通过视觉-文本压缩扩展上下文窗口
智谱GLM大模型团队提出了Glyph框架,探索了一条不同于现有范式的上下文扩展路径。 据介绍,Glyph 通过视觉-文本压缩将长文本渲染为图像,使模型能够以视觉方式理解语义。通过LLM 驱动的搜索算法,Glyph能够自动找到最高效的视觉渲染方案,从而以更少的 token 处理更长的上下文,突破了模型本身上下文长度的限制。 在长文本基准中,Glyph 在保持性能和当前领先的LLM相近的情况下,实现了约3-4倍的上下文压缩,同时带来数倍的推理和训练加速。 Glyph 展示了长上下文建模的新方向——通过视觉化输入实现高效的上下文扩展,为构建长文本大模型提供了新的思路。 动机 在长上下文任务(如文档理解、仓库级代码分析、多步推理)中,大模型往往需要处理数十万甚至上百万 token的输入。 然而,直接扩展上下文窗口会带来巨大的资源消耗,这大大限制了“百万级上下文模型”的广泛应用。 为了突破这一瓶颈,我们提出了Glyph——一种全新的视觉上下文扩展范式。 不同于基于注意力结构的上下文扩展,Glyph 选择从输入层面重新思考问题: 将文本渲染为图像,通过视觉-语言模型(VLM)读取与理解,从而在不增...
