智谱提出 Glyph:通过视觉-文本压缩扩展上下文窗口
智谱GLM大模型团队提出了 Glyph 框架,探索了一条不同于现有范式的上下文扩展路径。
据介绍,Glyph 通过视觉-文本压缩将长文本渲染为图像,使模型能够以视觉方式理解语义。通过 LLM 驱动的搜索算法,Glyph能够自动找到最高效的视觉渲染方案,从而以更少的 token 处理更长的上下文,突破了模型本身上下文长度的限制。
在长文本基准中,Glyph 在保持性能和当前领先的LLM相近的情况下,实现了约3-4倍的上下文压缩,同时带来数倍的推理和训练加速。
Glyph 展示了长上下文建模的新方向——通过视觉化输入实现高效的上下文扩展,为构建长文本大模型提供了新的思路。
动机
在长上下文任务(如文档理解、仓库级代码分析、多步推理)中,大模型往往需要处理数十万甚至上百万 token 的输入。
然而,直接扩展上下文窗口会带来巨大的资源消耗,这大大限制了“百万级上下文模型”的广泛应用。
为了突破这一瓶颈,我们提出了 Glyph ——一种全新的视觉上下文扩展范式。
不同于基于注意力结构的上下文扩展,Glyph 选择从输入层面重新思考问题:
将文本渲染为图像,通过视觉-语言模型(VLM)读取与理解,从而在不增加模型实际上下文长度的前提下实现上下文的高效扩展。
方法
Glyph 的核心目标是让模型以“看”的方式理解超长文本。通过将文本渲染为图像,模型能够在有限的 token 数量下接收更丰富的上下文信息,实现高效的文本压缩。 整体框架包含三个主要阶段:
-
持续预训练 我们首先将大规模长文本数据渲染为多种视觉风格,包括文档布局、网页结构、代码展示等形式,以模拟不同类型的真实长文本场景。 在此基础上,我们构建多种任务,例如 OCR 识别任务、图文交错建模任务与视觉补全任务,使模型能够同时学习文字的视觉形态与语义含义。 这一阶段的训练帮助模型建立起视觉与语言之间的跨模态语义对齐能力。
-
LLM驱动渲染搜索 在视觉压缩过程中,渲染配置(如字体、分辨率、排版布局)直接影响模型的感知效果与任务性能。为了在压缩率与理解能力**之间取得最优平衡,我们提出了一种由 大语言模型驱动的遗传搜索算法。在该框架中,我们在验证集上自动评估不同渲染方案的性能,由 LLM 分析其优劣并生成新的候选配置。通过多轮迭代,Glyph 能够逐步收敛到在语义保持与压缩效率间最优的渲染策略。
-
后训练阶段 在找到最优渲染配置后,我们对模型进行有监督微调(SFT)与强化学习优化(使用 GRPO 算法)。此外,我们引入OCR 辅助任务,进一步强化模型的文字识别与细节理解能力。
总结
Glyph 开启了视觉与文本融合的上下文扩展新范式。
通过三阶段训练,Glyph 在 3–4× 的文本 token 压缩 下依然保持强大的任务性能,同时显著提升训练与推理效率。
在极端压缩场景下,Glyph 甚至能够利用 128K 上下文视觉模型 处理 百万级 token 文本任务,展现出卓越的上下文扩展能力,为从百万级向千万级上下文的进一步突破奠定了基础。
关注公众号
低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
OpenAI 推出新浏览器 ChatGPT Atlas
OpenAI 宣布推出 ChatGPT Atlas,一款以 ChatGPT 为核心构建的新型网络浏览器。直接将ChatGPT 嵌入网页浏览场景,使用户能够在侧边栏即时提问、摘要网页或比较产品,并在输入框获得智能建议。 “借助 Atlas,ChatGPT 可以随时随地陪伴您——它可在您当前的窗口中为您提供帮助,理解您正在执行的操作,并为您完成任务,所有这一切都无需复制粘贴或离开页面。您的 ChatGPT 记忆功能已内置,因此对话可以借鉴过去的聊天记录和详细信息,帮助您完成新的任务……随着您使用 Atlas,ChatGPT 也会变得更加智能和实用。浏览器记忆功能让 ChatGPT 记住您访问过的网站上下文,并在您需要时将其提取出来。” Atlas 中的浏览器记忆功能完全可选,用户可以随时在设置中进行查看或存档,删除浏览历史记录也会删除所有相关的浏览器记忆。 此外,ChatGPT 还可以使用 Atlas 中的代理模式,并通过改进使其能够根据用户的浏览环境进行处理,从而提高运行速度和实用性。能够更好地在用户浏览时进行研究和分析、自动执行任务以及规划活动或预约。 目前,Atlas 中的代理模式现...
-
下一篇
LangChain 获 1.25 亿美元融资,估值飙升至 12.5 亿美元
LangChain 宣布成功融资1.25亿美元,企业估值达到12.5亿美元,资金将用于构建代理工程平台。 并计划发布新功能,加速构建可靠代理,包括 LangChain 和 LangGraph 1.0 版本、全新 Insights Agent 以及无代码代理构建器。本轮融资由 IVP 领投,现有投资者 Sequoia、Benchmark 和 Amplify 以及新投资者 CapitalG 和 Sapphire Ventures 参投。 根据介绍,LangChain 成立于2022年,最初是由机器学习工程师 Harrison Chase创办的一个开源项目。随着 AI 时代的到来,该公司迅速崛起,解决了早期大型语言模型(LLM)应用开发中的一些难题,比如网页搜索、API 调用和数据库交互等。 2023年4月,Chase推出了 LangChain 初创公司,并成功获得了来自 Benchmark 的1000万美元种子轮融资。紧接着,他在一周后又完成了由 Sequoia 领投的2500万美元 A 轮融资,此时 LangChain 的估值已达到2亿美元。 随着先进模型的基础设施不断增加,LangCh...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2更换Tomcat为Jetty,小型站点的福音
- MySQL数据库中FOR UPDATE的使用
- Red5直播服务器,属于Java语言的直播服务器
- Mario游戏-低调大师作品
- Docker容器配置,解决镜像无法拉取问题
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Springboot2将连接池hikari替换为druid,体验最强大的数据库连接池
- SpringBoot2初体验,简单认识spring boot2并且搭建基础工程



微信收款码
支付宝收款码