智谱发布 GLM-5V-Turbo
智谱宣布正式发布 GLM-5V-Turbo,面向视觉编程打造的多模态 Coding 基座模型。 公告称,GLM-5V-Turbo从预训练阶段深度融合视觉与文本能力,让编程不再局限于纯文本输入。模型能看懂设计稿、截图、网页界面,并据此生成完整可运行的代码,真正做到看得懂画面、写得出代码。 核心要点如下: 原生多模态Coding基座:原生理解图片、视频、设计稿、文档版面等多模态输入,并支持画框、截图、读网页等多模态工具调用,上下文窗口扩展至200k,将Agent的感知-行动链路从纯文本延伸到视觉交互。 兼顾视觉与编程能力:在多模态Coding、Tool Use、GUI Agent等核心基准上取得领先表现。通过多任务协同RL等技术手段,确保纯文本场景下的编程、推理、工具调用等能力不退化。 深度适配Claude Code与龙虾场景:与Claude Code、OpenClaw/AutoClaw等Agent深度协同,支持“看懂环境→规划动作→执行任务”的完整闭环,并提供全套官方Skills,开箱即用。 GLM-5V-Turbo 在模型架构、训练方法、数据构造、工具链四个层面进行了系统性升级: 原生...




