智谱AI开源通用视觉推理模型 GLM-4.1V-Thinking
智谱AI于7月2日发布了GLM-4.1V-Thinking系列通用视觉推理模型,并宣布获得来自浦东创投集团和张江集团的10亿元联合战略投资。
同时,公司推出了全新生态平台“Agent应用空间”,并启动“Agents开拓者计划”,投入数亿资金扶持AI Agents创业团队。
为庆祝模型发布,智谱大模型开放平台为用户提供新模型Flash版1亿的“高并发版”Tokens,同时,该模型可通过API免费使用。
此次率先开源的是GLM-4.1V-9B-Thinking,一个9B参数量的多模态模型,对应官方平台的GLM-4.1V-Thinking-Flash。该模型旨在提升模型的深度思考与复杂推理能力。该模型在多项基准测试中表现卓越,其性能在18项任务上持平甚至超过了参数量为其8倍的Qwen-2.5-VL-72B和GPT-4o等主流视觉语言模型。
模型具备强大的多模态能力,能够解析长达2小时的视频、进行数学与科学推理、看图编写网页,并具备GUI Agent能力,可识别并操作手机、电脑等屏幕界面元素,完成用户指令。例如,在解析足球比赛时,模型能理解球员位置和战术特点。
GLM-4.1V-Thinking模型架构由视觉编码器、MLP适配器和语言解码器组成,其卓越性能得益于引入了“课程采样强化学习”(Reinforcement Learning with Curriculum Sampling)策略,通过由易到难的训练任务安排,高效提升了模型在STEM解题、智能体任务、文档图表理解等多个领域的推理能力。
目前,GLM-4.1V-9B-Thinking模型已在GitHub、魔搭社区及Hugging Face上开源。
开源列表
-
文档:https://bigmodel.cn/dev/howuse/visual-reasoning-model/glm-4.1v-thinking
-
ModelScope:https://modelscope.cn/collections/GLM-41V-35d24b6def9f49
-
Hugging Face:https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d
-
HuggingFace 体验链接:https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo

