您现在的位置是:首页 > 文章详情

智谱AI开源通用视觉推理模型 GLM-4.1V-Thinking

日期:2025-07-03点击:11

智谱AI于7月2日发布了GLM-4.1V-Thinking系列通用视觉推理模型,并宣布获得来自浦东创投集团和张江集团的10亿元联合战略投资。

同时,公司推出了全新生态平台“Agent应用空间”,并启动“Agents开拓者计划”,投入数亿资金扶持AI Agents创业团队。

为庆祝模型发布,智谱大模型开放平台为用户提供新模型Flash版1亿的“高并发版”Tokens,同时,该模型可通过API免费使用。

此次率先开源的是GLM-4.1V-9B-Thinking,一个9B参数量的多模态模型,对应官方平台的GLM-4.1V-Thinking-Flash。该模型旨在提升模型的深度思考与复杂推理能力。该模型在多项基准测试中表现卓越,其性能在18项任务上持平甚至超过了参数量为其8倍的Qwen-2.5-VL-72B和GPT-4o等主流视觉语言模型。

模型具备强大的多模态能力,能够解析长达2小时的视频、进行数学与科学推理、看图编写网页,并具备GUI Agent能力,可识别并操作手机、电脑等屏幕界面元素,完成用户指令。例如,在解析足球比赛时,模型能理解球员位置和战术特点。

GLM-4.1V-Thinking模型架构由视觉编码器、MLP适配器和语言解码器组成,其卓越性能得益于引入了“课程采样强化学习”(Reinforcement Learning with Curriculum Sampling)策略,通过由易到难的训练任务安排,高效提升了模型在STEM解题、智能体任务、文档图表理解等多个领域的推理能力。

目前,GLM-4.1V-9B-Thinking模型已在GitHub、魔搭社区及Hugging Face上开源。

开源列表

原文链接:https://www.oschina.net/news/358562/glm-4-1-v-thinking
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章