智谱AI开源通用视觉推理模型 GLM-4.1V-Thinking-低调大师

智谱AI开源通用视觉推理模型 GLM-4.1V-Thinking

2025-07-03 121

智谱AI于7月2日发布了GLM-4.1V-Thinking系列通用视觉推理模型，并宣布获得来自浦东创投集团和张江集团的10亿元联合战略投资。

同时，公司推出了全新生态平台“Agent应用空间”，并启动“Agents开拓者计划”，投入数亿资金扶持AI Agents创业团队。

为庆祝模型发布，智谱大模型开放平台为用户提供新模型Flash版1亿的“高并发版”Tokens，同时，该模型可通过API免费使用。

此次率先开源的是GLM-4.1V-9B-Thinking，一个9B参数量的多模态模型，对应官方平台的GLM-4.1V-Thinking-Flash。该模型旨在提升模型的深度思考与复杂推理能力。该模型在多项基准测试中表现卓越，其性能在18项任务上持平甚至超过了参数量为其8倍的Qwen-2.5-VL-72B和GPT-4o等主流视觉语言模型。

模型具备强大的多模态能力，能够解析长达2小时的视频、进行数学与科学推理、看图编写网页，并具备GUI Agent能力，可识别并操作手机、电脑等屏幕界面元素，完成用户指令。例如，在解析足球比赛时，模型能理解球员位置和战术特点。

GLM-4.1V-Thinking模型架构由视觉编码器、MLP适配器和语言解码器组成，其卓越性能得益于引入了“课程采样强化学习”（Reinforcement Learning with Curriculum Sampling）策略，通过由易到难的训练任务安排，高效提升了模型在STEM解题、智能体任务、文档图表理解等多个领域的推理能力。

目前，GLM-4.1V-9B-Thinking模型已在GitHub、魔搭社区及Hugging Face上开源。

开源列表

文档：https://bigmodel.cn/dev/howuse/visual-reasoning-model/glm-4.1v-thinking
Github：https://github.com/THUDM/GLM-4.1V-Thinking
ModelScope：https://modelscope.cn/collections/GLM-41V-35d24b6def9f49
Hugging Face：https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d
HuggingFace 体验链接：https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo

微信关注我们

原文链接：https://www.oschina.net/news/358562/glm-4-1-v-thinking

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

开源中国联合发起「全球数字友好开源社区」，共建开放协同新生态

2025 年 7 月 2 日，2025 全球数字经济大会在北京国家会议中心隆重开幕。本次大会经国务院批准，由北京市人民政府、国家互联网信息办公室、国家数据局、新华通讯社与联合国开发计划署共同主办，聚焦「建设数字友好城市」主题，来自全球多国政府机构、国际组织、城市代表、科研院所和科技企业代表齐聚一堂，围绕数字技术赋能城市发展的路径与合作机制深入交流。在大会首场主论坛「数字友好城市建对话」阶段，北京市经开区工委副书记、管委会副主任王磊指出北京正在加快打造以「模力方舟国际开源社区」为代表的 AI 开放创新平台集群，汇聚全球 AI 开发者资源，支撑企业间协同与城市间互信，推动开源力量深度融入全球数字治理体系。随后，主论坛迎来了重点环节之一——「全球数字友好开源社区」正式启动。该社区由开源中国、统信软件、平凯星辰等十八家中外企业、联盟和机构共同发起，旨在打造面向全球的数字化开放协同平台。开源中国作为发起单位之一，研发副总裁李彦成代表公司出席启动仪式，并与各方共同见证社区成立。开源社区已成为推动全球数字协作与技术创新的重要力量。从早期由开发者驱动的协作模式，到如今以城市、企业、场景多元联动为...

2025-07-03

83

Bilibili（B站）宣布其开源动漫视频生成模型AniSora迎来重大更新，正式发布AniSora V3。作为Index-AniSora项目的一部分，V3版本在原有基础上进一步优化了生成质量、动作流畅度和风格多样性，为动漫、漫画及VTuber内容创作者提供了更强大的工具。 AniSora V3基于Bilibili此前开源的CogVideoX-5B和Wan2.1-14B模型，结合强化学习与人类反馈（RLHF）框架，显著提升了生成视频的视觉质量和动作一致性。其支持一键生成多种风格的动漫视频镜头，包括番剧片段、国创动画、漫画视频改编、VTuber内容）等。核心升级包括：时空掩码模块（Spatiotemporal Mask Module）优化：V3版本增强了时空控制能力，支持更复杂的动画任务，如精细的角色表情控制、动态镜头移动和局部图像引导生成。例如，提示“五位女孩在镜头放大时起舞，左手上举至头顶再下放至膝盖”能生成流畅的舞蹈动画，镜头与角色动作同步自然。数据集扩展：V3继续依托超过1000万高质量动漫视频片段（从100万原始视频中提取）进行训练，新增数据清洗流水线，确保生成内容的风格...

2025-07-03

111

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。