智谱AI开源通用视觉推理模型 GLM-4.1V-Thinking
智谱AI于7月2日发布了GLM-4.1V-Thinking系列通用视觉推理模型,并宣布获得来自浦东创投集团和张江集团的10亿元联合战略投资。
同时,公司推出了全新生态平台“Agent应用空间”,并启动“Agents开拓者计划”,投入数亿资金扶持AI Agents创业团队。
为庆祝模型发布,智谱大模型开放平台为用户提供新模型Flash版1亿的“高并发版”Tokens,同时,该模型可通过API免费使用。
此次率先开源的是GLM-4.1V-9B-Thinking,一个9B参数量的多模态模型,对应官方平台的GLM-4.1V-Thinking-Flash。该模型旨在提升模型的深度思考与复杂推理能力。该模型在多项基准测试中表现卓越,其性能在18项任务上持平甚至超过了参数量为其8倍的Qwen-2.5-VL-72B和GPT-4o等主流视觉语言模型。
模型具备强大的多模态能力,能够解析长达2小时的视频、进行数学与科学推理、看图编写网页,并具备GUI Agent能力,可识别并操作手机、电脑等屏幕界面元素,完成用户指令。例如,在解析足球比赛时,模型能理解球员位置和战术特点。
GLM-4.1V-Thinking模型架构由视觉编码器、MLP适配器和语言解码器组成,其卓越性能得益于引入了“课程采样强化学习”(Reinforcement Learning with Curriculum Sampling)策略,通过由易到难的训练任务安排,高效提升了模型在STEM解题、智能体任务、文档图表理解等多个领域的推理能力。
目前,GLM-4.1V-9B-Thinking模型已在GitHub、魔搭社区及Hugging Face上开源。
开源列表
-
文档:https://bigmodel.cn/dev/howuse/visual-reasoning-model/glm-4.1v-thinking
-
ModelScope:https://modelscope.cn/collections/GLM-41V-35d24b6def9f49
-
Hugging Face:https://huggingface.co/collections/THUDM/glm-41v-thinking-6862bbfc44593a8601c2578d
-
HuggingFace 体验链接:https://huggingface.co/spaces/THUDM/GLM-4.1V-9B-Thinking-Demo

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
开源中国联合发起「全球数字友好开源社区」,共建开放协同新生态
2025 年 7 月 2 日,2025 全球数字经济大会在北京国家会议中心隆重开幕。本次大会经国务院批准,由北京市人民政府、国家互联网信息办公室、国家数据局、新华通讯社与联合国开发计划署共同主办,聚焦「建设数字友好城市」主题,来自全球多国政府机构、国际组织、城市代表、科研院所和科技企业代表齐聚一堂,围绕数字技术赋能城市发展的路径与合作机制深入交流。 在大会首场主论坛「数字友好城市建对话」阶段,北京市经开区工委副书记、管委会副主任王磊指出北京正在加快打造以「模力方舟国际开源社区」为代表的 AI 开放创新平台集群,汇聚全球 AI 开发者资源,支撑企业间协同与城市间互信,推动开源力量深度融入全球数字治理体系。 随后,主论坛迎来了重点环节之一——「全球数字友好开源社区」正式启动。该社区由开源中国、统信软件、平凯星辰等十八家中外企业、联盟和机构共同发起,旨在打造面向全球的数字化开放协同平台。 开源中国作为发起单位之一,研发副总裁李彦成代表公司出席启动仪式,并与各方共同见证社区成立。开源社区已成为推动全球数字协作与技术创新的重要力量。从早期由开发者驱动的协作模式,到如今以城市、企业、场景多元联动为...
- 下一篇
Bilibili 开源动漫视频生成模型 AniSora V3 版
Bilibili(B站)宣布其开源动漫视频生成模型AniSora迎来重大更新,正式发布AniSora V3。作为Index-AniSora项目的一部分,V3版本在原有基础上进一步优化了生成质量、动作流畅度和风格多样性,为动漫、漫画及VTuber内容创作者提供了更强大的工具。 AniSora V3基于Bilibili此前开源的CogVideoX-5B和Wan2.1-14B模型,结合强化学习与人类反馈(RLHF)框架,显著提升了生成视频的视觉质量和动作一致性。其支持一键生成多种风格的动漫视频镜头,包括番剧片段、国创动画、漫画视频改编、VTuber内容)等。 核心升级包括: 时空掩码模块(Spatiotemporal Mask Module)优化:V3版本增强了时空控制能力,支持更复杂的动画任务,如精细的角色表情控制、动态镜头移动和局部图像引导生成。例如,提示“五位女孩在镜头放大时起舞,左手上举至头顶再下放至膝盖”能生成流畅的舞蹈动画,镜头与角色动作同步自然。 数据集扩展:V3继续依托超过1000万高质量动漫视频片段(从100万原始视频中提取)进行训练,新增数据清洗流水线,确保生成内容的风格...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Hadoop3单机部署,实现最简伪集群
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS7安装Docker,走上虚拟化容器引擎之路
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS8安装MyCat,轻松搞定数据库的读写分离、垂直分库、水平分库
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- CentOS7,8上快速安装Gitea,搭建Git服务器
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- Docker快速安装Oracle11G,搭建oracle11g学习环境