智谱开源文生图模型 CogView4,支持生成汉字
智谱宣布推出「智谱2025开源年」的第一个模型:首个支持生成汉字的开源文生图模型 CogView4,遵循 Apache2.0 协议。
公告称,CogView4 在 DPG-Bench 基准测试中的综合评分排名第一,在开源文生图模型中达到 SOTA,也是首个遵循 Apache 2.0 协议的图像生成模型。
最新的 CogView4-0304 版本现已开源,并将于 3 月 13 日上线智谱清言(chatglm.cn)。后续,该公司还计划陆续增加 ControlNet、ComfyUI 等生态支持,全套的微调工具包也即将推出。
性能 SOTA
CogView4 具备较强的复杂语义对齐和指令跟随能力,支持任意长度的中英双语输入,能够生成在给定范围内的任意分辨率图像,同时具备较强的文字生成能力。
中文理解与生成
CogView4 支持中英双语提示词输入,擅长理解和遵循中文提示词,是首个能够在画面中生成汉字的开源文生图模型,能更好地满足广告、短视频等领域的创意需求。
在技术实现上,CogView4 将文本编码器从纯英文的 T5 encoder 换为具备双语能力的 GLM-4 encoder,并通过中英双语图文进行训练,使模型具备双语提示词输入能力。
任意分辨率,任意长度提示词
CogView4 支持输入任意长度提示词,能够生成范围内任意分辨率图像,不仅使用户创作更加自由,也提升了训练效率。CogView4 模型实现了任意长度的文本描述(caption)和任意分辨率图像的混合训练范式。
1.图像位置编码
CogView4 采用二维旋转位置编码(2D RoPE)来建模图像的位置信息,并通过内插位置编码的方式支持不同分辨率的图像生成任务。
2.扩散生成建模
模型采用 Flow-matching 方案进行扩散生成建模,并结合参数化的线性动态噪声规划,以适应不同分辨率图像的信噪比需求。
3.架构设计
在 DiT 模型架构上,CogView4 延续了上一代的 Share-param DiT 架构,并为文本和图像模态分别设计独立的自适应 LayerNorm 层,以实现模态间的高效适配。
4.多阶段训练
CogView4 采用多阶段训练策略,包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。这种分阶段训练方式不仅覆盖了广泛的图像分布,还确保生成的图像具有高美感并符合人类偏好。
5.训练框架优化
从文本角度,CogView4 突破了传统固定 token 长度的限制,允许更高的 token 上限,并显著减少了训练过程中的文本 token 冗余。当训练 caption 的平均长度在 200-300 token 时,与固定 512 token 的传统方案相比,CogView4 减少了约 50% 的 token 冗余,并在模型递进训练阶段实现了 5%-30% 的效率提升。
混合分辨率训练使模型能够支持较大范围内的任意分辨率生成,极大地提升了创作的自由度。目标分辨率只需满足以下条件:

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
开源跨平台大模型工具 Ollama 存在安全风险
据清华大学网络空间测绘联合研究中心分析,开源跨平台大模型工具Ollama默认配置存在未授权访问与模型窃取等安全隐患。 一、风险隐患详情 使用Ollma在本地部署DeepSeek等大模型时,会在本地启动一个Web服务,并默认开放11434端口且无任何鉴权机制。该服务直接暴露在公网环境,存在以下风险: 1、未授权访问:未授权用户能够随意访问模型,并利用特定工具直接对模型及其数据进行操作,攻击者无需认证即可调用模型服务、获取模型信息,甚至通过恶意指令删除模型文件或窃取数据。 2、数据泄露:通过特定接口可访问并提取模型数据,引发数据泄露风险。如:通过/api/show接口,攻击者能够获取模型的license等敏感信息,以及其他接口获取已部署模型的相关敏感数据信息。 3、攻击者可利用Ollama框架历史漏洞(CVE-2024-39720/39722/39719/39721),直接调用模型接口实施数据投毒、参数窃取、恶意文件上传及关键组件删除等操作,造成模型服务的核心数据、算法完整性和运行稳定性面临安全风险。 二、安全加固建议 1、限制Ollama监听范围:仅允许11434端口本地访问,并验证端口...
- 下一篇
三星 Galaxy S25 国行版正式接入 DeepSeek-R1 大模型
据三星中国消息,三星国行 Galaxy S25 系列正式接入了 DeepSeek-R1 大模型,令 AI 能力进一步得到强化。 官方表示,三星 Galaxy S25 系列用户无需下载 App 或注册、登录账号,只需将三星生活助手升级至最新版本,或在三星智慧主页(负一屏)、三星 Bixby 中进入“智能体中心”,之后即可选择深度思考(DeepSeek-R1)智能体,体验深度思考、联网搜索、情绪价值、上下文记忆以及视觉解析能力。 此外,三星表示 Bixby 的语聊视界功能也将在近期正式上线。 相关阅读 三星 Galaxy S25 国行版采用智谱 Agentic GLM
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- Linux系统CentOS6、CentOS7手动修改IP地址
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Docker安装Oracle12C,快速搭建Oracle学习环境
- CentOS7安装Docker,走上虚拟化容器引擎之路
- Docker快速安装Oracle11G,搭建oracle11g学习环境
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS关闭SELinux安全模块
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- Hadoop3单机部署,实现最简伪集群
- CentOS6,7,8上安装Nginx,支持https2.0的开启