智谱开源文生图模型 CogView4，支持生成汉字-低调大师

智谱开源文生图模型 CogView4，支持生成汉字

2025-03-04 699

智谱宣布推出「智谱2025开源年」的第一个模型：首个支持生成汉字的开源文生图模型 CogView4，遵循 Apache2.0 协议。

公告称，CogView4 在 DPG-Bench 基准测试中的综合评分排名第一，在开源文生图模型中达到 SOTA，也是首个遵循 Apache 2.0 协议的图像生成模型。

最新的 CogView4-0304 版本现已开源，并将于 3 月 13 日上线智谱清言（chatglm.cn）。后续，该公司还计划陆续增加 ControlNet、ComfyUI 等生态支持，全套的微调工具包也即将推出。

性能 SOTA

CogView4 具备较强的复杂语义对齐和指令跟随能力，支持任意长度的中英双语输入，能够生成在给定范围内的任意分辨率图像，同时具备较强的文字生成能力。

中文理解与生成

CogView4 支持中英双语提示词输入，擅长理解和遵循中文提示词，是首个能够在画面中生成汉字的开源文生图模型，能更好地满足广告、短视频等领域的创意需求。

在技术实现上，CogView4 将文本编码器从纯英文的 T5 encoder 换为具备双语能力的 GLM-4 encoder，并通过中英双语图文进行训练，使模型具备双语提示词输入能力。

任意分辨率，任意长度提示词

CogView4 支持输入任意长度提示词，能够生成范围内任意分辨率图像，不仅使用户创作更加自由，也提升了训练效率。CogView4 模型实现了任意长度的文本描述（caption）和任意分辨率图像的混合训练范式。

1.图像位置编码

CogView4 采用二维旋转位置编码（2D RoPE）来建模图像的位置信息，并通过内插位置编码的方式支持不同分辨率的图像生成任务。

2.扩散生成建模

模型采用 Flow-matching 方案进行扩散生成建模，并结合参数化的线性动态噪声规划，以适应不同分辨率图像的信噪比需求。

3.架构设计

在 DiT 模型架构上，CogView4 延续了上一代的 Share-param DiT 架构，并为文本和图像模态分别设计独立的自适应 LayerNorm 层，以实现模态间的高效适配。

4.多阶段训练

CogView4 采用多阶段训练策略，包括基础分辨率训练、泛分辨率训练、高质量数据微调以及人类偏好对齐训练。这种分阶段训练方式不仅覆盖了广泛的图像分布，还确保生成的图像具有高美感并符合人类偏好。

5.训练框架优化

从文本角度，CogView4 突破了传统固定 token 长度的限制，允许更高的 token 上限，并显著减少了训练过程中的文本 token 冗余。当训练 caption 的平均长度在 200-300 token 时，与固定 512 token 的传统方案相比，CogView4 减少了约 50% 的 token 冗余，并在模型递进训练阶段实现了 5%-30% 的效率提升。

混合分辨率训练使模型能够支持较大范围内的任意分辨率生成，极大地提升了创作的自由度。目标分辨率只需满足以下条件：

微信关注我们

原文链接：https://www.oschina.net/news/336819

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

开源跨平台大模型工具 Ollama 存在安全风险

据清华大学网络空间测绘联合研究中心分析，开源跨平台大模型工具Ollama默认配置存在未授权访问与模型窃取等安全隐患。一、风险隐患详情使用Ollma在本地部署DeepSeek等大模型时，会在本地启动一个Web服务，并默认开放11434端口且无任何鉴权机制。该服务直接暴露在公网环境，存在以下风险： 1、未授权访问：未授权用户能够随意访问模型，并利用特定工具直接对模型及其数据进行操作，攻击者无需认证即可调用模型服务、获取模型信息，甚至通过恶意指令删除模型文件或窃取数据。 2、数据泄露：通过特定接口可访问并提取模型数据，引发数据泄露风险。如：通过/api/show接口，攻击者能够获取模型的license等敏感信息，以及其他接口获取已部署模型的相关敏感数据信息。 3、攻击者可利用Ollama框架历史漏洞（CVE-2024-39720/39722/39719/39721），直接调用模型接口实施数据投毒、参数窃取、恶意文件上传及关键组件删除等操作，造成模型服务的核心数据、算法完整性和运行稳定性面临安全风险。二、安全加固建议 1、限制Ollama监听范围：仅允许11434端口本地访问，并验证端口...

2025-03-04

436

据三星中国消息，三星国行 Galaxy S25 系列正式接入了 DeepSeek-R1 大模型，令 AI 能力进一步得到强化。官方表示，三星 Galaxy S25 系列用户无需下载 App 或注册、登录账号，只需将三星生活助手升级至最新版本，或在三星智慧主页（负一屏）、三星 Bixby 中进入“智能体中心”，之后即可选择深度思考（DeepSeek-R1）智能体，体验深度思考、联网搜索、情绪价值、上下文记忆以及视觉解析能力。此外，三星表示 Bixby 的语聊视界功能也将在近期正式上线。相关阅读三星 Galaxy S25 国行版采用智谱 Agentic GLM

2025-03-04

225

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。