阿里巴巴开源 Z-Image 图像模型:支持中英双语文字渲染
阿里巴巴通义实验室开源全新图像生成模型 Z-Image,该模型凭借仅 6B 的参数规模,实现了高效的图像生成与编辑,其视觉质量已接近国际领先商业模型的三倍参数级别(约20B)。
Z-Image 采用单流 DiT (Diffusion Transformer) 架构,包含 Z-Image-Turbo(专注于快速推理)、Z-Image-Base(基础开发)和 Z-Image-Edit(图像编辑)三大核心变体,以满足不同的应用需求。
通过解耦 DMD 和 DMDR 等创新技术,该模型仅需 8个采样步骤即可输出高清逼真图像,显存占用控制在 16GB 以下,使其能在 NVIDIA RTX30系列等消费级显卡上流畅运行,在 H800GPU 上甚至可实现亚秒级的生成速度。
Z-Image 模型的关键优势在于其强大的提示增强与推理能力,能够超越表面的文字描述,融入“世界知识”进行语义对齐,确保输出图像的光影自然、细节丰富。它不仅支持复杂指令理解和多模态编辑任务,更在中英双语文字渲染方面展现出高精度,有效解决了传统 AI 图像模型在文本处理上的痛点。
业内测试显示,Z-Image 在人像生成、场景构图和编辑一致性上表现抢眼,在 ComfyUI 框架下的测试中超越了部分 SDXL 基线模型,尤其在中文海报渲染和 NSFW 内容处理上表现出优异的稳定性。
