阿里通义开源 Z-Image-Turbo-Fun-Controlnet-Union
阿里巴巴通义实验室正式开源 Z-Image-Turbo-Fun-Controlnet-Union。
该系列以单流扩散架构为核心,仅6亿参数却实现照片级真实感渲染,包括皮肤纹理、发丝细节及光影美学优化。Z-Image-Turbo 作为快速推理版本,仅需8步采样即可生成1024x1024分辨率图像,推理时间低至9秒(RTX4080硬件),并在提示词理解上支持中英混合文本渲染,显著提升了创作效率。
此次 Z-Image-Turbo-Fun-Controlnet-Union 的推出,是对 Z-Image-Turbo 的深度扩展。它在模型的6个核心块上集成 ControlNet 结构,兼容 Canny 边缘检测、HED 边界提取及 Depth 深度映射等多模态控制条件。该模型专为复杂场景设计,如人物姿态精确生成及基于线稿的建筑渲染,目前通过 Python 代码实现集成,ComfyUI 等工作流支持即将跟进。
核心功能与应用亮点
- 多条件控制融合:支持姿态、边缘与深度信息的联合输入,实现“零失真”图像操控。开发者可轻松构建从草图到成品的自动化管道,适用于电商视觉设计、影视特效及游戏原型制作。
- 高效兼容性:继承 Z-Image-Turbo 的轻量架构,仅需6GB VRAM 即可运行,远低于传统 ControlNet 模型的硬件门槛。测试显示,在低端 GPU 上生成速度达250秒/5步,平衡了质量与实时性。
- 开源生态赋能:模型提供4-bit 量化版本(如 MFLUX 兼容),便于 Mac 等消费级设备部署。同时,Z-Image-Edit 变体增强了复合编辑指令理解,保持画面一致性。
未来,预计将与 Z-Image-Base 版本联动,形成完整图像生成-编辑-控制闭环。
