腾讯混元图像模型 2.1 上新并开源
腾讯宣布混元图像模型2.1(HunyuanImage-2.1)上新并开源。该模型支持原生2K生图,能输出更清晰、细节更丰富的图像,满足专业设计与创作需求。同时,其支持中英文原生输入,解决语言限制问题,拓宽全球用户使用范围。
https://hunyuan.tencent.com/image/zh
混元图像模型2.1还支持长达1k tokens的复杂语义超长prompt,对图像中文字渲染和场景细节把控更稳定。
据介绍,混元文生图大模型HunyuanImage-2.1的参数规模达到17B,该模型采用了双流DiT架构,配备了MLLM+ByT5双文本编码器和32×32的高压缩VAE。官方提供了base、refine以及meanflow蒸馏版,推理步数可从100步压缩至8步,同时保持高质量画质。
HunyuanImage-2.1在复杂语义理解、多主体分别控制、中英文字体生成、连环画与海报等场景下表现出色。它支持最长1000 tokens的提示词,能够精准还原人物的表情、动作以及图文混排的细节。同时,官方还开源了配套的PromptEnhancer文本改写模型,用于结构化地优化用户输入的指令。
https://huggingface.co/tencent/HunyuanImage-2.1


