Qwen-Image-Edit-2509 发布: 多图编辑支持,单图一致性提升
阿里通义 Qwen 团队宣布推出 Qwen-Image-Edit-2509,作为 Qwen-Image-Edit 的月迭代版本。
相比于8月发布的 Qwen-Image-Edit,Qwen-Image-Edit-2509 的主要特性包括:
-
多图编辑支持: 对于多图输入,Qwen-Image-Edit-2509 基于 Qwen-Image-Edit 结构,通过拼接方式进一步训练,从而进行了支持。提供“人物+人物”,“人物+商品”,“人物+场景” 等多种玩法。
-
单图一致性增强: 对于单图输入,Qwen-Image-Edit-2509 显著提高了一致性,主要体现在以下方面:
- 人物编辑一致性增强: 增强人脸ID保持,支持各种形象照片、姿势变换;
- 商品编辑一致性增强: 增强商品ID保持,支持商品海报编辑;
- 文字编辑一致性增强: 除了支持文字内容修改外,还支持多种文字的字体、色彩、材质编辑;
-
原生支持ControlNet: 包括深度图、边缘图、关键点图等
Qwen-Image-Edit-2509 的首要更新是支持了多图输入。
先看一个“人物+人物”的例子:
再看一个“人物+场景”的例子:
下面是一个“人物+物体”的例子:
值得一提的是,文字的编辑常常也可以和图像的编辑交融在一起,比如下面这个海报编辑的例子:
Qwen-Image-Edit-2509 还有一个值得关注的更新是原生支持了ControlNet的常用的图像条件,比如关键点控制、草图等。
如需体验最新模型,访问Qwen Chat并选择“图像编辑”功能。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
阿里通义发布旗舰语音合成模型 Qwen3-TTS-Flash
阿里通义Qwen团队宣布推出旗舰级多语言多音色文本转语音模型Qwen3-TTS-Flash,该模型支持多语言、多音色及多种汉语方言,在seed-tts-eval与MiniMax多语测试集上取得了SOTA级别的稳定性和相似度,并同步上线了API、Demo与多段音频样例。 官方团队称他们对Qwen3-TTS-Flash在语音稳定性和音色相似度方面进行了全面评估,结果显示其在多项指标上都达到了SOTA性能。 具体来说,在seed-tts-eval test set上,Qwen3-TTS-Flash在中英文的语音稳定性表现上均取得了SOTA成绩,超越了SeedTTS、MiniMax和GPT-4o-Audio-Preview。 此外,在MiniMax TTS multilingual test set上,Qwen3-TTS-Flash在中文、英文、意大利语和法语的WER均达到了SOTA,显著低于MiniMax、ElevenLabs和GPT-4o-Audio-Preview。在说话人相似度方面,Qwen3-TTS-Flash在英文、意大利语和法语均超过了上述模型,在多语言的语音稳定性和音色相似度上...
-
下一篇
智元机器人 GO-1 通用具身基座大模型全面开源
智元机器人 GO-1 (Genie Operator-1)通用具身基座大模型宣布全面开源。 “这标志着全球首个采用Vision-Language-Latent-Action (ViLLA)架构的通用具身智能模型向全球开发者免费开放,将极大降低具身智能的技术门槛,推动行业快速发展。” 根据介绍,GO-1采用的Vision-Language-Latent-Action (ViLLA)架构是具身智能领域的重大技术突破。与传统的Vision-Language-Action (VLA)架构相比,ViLLA通过引入隐式动作标记,成功弥合了图像-文本输入与机器人执行动作之间的语义鸿沟。这一创新使得机器人能够更好地理解人类意图,并将其转化为精确的动作执行。 ViLLA架构的核心在于其三层协同设计。VLM多模态理解层基于InternVL-2B构建,能够处理多视角视觉图片、力觉信号、语言输入等多模态信息,为整个系统提供强大的场景感知和指令理解能力。Latent Planner隐式规划器通过预测隐式动作标记,实现了对复杂操作任务的高层次规划和理解。Action Expert动作专家则基于扩散模型,能够生成高...
相关文章
文章评论
共有0条评论来说两句吧...