您现在的位置是:首页 > 文章详情

阿里通义发布开源文生图模型 Qwen-Image

日期:2025-08-05点击:288

阿里通义千问团队开源了其首个图像生成基础模型Qwen-Image。该模型是一个拥有200亿参数的MMDiT(多模态扩散Transformer)模型,基于Apache 2.0许可证开源。

Qwen-Image在复杂文本渲染和精确图像编辑方面取得了显著进展,尤其在中文文本渲染上表现卓越。

Qwen-Image的主要特性包括:

  • 卓越的文本渲染能力: Qwen-Image 在复杂文本渲染方面表现出色,支持多行布局、段落级文本生成以及细粒度细节呈现。无论是英语还是中文,均能实现高保真输出。
  • 一致性的图像编辑能力: 通过增强的多任务训练范式,Qwen-Image 在编辑过程中能出色地保持编辑的一致性。
  • 强大的跨基准性能表现: 在多个公开基准测试中的评估表明,Qwen-Image 在各类生成与编辑任务中均获得SOTA,是一个强大的图像生成基础模型。

如需体验 Qwen-Image,访问 QwenChat(chat.qwen.ai) 并选择“图像生成”功能。同时该模型已在魔搭社区与 Hugging Face 开源。

ModelScope:https://modelscope.cn/models/Qwen/Qwen-Image
Hugging Face:https://huggingface.co/Qwen/Qwen-Image
GitHub:https://github.com/QwenLM/Qwen-Image
Technical report:https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-Image/Qwen_Image.pdf
Demo: https://modelscope.cn/aigc/imageGeneration?tab=advanced


示例展示

宫崎骏的动漫风格。平视角拍摄,阳光下的古街热闹非凡。一个穿着青衫、手里拿着写着“阿里云”卡片的逍遥派弟子站在中间。旁边两个小孩惊讶的看着他。左边有一家店铺挂着“云存储”的牌子,里面摆放着发光的服务器机箱,门口两个侍卫守护者。右边有两家店铺,其中一家挂着“云计算”的牌子,一个穿着旗袍的美丽女子正看着里面闪闪发光的电脑屏幕;另一家店铺挂着“云模型”的牌子,门口放着一个大酒缸,上面写着“千问”,一位老板娘正在往里面倒发光的代码溶液。

原文链接:https://www.oschina.net/news/364222
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章