您现在的位置是:首页 > 文章详情

昆仑万维开源 Skywork UniPic 2.0

日期:2025-08-13点击:49

昆仑万维宣布正式开源 Skywork UniPic 2.0 模型——面向统一多模态建模的高效训练和推理框架,围绕生成和编辑模块轻量化、连接多模态理解模型进行联合训练,构建了理解、生图、编辑一体化的核心能力,旨在实现“高效、高质、统一”的多模态生成模型。

目前,Skywork UniPic 2.0 及其系列模型已全面开源,涵盖模型权重、推理代码、强化策略等。

Skywork UniPic 2.0 由三个核心模块组成:

  • 生图编辑(下图中):基于 SD3.5-Medium 架构将原本只支持文本输入的模型改进成也接受文本图像同时输入,然后通过高质量图像生成和编辑数据的训练将原本生图能力扩展成生图、编辑双能力。
  • 统一模型能力(下图左侧与中间):通过冻结生图编辑模块,多模态模型(Qwen2.5-VL-7B),Pre-Train连接器来构建出理解生成编辑一体化能力,再通过连接器和生图编辑模块一起联合微调,实现最终的一体化理解、生图、编辑模型。
  • 生图编辑后训练(下图右):为提升生图编辑整体性能,设计了基于Flow-GRPO的渐进式双任务强化策略,实现了生成与编辑任务在不互相干扰下的协同优化,在预训练的基础上进一步提升了模型性能。

Skywork UniPic 2.0 的核心优势包括有:

  • 生成模块轻量高效,性能拉满 生成模块基于2B参数的SD3.5-Medium 架构训练,生图和编辑指标超越生成模块具有7B参数的bagel,4B参数的OmniGen2,12B参数的UniWorld-V1和Flux-kontext模型。
  • 引入强化学习,效果显著 基于Flow-GRPO首创渐进式双任务强化策略,有效提升模型对复杂指令的理解能力与图像生成和编辑的一致性,两大任务协同优化、互不干扰。
  • 一体化灵活切换,拓展能力强 将生图编辑的Kontext模型与多模态模型端到端整合,微调轻量连接器,即可快速构建统一理解-生成-编辑模型,并且生图和编辑的性能进一步提升。

更多详情可查看官方公告

原文链接:https://www.oschina.net/news/365887
关注公众号

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。

持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。

文章评论

共有0条评论来说两句吧...

文章二维码

扫描即可查看该文章

点击排行

推荐阅读

最新文章