昆仑万维开源 Skywork UniPic 2.0
昆仑万维宣布正式开源 Skywork UniPic 2.0 模型——面向统一多模态建模的高效训练和推理框架,围绕生成和编辑模块轻量化、连接多模态理解模型进行联合训练,构建了理解、生图、编辑一体化的核心能力,旨在实现“高效、高质、统一”的多模态生成模型。
目前,Skywork UniPic 2.0 及其系列模型已全面开源,涵盖模型权重、推理代码、强化策略等。
Skywork UniPic 2.0 由三个核心模块组成:
- 生图编辑(下图中):基于 SD3.5-Medium 架构将原本只支持文本输入的模型改进成也接受文本图像同时输入,然后通过高质量图像生成和编辑数据的训练将原本生图能力扩展成生图、编辑双能力。
- 统一模型能力(下图左侧与中间):通过冻结生图编辑模块,多模态模型(Qwen2.5-VL-7B),Pre-Train连接器来构建出理解生成编辑一体化能力,再通过连接器和生图编辑模块一起联合微调,实现最终的一体化理解、生图、编辑模型。
- 生图编辑后训练(下图右):为提升生图编辑整体性能,设计了基于Flow-GRPO的渐进式双任务强化策略,实现了生成与编辑任务在不互相干扰下的协同优化,在预训练的基础上进一步提升了模型性能。
Skywork UniPic 2.0 的核心优势包括有:
- 生成模块轻量高效,性能拉满 生成模块基于2B参数的SD3.5-Medium 架构训练,生图和编辑指标超越生成模块具有7B参数的bagel,4B参数的OmniGen2,12B参数的UniWorld-V1和Flux-kontext模型。
- 引入强化学习,效果显著 基于Flow-GRPO首创渐进式双任务强化策略,有效提升模型对复杂指令的理解能力与图像生成和编辑的一致性,两大任务协同优化、互不干扰。
- 一体化灵活切换,拓展能力强 将生图编辑的Kontext模型与多模态模型端到端整合,微调轻量连接器,即可快速构建统一理解-生成-编辑模型,并且生图和编辑的性能进一步提升。
更多详情可查看官方公告。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
Fedora 43 获准支持 Hare 编程语言,默认启用硬链接
Fedora 工程与指导委员会 (FESCo) 本周批准了即将发布的 Fedora Linux 43 版本的多项新增功能。其中包括获准发布 Hare 软件包,Hare 是一种新的系统编程语言,旨在简化、稳定和健壮。 Hare 本身仍在开发中,但 FESCo 现已批准将 Hare 工具链打包并发布到 Fedora 43 的仓库中。 FESCo 还批准在 Fedora 43 中发布即将发布的 PHP 8.4 版本,这并不令人意外。FESCo 还批准弃用 YASM,转而使用 NASM。YASM 汇编器目前无人维护,而 NASM 的情况也好多了。 作为英特尔 oneAPI 线程构建版本 (TBB) 的最新更新,Threaded Building Blocks 2022.2 也已获批准发布。FESCo 本周还批准了默认对 Fedora RPM 软件包中 相同的 /usr 文件进行硬链接的提案。 有关 Fedora 43 版本中这些新批准更改的更多详细信息,请通过此 FESCo 邮件列表帖子获取,该版本将于今年晚些时候发布。
-
下一篇
腾讯混元发布 52B 参数多模态理解模型 Large-Vision
腾讯混元团队近日发布了全新的多模态理解模型——混元Large-Vision,该模型采用腾讯混元擅长的MoE(专家混合)架构,激活参数达到52B规模,在性能与效率之间实现了良好平衡。 混元Large-Vision的核心亮点在于其强大的多模态输入支持能力。该模型不仅支持任意分辨率的图像处理,还能处理视频和3D空间输入,为用户提供了全方位的视觉理解体验。这一技术突破意味着用户可以直接输入各种格式和尺寸的视觉内容,无需进行复杂的预处理操作。 MoE架构通过动态激活部分专家网络来处理不同类型的输入,既保证了模型的强大性能,又避免了全参数激活带来的计算资源浪费。52B的激活参数规模在当前多模态模型中处于先进水平,能够处理复杂的视觉理解任务。 该模型还重点提升了多语言场景理解能力,这对于全球化应用具有重要意义。在处理包含多种语言文字的图像或视频时,混元Large-Vision能够准确识别和理解不同语言环境下的视觉内容,为跨语言的多模态应用提供了技术基础。 混元Large-Vision支持任意分辨率图像输入的特性尤其值得关注。传统的视觉模型往往需要将输入图像调整到固定尺寸,这可能导致信息丢失或画质下降...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- CentOS7编译安装Cmake3.16.3,解决mysql等软件编译问题
- CentOS7编译安装Gcc9.2.0,解决mysql等软件编译问题
- CentOS7,CentOS8安装Elasticsearch6.8.6
- Hadoop3单机部署,实现最简伪集群
- CentOS7设置SWAP分区,小内存服务器的救世主
- CentOS6,7,8上安装Nginx,支持https2.0的开启
- CentOS关闭SELinux安全模块
- Linux系统CentOS6、CentOS7手动修改IP地址
- Dcoker安装(在线仓库),最新的服务器搭配容器使用
- Docker使用Oracle官方镜像安装(12C,18C,19C)