字节跳动开源 USO,支持统一风格与主体定制的图像生成模型
字节跳动团队近日发布并开源USO(Unified Style-Subject Optimized)模型,这是一个“统一风格-主体”定制生成框架,首次把“风格驱动”与“主体驱动”两类原本对立的图像生成任务合并到单一模型里,并在这两个维度上都达到了开源领域的最佳水平(SOTA)。
USO通过解耦内容与风格特征并引入奖励学习机制,首次实现了风格驱动与主体驱动生成任务的统一框架。
现有方法通常将风格相似性与主体一致性视为对立目标,而USO通过构建包含20万组三元组数据(风格参考图、去风格化主体图、风格化结果图)的训练集,提出跨任务协同解耦范式:利用主体生成模型生成高质量风格化数据,再通过风格奖励引导的解耦训练优化主体模型。
技术上采用SigLIP多尺度特征投影实现风格对齐训练,并通过内容-风格解耦编码器分离条件特征,最终结合风格奖励学习(SRL)进一步提升解耦效果。
USO代码与权重已在Hugging Face与GitHub公开,并配套在线Demo与一键安装脚本。
https://huggingface.co/bytedance-research/USO
https://huggingface.co/spaces/bytedance-research/USO
https://github.com/bytedance/USO
https://huggingface.co/papers/2508.18966

