腾讯混元公布 SRPO 技术,解决大模型生图“过油”问题
腾讯混元团队发布了最新研究成果 —— SRPO(Semantic Relative Preference Optimization,语义相对偏好优化),主要提供了文生图模型的强化算法,解决了开源文生图模型Flux的皮肤质感“过油”的问题,能让人像真实感提升3倍。
根据介绍,针对Flux.dev.1模型生成的人物质感“过油”的问题,SRPO 通过在线调整奖励偏好,优化早期生成轨迹等手段很好的解决了这个问题。
文生图领域传统的在线强化学习方法(如ReFL,DRaFT)虽展现极高的训练效率,但强依赖一个预先训练好的奖励模型。这些奖励模型除了需要耗费大量的成本收集数据外,还面临泛化性差的问题,通常难以满足多样化,高质量的后训练需求。
为了解决这个问题,腾讯混元团队联合香港中文大学(深圳)和清华大学提出了:语义相对偏好优化,通过语义偏好实现奖励模型的在线调整。
具体来说,SRPO通过为奖励模型添加特定的控制提示词(如“真实感”)来定向调整其优化目标。实验结果显示,这些控制词可以显著增强奖励模型在真实度等特定维度的优化能力。
研究人员进一步发现,单纯的语义引导仍存在奖励破解(rewardhacking)的风险。针对这一问题,团队提出创新的“语义相对偏好优化”策略:同时使用正向词和负向词作为引导信号,通过负向梯度有效中和奖励模型的一般性偏差,同时保留语义差异中的特定偏好。
并提出了Direct-Align策略,对输入图像进行可控的噪声注入,随后通过单步推理,借助预先注入的噪声作为“参考锚点”进行图像重建。这种方法显著降低了重建误差,实现更精准的奖励信号传导。从而支持对生成轨迹的前半段进行优化,解决过拟合问题。
SRPO具有极高的训练效率,只需10分钟训练即可全面超越DanceGRPO的效果。
SRPO 定量指标达SOTA水平,人类评估的真实度和美学优秀率提升超过3倍,训练时间相比DanceGRPO降低75倍。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
-
上一篇
Linus 发布“吉他效果器”开源项目 GuitarPedal
Linux 内核创始人Linus Torvalds昨天在 GitHub 开源了一个名为 GuitarPedal 的“吉他效果器”项目。 https://github.com/torvalds/GuitarPedal 仓库包含电路原理图与少量代码,并非可量产的成品,而是他出于对模拟电路的好奇——把玩运算放大器、JFET 等元件,把焊电路当成“成人乐高”。 Linus 写道: 无论如何,在制作了许多传统的模拟吉他踏板套件之后,我决定去真正了解它们是如何工作的,因为我确实对模拟电路的经验非常有限。 我做过一些非常有限的电子工作,但几乎都与计算机有关,它们要么是数字逻辑,要么是开关电源。 此外,我在寻找一种不同的焊接体验,其中通过孔组件的腿剪断较少。我实际上喜欢焊接 SMT 组件,但这通常不是那些吉他踏板套件所做的事情。 几年前,我用 kicad 进行了一些非常有限的 PCB 设计,所以我就决定开始更多地学习模拟电路。然后它就从这个基础上发展起来了。 Linus 不弹吉他,项目也与 Linux 内核无关,这是纯属个人兴趣的硬件“草图”。 BTW,这个仓库应该是“现场制作”,Linus 一个小时...
-
下一篇
KubeSphere 社区版即将发布
KubeSphere 官方公众号发文宣布,KubeSphere 社区版即将登场 —— 一款永久免费、开箱即用的云原生容器平台。 根据介绍,社区办包含四大亮点: 永久免费:零成本无忧使用,持续迭代升级,构建云原生基石。 简易安装:支持任意环境,在线/离线一键部署,扩容升级更省心。 功能全面:多租户、可观测性、应用生命周期、DevOps 一应俱全。 灵活扩展:可插拔架构,轻松集成主流开源工具,像搭积木一样扩展能力。
相关文章
文章评论
共有0条评论来说两句吧...