腾讯混元公布 SRPO 技术,解决大模型生图“过油”问题

腾讯混元团队发布了最新研究成果 —— SRPO(Semantic Relative Preference Optimization,语义相对偏好优化),主要提供了文生图模型的强化算法,解决了开源文生图模型Flux的皮肤质感“过油”的问题,能让人像真实感提升3倍。

根据介绍,针对Flux.dev.1模型生成的人物质感“过油”的问题,SRPO 通过在线调整奖励偏好,优化早期生成轨迹等手段很好的解决了这个问题。

文生图领域传统的在线强化学习方法(如ReFL,DRaFT)虽展现极高的训练效率,但强依赖一个预先训练好的奖励模型。这些奖励模型除了需要耗费大量的成本收集数据外,还面临泛化性差的问题,通常难以满足多样化,高质量的后训练需求。

为了解决这个问题,腾讯混元团队联合香港中文大学(深圳)和清华大学提出了:语义相对偏好优化,通过语义偏好实现奖励模型的在线调整。

具体来说,SRPO通过为奖励模型添加特定的控制提示词(如“真实感”)来定向调整其优化目标。实验结果显示,这些控制词可以显著增强奖励模型在真实度等特定维度的优化能力。

研究人员进一步发现,单纯语义引导存在奖励破解rewardhacking风险针对这一问题团队提出创新语义相对偏好优化策略同时使用正向词负向作为引导信号通过负向梯度有效中和奖励模型一般性偏差同时保留语义差异特定偏好

并提出了Direct-Align策略输入图像进行可控噪声注入随后通过单步推理借助预先注入噪声作为参考锚点进行图像重建这种方法显著降低重建误差实现更精准奖励信号传导从而支持生成轨迹半段进行优化解决过拟合问题

SRPO具有极高的训练效率,只需10分钟训练即可全面超越DanceGRPO的效果。

SRPO 定量指标达SOTA水平,人类评估的真实度和美学优秀率提升超过3倍,训练时间相比DanceGRPO降低75倍。

优秀的个人博客,低调大师

微信关注我们

原文链接:https://www.oschina.net/news/372907

转载内容版权归作者及来源网站所有!

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

相关文章

发表评论

资源下载

更多资源
Mario,低调大师唯一一个Java游戏作品

Mario,低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长,特征是大鼻子、头戴帽子、身穿背带裤,还留着胡子。与他的双胞胎兄弟路易基一起,长年担任任天堂的招牌角色。

Apache Tomcat7、8、9(Java Web服务器)

Apache Tomcat7、8、9(Java Web服务器)

Tomcat是Apache 软件基金会(Apache Software Foundation)的Jakarta 项目中的一个核心项目,由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定,而且免费,因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可,成为目前比较流行的Web 应用服务器。

Java Development Kit(Java开发工具)

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包,主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心,它包含了JAVA的运行环境(JVM+Java系统类库)和JAVA工具。

Sublime Text 一个代码编辑器

Sublime Text 一个代码编辑器

Sublime Text具有漂亮的用户界面和强大的功能,例如代码缩略图,Python的插件,代码段等。还可自定义键绑定,菜单和工具栏。Sublime Text 的主要功能包括:拼写检查,书签,完整的 Python API , Goto 功能,即时项目切换,多选择,多窗口等等。Sublime Text 是一个跨平台的编辑器,同时支持Windows、Linux、Mac OS X等操作系统。