腾讯混元公布 SRPO 技术，解决大模型生图“过油”问题-低调大师

腾讯混元公布 SRPO 技术，解决大模型生图“过油”问题

2025-09-18 104 89

腾讯混元团队发布了最新研究成果 —— SRPO（Semantic Relative Preference Optimization，语义相对偏好优化），主要提供了文生图模型的强化算法，解决了开源文生图模型Flux的皮肤质感“过油”的问题，能让人像真实感提升3倍。

根据介绍，针对Flux.dev.1模型生成的人物质感“过油”的问题，SRPO 通过在线调整奖励偏好，优化早期生成轨迹等手段很好的解决了这个问题。

文生图领域传统的在线强化学习方法（如ReFL，DRaFT）虽展现极高的训练效率，但强依赖一个预先训练好的奖励模型。这些奖励模型除了需要耗费大量的成本收集数据外，还面临泛化性差的问题，通常难以满足多样化，高质量的后训练需求。

为了解决这个问题，腾讯混元团队联合香港中文大学（深圳）和清华大学提出了：语义相对偏好优化，通过语义偏好实现奖励模型的在线调整。

具体来说，SRPO通过为奖励模型添加特定的控制提示词（如“真实感”）来定向调整其优化目标。实验结果显示，这些控制词可以显著增强奖励模型在真实度等特定维度的优化能力。

研究人员进一步发现，单纯的语义引导仍存在奖励破解（rewardhacking）的风险。针对这一问题，团队提出创新的“语义相对偏好优化”策略：同时使用正向词和负向词作为引导信号，通过负向梯度有效中和奖励模型的一般性偏差，同时保留语义差异中的特定偏好。

并提出了Direct-Align策略，对输入图像进行可控的噪声注入，随后通过单步推理，借助预先注入的噪声作为“参考锚点”进行图像重建。这种方法显著降低了重建误差，实现更精准的奖励信号传导。从而支持对生成轨迹的前半段进行优化，解决过拟合问题。

SRPO具有极高的训练效率，只需10分钟训练即可全面超越DanceGRPO的效果。

SRPO 定量指标达SOTA水平，人类评估的真实度和美学优秀率提升超过3倍，训练时间相比DanceGRPO降低75倍。

论文链接：Directly Aligning the Full Diffusion Trajectory with Fine-Grained Human Preference

微信关注我们

原文链接：https://www.oschina.net/news/372907

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

2025-09-18 10:43:00

Linus 发布“吉他效果器”开源项目 GuitarPedal

Linux 内核创始人Linus Torvalds昨天在 GitHub 开源了一个名为 GuitarPedal 的“吉他效果器”项目。 https://github.com/torvalds/GuitarPedal 仓库包含电路原理图与少量代码，并非可量产的成品，而是他出于对模拟电路的好奇——把玩运算放大器、JFET 等元件，把焊电路当成“成人乐高”。 Linus 写道：无论如何，在制作了许多传统的模拟吉他踏板套件之后，我决定去真正了解它们是如何工作的，因为我确实对模拟电路的经验非常有限。我做过一些非常有限的电子工作，但几乎都与计算机有关，它们要么是数字逻辑，要么是开关电源。此外，我在寻找一种不同的焊接体验，其中通过孔组件的腿剪断较少。我实际上喜欢焊接 SMT 组件，但这通常不是那些吉他踏板套件所做的事情。几年前，我用 kicad 进行了一些非常有限的 PCB 设计，所以我就决定开始更多地学习模拟电路。然后它就从这个基础上发展起来了。 Linus 不弹吉他，项目也与 Linux 内核无关，这是纯属个人兴趣的硬件“草图”。 BTW，这个仓库应该是“现场制作”，Linus 一个小时...

105

2025-09-18 11:05:00

KubeSphere 社区版即将发布

KubeSphere 官方公众号发文宣布，KubeSphere 社区版即将登场 —— 一款永久免费、开箱即用的云原生容器平台。根据介绍，社区办包含四大亮点：永久免费：零成本无忧使用，持续迭代升级，构建云原生基石。简易安装：支持任意环境，在线/离线一键部署，扩容升级更省心。功能全面：多租户、可观测性、应用生命周期、DevOps 一应俱全。灵活扩展：可插拔架构，轻松集成主流开源工具，像搭积木一样扩展能力。

121

资源下载

更多资源

Mario，低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Apache Tomcat7、8、9（Java Web服务器）

Tomcat是Apache 软件基金会（Apache Software Foundation）的Jakarta 项目中的一个核心项目，由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定，而且免费，因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可，成为目前比较流行的Web 应用服务器。

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包，主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心，它包含了JAVA的运行环境（JVM+Java系统类库）和JAVA工具。

Sublime Text 一个代码编辑器

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。