小红书开源 Relax：面向全模态 Agentic 的异步 RL 训练引擎-低调大师

小红书开源 Relax：面向全模态 Agentic 的异步 RL 训练引擎

2026-04-15 85

小红书 AI 平台团队宣布正式开源 Relax —— 一款面向全模态与 Agentic 场景设计的大模型强化学习训练引擎。

根据介绍，Relax 基于 Megatron-LM 和 SGLang 高性能后端构建，以协同设计为核心理念，将全模态数据支持、服务化容错架构和异步训练流水线三个维度统一解决。在 Qwen3-Omni-30B 上，Relax 验证了图像、文本、音频和视频四种模态的 RL 训练稳定收敛；在 16xH800 多机下，训练全异步相比 Colocate 基线端到端提速 76%，相比 veRL 的全异步端到端提速 20%。

Relax 将每个 RL 角色（Actor、Critic、Rollout 等）封装为独立的 Ray Serve 部署，拥有独立的故障域、资源配额和健康监控，从而获得三个核心能力：

故障隔离：某个 Serve 故障（如OOM）不会传播到其他角色——两级恢复策略区分无状态角色（原地重启）和有状态角色（全局恢复），避免一个角色故障导致全局重启的代价。
独立伸缩：无需整体调整，可以单独增加 Rollout 副本而不影响 Critic 集群。
生命周期管理：每个角色从初始化到 checkpoint 到重启，都在服务级别管理，而非纠缠在全局训练循环中。

此外，Relax 提供了 分布式 Checkpoint 服务（DCS）——一个独立部署的权重同步服务。DCS 低延迟地将更新后的权重分发到所有推理引擎，使故障恢复无需回退到磁盘 checkpoint 并支持 NCCL（集群内 GPU-GPU 传输）和 TCP（跨集群传输）双通道，适配不同的部署拓扑。

Relax 集成 TransferQueue（TQ） 作为所有服务间的异步数据总线。TQ 的 Field-Level 存储使得同一样本的不同字段（生成结果、log-probs、奖励）可以在不同时刻独立写入和读取，直接匹配 RL 训练中各阶段在不同时间产生不同字段的多阶段计算模式。基于 TQ，Relax 仅通过一个 max_staleness 参数即可控制 On/Off-Policy 的模式切换，全异步下 On-Policy 相比 Colocate 性能提升 12%，Off-Policy 则提升 76%。

两项关键机制驱动了这一性能优势：

流式微批调度（Streaming Micro-Batch Scheduling）：传统框架采用全局 batch 同步——rollout 必须生成整个 batch 后才能交付下游，比如一个 20k token 的长尾样本可能就会阻塞整个 step。Relax 将全局 batch 拆分为微批，每个微批完成后立即写入 TQ 供下游消费。
Actor Train 资源分离：将 logp 和 ref_logp 计算部署在独立 GPU 资源上并行执行，通过异步传输完全掩盖在训练时间内。

Relax 支持图像、音频、视频等输入的统一处理与灵活接入，结合模态感知并行与端到端异步流水，提升多模态训练效率与可扩展性。在 Qwen3-Omni-30B 上，分别基于图文音频数据（AVQA-R1-6K）和视频数据（NextQA）进行 RL 训练（其中视频数据持续训练 2,000+ 步稳定收敛）

对于 Agentic RL 多轮推理、工具调用和搜索增强等场景，Relax 将 infra 与算法关注点剥离，支持业务灵活敏捷接入：

自定义 Rollout 与 Reward：支持多轮 Agentic 工作流（每个推理轮次可接收新的视觉输入），Rollout 服务维护会话状态，TQ 独立追踪每轮的字段就绪状态。Reward 计算支持规则奖励、生成式奖励模型（GenRM）和自定义 Reward 接口三种模式。
Tool Use：工具调用作为异步服务调用融入 rollout 循环。

端到端性能：对比 veRL

在2机16卡 DAPO-Math 任务上较 veRL 提速 20%！加速来源于：流式微批调度消除全局 batch 同步瓶颈，资源分离将前向推理计算完全掩盖，消除 sleep/wakeup 开销。

MoE 训练稳定性：Near-Zero-Overhead R3

Relax 实现了性能近无损退化版的 R3（Rollout Routing Replay）。在Qwen3-30B-A3B 下 mismatch 降低 38%，仅增加 +1.9% 的额外耗时，而 veRL 开启 R3 后端到端耗时增加了 34%。Relax 通过重写序列化路径（把路由数据从 pickle 通道拆出来，走 NCCL 原生广播）和 GPU 驻留式的异步传输，使 R3 的数据传输和 replay 开销极低。

微信关注我们

原文链接：https://www.oschina.net/news/421163

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

凌晨 4 点，他在用身体喂养机器人。

拉各斯的凌晨四点，还浸在浓得化不开的黑暗里。出租屋的窗户对着一条窄巷，远处偶尔传来几声野狗的吠叫，混着隔壁邻居熟睡的鼾声，在寂静里被拉得很长。25岁的Zeus猛地从硬板床上弹坐起来，额前的碎发被冷汗濡湿，眼底还带着未散的困意——但他没有丝毫犹豫，也没有躺下续觉，像是早已刻入本能的生物钟在驱使着他。他的动作很轻，生怕吵醒隔壁房间合租的伙伴，指尖在漆黑的床头柜上摸索，很快触到了那部边角磨得发亮的iPhone，还有一根早已被汗水浸得有些发潮的弹性绑带。这两件东西，是他过去三个月里最亲密的伙伴，也是支撑他活下去的唯一依靠。没有说明书，没有专人指导，他凭着合同里寥寥几句的描述，...

2026-04-15

81

Fastify 是一个高度专注于以最少开销和强大的插件架构为开发者提供最佳体验的 Node.js Web 框架，速度极快，它的灵感来源于 Hapi 和 Express。 Fastify v5.8.5 现已发布，本此更新带来以下内容： Security Release 此更新修复了 CVE-2026-33806 和 GHSA-247c-9743-5963 漏洞。 What's Changed chore：修复 port parsing 问题 #6603 chore：升级到 TypeScript v6.0.2 #6605 fix：恢复 number 和 string 类型的 trustPr...

2026-04-15

68

资源下载

更多资源

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。