小红书 AI 平台团队宣布正式开源 Relax —— 一款面向全模态与 Agentic 场景设计的大模型强化学习训练引擎。
根据介绍,Relax 基于 Megatron-LM 和 SGLang 高性能后端构建,以协同设计为核心理念,将全模态数据支持、服务化容错架构和异步训练流水线三个维度统一解决。在 Qwen3-Omni-30B 上,Relax 验证了图像、文本、音频和视频四种模态的 RL 训练稳定收敛;在 16xH800 多机下,训练全异步相比 Colocate 基线端到端提速 76%,相比 veRL 的全异步端到端提速 20%。
Relax 将每个 RL 角色(Actor、Critic、Rollout 等)封装为独立的 Ray Serve 部署,拥有独立的故障域、资源配额和健康监控,从而获得三个核心能力:
- 故障隔离:某个 Serve 故障(如OOM)不会传播到其他角色——两级恢复策略区分无状态角色(原地重启)和有状态角色(全局恢复),避免一个角色故障导致全局重启的代价。
- 独立伸缩:无需整体调整,可以单独增加 Rollout 副本而不影响 Critic 集群。
- 生命周期管理:每个角色从初始化到 checkpoint 到重启,都在服务级别管理,而非纠缠在全局训练循环中。

此外,Relax 提供了 分布式 Checkpoint 服务(DCS)——一个独立部署的权重同步服务。DCS 低延迟地将更新后的权重分发到所有推理引擎,使故障恢复无需回退到磁盘 checkpoint 并支持 NCCL(集群内 GPU-GPU 传输)和 TCP(跨集群传输)双通道,适配不同的部署拓扑。

Relax 集成 TransferQueue(TQ) 作为所有服务间的异步数据总线。TQ 的 Field-Level 存储使得同一样本的不同字段(生成结果、log-probs、奖励)可以在不同时刻独立写入和读取,直接匹配 RL 训练中各阶段在不同时间产生不同字段的多阶段计算模式。基于 TQ,Relax 仅通过一个 max_staleness 参数即可控制 On/Off-Policy 的模式切换,全异步下 On-Policy 相比 Colocate 性能提升 12%,Off-Policy 则提升 76%。


两项关键机制驱动了这一性能优势:
- 流式微批调度(Streaming Micro-Batch Scheduling):传统框架采用全局 batch 同步——rollout 必须生成整个 batch 后才能交付下游,比如一个 20k token 的长尾样本可能就会阻塞整个 step。Relax 将全局 batch 拆分为微批,每个微批完成后立即写入 TQ 供下游消费。
- Actor Train 资源分离:将 logp 和 ref_logp 计算部署在独立 GPU 资源上并行执行,通过异步传输完全掩盖在训练时间内。
Relax 支持图像、音频、视频等输入的统一处理与灵活接入,结合模态感知并行与端到端异步流水,提升多模态训练效率与可扩展性。在 Qwen3-Omni-30B 上,分别基于图文音频数据(AVQA-R1-6K)和视频数据(NextQA)进行 RL 训练(其中视频数据持续训练 2,000+ 步稳定收敛)

对于 Agentic RL 多轮推理、工具调用和搜索增强等场景,Relax 将 infra 与算法关注点剥离,支持业务灵活敏捷接入:
- 自定义 Rollout 与 Reward:支持多轮 Agentic 工作流(每个推理轮次可接收新的视觉输入),Rollout 服务维护会话状态,TQ 独立追踪每轮的字段就绪状态。Reward 计算支持规则奖励、生成式奖励模型(GenRM)和自定义 Reward 接口三种模式。
- Tool Use:工具调用作为异步服务调用融入 rollout 循环。

端到端性能:对比 veRL
在2机16卡 DAPO-Math 任务上较 veRL 提速 20%!加速来源于:流式微批调度消除全局 batch 同步瓶颈,资源分离将前向推理计算完全掩盖,消除 sleep/wakeup 开销。


MoE 训练稳定性:Near-Zero-Overhead R3
Relax 实现了性能近无损退化版的 R3(Rollout Routing Replay)。在Qwen3-30B-A3B 下 mismatch 降低 38%,仅增加 +1.9% 的额外耗时,而 veRL 开启 R3 后端到端耗时增加了 34%。Relax 通过重写序列化路径(把路由数据从 pickle 通道拆出来,走 NCCL 原生广播)和 GPU 驻留式的异步传输,使 R3 的数据传输和 replay 开销极低。
