开源强化学习框架 AReaL v0.5.0 发布,新增解耦式 Agentic RL
AReaL 是一个面向算法设计,以开发效率和灵活性为核心的强化学习框架,由蚂蚁百灵大模型团队开源。它通过极简的 API 和可扩展的插件机制降低用户的学习曲线和使用心智负担,让开发者聚焦于算法本身而非系统细节,具备大规模扩展、无侵入 Agentic RL、故障感知与自恢复等能力。
该项目近日发布新版本 v0.5.0,带来了解耦式 Agentic RL,以及 Single Controller 架构两个核心特性。
- 解耦式 Agentic RL
AReaL 通过 OpenAI API 代理,提供了一套解耦化的智能体训练服务解决方案,便于环境提供者、算法开发者和系统开发者形成复杂工程中的零障碍流水线,极大提升了开发效率与系统可维护性。
AReaL Agentic RL 的架构设计建立在两个核心原则之上:
1. Agent 完全独立运行(Agent Autonomy)
在 AReaL 框架中,Agent 本身不依赖任何 RL 框架的组件,也不感知自身正在被用于训练。它只是一个标准的、基于大语言模型(LLM)的决策系统,按照既定的编排逻辑接收输入、调用工具、生成动作并输出结果。这种设计确保了 Agent 的纯净性与可移植性——同一个 Agent 实现既可以用于在线推理,也可以无缝接入离线训练,真正做到"一套代码,两处复用"。
2. RL 训练作为外部观察者(RL as Observer)
AReaL 不主动干预 Agent 的执行流程,而是通过"代理请求"的方式,监听并记录 Agent 与环境交互的完整轨迹(Trajectory)。这些轨迹包括:用户输入、Agent 的思维链(Thought)、调用的动作(Action)、环境反馈(Observation)以及最终的奖励信号(Reward)。通过这种方式,AReaL 将复杂的 Agent 执行过程转化为标准的 RL 训练数据,从而可以使用任意成熟的 RL 算法进行策略优化。
- Single Controller 架构
消除了 SPMD (Single Program, Multiple Data) 模式的长尾和数据不均匀问题,这种分层设计既能提升推理扩展性、增强系统层面精细化控制,又能保留算法编排的灵活易用性,降低算法开发者代码迁移的成本。
Single Controller 架构如下:
下载地址:https://github.com/inclusionAI/AReaL/releases/tag/v0.5.0

