蚂蚁集团联合清华大学发布开源强化学习训练框架 AReaL v1.0 稳定版
3月4日,蚂蚁集团联合清华大学发布开源强化学习训练框架AReaL v1.0稳定版。该版本主打“Agent一键接入RL训练”:不用改代码,兼容各类Agent框架,让智能体强化学习训练开箱即用。 AReaL是首个全异步训推解耦的大模型强化学习训练系统,能让 Agent 在真实任务交互中获得反馈、持续优化决策。此次发布的v1.0版本让任意Agent零改造接入RL训练成为现实——通过在智能体与训练系统之间加入Proxy Worker中转层,开发者只需修改一个请求地址即可接入训练。 AReaL 亮点 异步强化学习:通过算法 - 系统协同设计,AReaL 支持完全异步的强化学习,实现最快训练,同时提供多轮智能体强化学习的实验支持。 开放与可复现:持续发布所有代码、数据集和 LLMs 强化学习训练方案。 可扩展性:AReaL 能够无缝适应不同的计算资源设置,从单个节点到 1K 个 GPU。 前沿性能:AReaL 能够生成在数学和编程方面具有前沿推理能力的模型。 AReaL v1.0 下载地址:https://github.com/inclusionAI/AReaL/releases/tag/v1.0...

