阿里发布面向真实执行场景训练的智能体模型:ROME-V0.1
阿里巴巴未来生活实验室与智能引擎、数据技术团队正式发布智能体模型ROME-V0.1(ROME isObviously an AgenticModEl)。 在多项主流 Agent 基准测试中,IFLow-CLI + ROME-V0.1在同规模开源模型中取得了领先结果,并在部分榜单上接近100B+ 参数规模模型——例如,在Terminal-Bench 2.0上达到24.72%的成功率,在SWE-bench Verified上取得57.40%的任务完成率。 ROME-V0.1 是面向真实执行场景训练的智能体模型,其并非针对某些单一评测的优化,而是建立在大规模真实环境交互、端到端执行闭环训练以及面向长链任务的强化学习范式之上。得益于完善的训练系统基建--ALE(Agentic Learning Ecosystem),ROME-V0.1 在 超过百万数量级别的可验证交互轨迹上完成训练。 详细介绍查看:https://mp.weixin.qq.com/s/9qM6iDu9yeagJa-Z9BFtcQ

