Factory.ai 发布软件工程 Agent “Droid”，刷新 Terminal-Bench 榜首-低调大师

Factory.ai 发布软件工程 Agent “Droid”，刷新 Terminal-Bench 榜首

2025-09-26 111 89

Factory.ai 宣布其开发的软件工程 Agent（Software Development Agent）“Droid” 在最新的 Terminal-Bench 基准测试中以 58.75% 任务完成率夺得第一，超越所有同类系统，成为当前表现最强的软件工程 Agent。

Terminal-Bench 是一个评测 AI Agent 在真实终端环境中完成端到端任务的公开平台，涵盖代码构建、依赖管理、数据与机器学习、系统与网络操作、安全性等多方面能力，强调的不只是编程，还包括环境探索、动态推理与鲁棒性。

官方介绍称，Droid 的领先优势不只是依赖模型本身，而是得益于其独特的代理架构设计，包括：

分层提示系统（hierarchical prompting），在关键时刻动态注入上下文；
针对不同模型进行定制化适配；
简化工具接口以提升稳定性；
加强环境感知和运行时优化；
引入计划生成、长进程支持等机制。

测试结果显示，即使搭配较轻量的模型，Droid 也能击败一些使用顶级模型但设计欠佳的代理，凸显了“代理架构比模型大小更关键”的理念。

在某个 “security-vulhub-minio” 任务中，任务虽看起来像是读取环境变量，但真正的解法涉及利用特定的 MinIO 漏洞 (CVE-2023-28432) 进行敏感信息披露。Droid + Opus 能识别、运用该漏洞，而其他模型组合往往不具备这类安全攻击知识。

在 “cron-broken-network” 任务中，需要先修复 curl 的问题、再挖掘潜在的更深层根因（模拟恶意软件阻止 curl 的恢复），Droid 在 Opus 模型下更可靠地识别和修补根因，而在其他模型下有时只做表面修复而没处理深层问题。

不同模型在能力上有侧重：如 GPT-5 在机器学习训练、视频编辑等领域表现更好，但它在一些“激进 / 高风险更改”的场景下更保守。考虑到成本差异，Droid + GPT-5 在多数实际应用场景可能是折中且高效的选择。

Factory.ai 还透露，未来将推动多代理协作、长期记忆机制以及全面开发流程自动化，让 Droid 无处不在地嵌入开发工具链，进一步释放 AI 在软件研发中的潜力。

微信关注我们

原文链接：https://www.oschina.net/news/374641

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

月之暗面开源 K2 Vendor Verifier，用于评估 API 供应商的调用能力

月之暗面（Moonshot AI）发布了名为 K2 Vendor Verifier（K2VV）的开源项目。该工具旨在帮助开发者直观地评估不同推理服务商在工具调用（tool call）场景下的准确率差异。月之暗面发现，不同模型 API 供应商提供的服务虽然都使用 Kimi K2 开源模型，但工具调用能力上差异很大。于是他们对此进行了测试并开源了测试工具。目前，该工具已集成至模型聚合平台 OpenRouter。用户可以通过一个可视化界面实时查看各家提供商的表现，并依据这些数据选择最适合自身业务需求的后端服务。开源地址：https://github.com/MoonshotAI/K2-Vendor-Verfier

109

阿里云自研大数据平台 ODPS 重磅升级：全面支持 AI 计算和服务

近日，在2025云栖大会ODPS专场论坛上，阿里云宣布自研大数据平台ODPS战略升级，全面支持AI计算和服务。正值ODPS十五周年之际，作为全球领先的算力底座，ODPS旗下三款核心产品ODPS-MaxCompute、ODPS-Hologres、ODPS-DataWorks协同发布，以"一体化、智能化、服务化"为核心，致力于为企业提供从数据治理、计算处理到智能服务的全链路AI原生能力，为自动驾驶实时决策、内容运营分析、智能广告精准投放等场景客户需求及千行百业提供下一代智能数据基础设施。国家信息中心信息化和产业发展部主任、未来产业和平台经济研究中心主任单志广以“从大数据到数据要素，从数据融合到知识驱动”为主题致开场辞，他表示：当前，数据已经和土地、劳动力、资本、技术一样，成为驱动经济增长的核心动能。随着人工智能的发展，大数据平台需要从'计算数据'向'孵化智能'转变，从“数据驱动”向“知识驱动”转型，推动丰富的行业数据转化为知识资产，在国家“人工智能+”战略行动的指引下，共同推动人工智能与大数据产业的深度融合发展，着力打造AI原生的智能计算引擎，加速构建“要素化、智能化、生态化”的数据发展...

72

资源下载

更多资源

优质分享Android(本站安卓app)

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario，低调大师唯一一个Java游戏作品

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Apache Tomcat7、8、9（Java Web服务器）

Tomcat是Apache 软件基金会（Apache Software Foundation）的Jakarta 项目中的一个核心项目，由Apache、Sun 和其他一些公司及个人共同开发而成。因为Tomcat 技术先进、性能稳定，而且免费，因而深受Java 爱好者的喜爱并得到了部分软件开发商的认可，成为目前比较流行的Web 应用服务器。

Java Development Kit(Java开发工具)

JDK是 Java 语言的软件开发工具包，主要用于移动设备、嵌入式设备上的java应用程序。JDK是整个java开发的核心，它包含了JAVA的运行环境（JVM+Java系统类库）和JAVA工具。