MetaGPT 发布 RealDevWorld：92% 精准度碾压 Claude-低调大师

MetaGPT 发布 RealDevWorld：92% 精准度碾压 Claude

2025-09-03 173

MetaGPT团队重磅推出了一款端到端自动化测试工具RealDevWorld，在AI驱动的软件开发领域掀起热议。这款工具以其惊艳的性能表现和高效的测试能力，在RealDevBench基准测试中取得了92%的精准度，评估一致性更是超越了Claude等前沿模型。

RealDevWorld是MetaGPT基于其多智能体框架开发的全新自动化测试工具，旨在实现从代码生成到质量保障的全链路自主化。该工具通过AppEvalPilot模块，模拟专业测试工程师的系统化流程，能够按照产品设计和场景边界进行验收测试，同时支持7×24小时不间断的全面测试。

相较于传统测试工具，RealDevWorld采用动态评估机制，摒弃静态基准测试的局限性，能够实时适应复杂开发场景。其高效性令人瞩目:平均8-9分钟即可完成对一个应用中15-20个功能组件的全面评估，且每次测试的成本低至约0.26美元，极大地降低了开发团队的测试成本。

在RealDevBench基准测试中，RealDevWorld展现了强大的性能表现，精准度高达92%，且在评估一致性上超越了Anthropic的Claude模型。这一突破得益于MetaGPT多智能体协作框架的优化，结合了GPT-4o和Claude3.5-Sonnet的强大能力。

RealDevWorld通过智能化的任务分解与协作机制，能够精准识别代码中的潜在问题，并生成高质量的测试报告。

RealDevWorld的一大亮点是其统一代码底座，支持桌面、移动和Web三大平台。这意味着开发者无需为不同平台编写单独的测试脚本，极大简化了跨平台测试流程。无论是Web应用的UI验证、移动应用的交互测试，还是桌面软件的功能评估，RealDevWorld都能提供一致的测试体验。

通过深度整合MetaGPT的多智能体架构，RealDevWorld能够自动生成测试用例、执行回归测试并提供详细的诊断反馈。其动态评估机制能够根据应用的更新实时调整测试策略，确保测试结果始终与实际需求高度契合。

RealDevWorld不仅性能强大，其经济性也令人印象深刻。据官方数据，该工具能够在8-9分钟内完成对15-20个功能组件的评估，而单次测试成本仅为0.26美元。这种高效低成本的特性使其成为中小型开发团队和大型企业的理想选择。

相较于传统测试框架如Selenium或Cypress，RealDevWorld通过AI驱动的动态评估和多智能体协作，提供了更高的灵活性和智能化水平。业内专家预测，这一工具可能成为2025年软件测试领域的行业标杆，特别是在快速迭代的敏捷开发环境中。

MetaGPT团队表示，RealDevWorld未来还将进一步优化，支持更多编程语言和更复杂的测试场景。

微信关注我们

原文链接：https://www.oschina.net/news/370072

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

美印风投机构组建超 10 亿美元联盟，注资印度培育 AI 独角兽

八家美国和印度知名风投机构史无前例地联手，成立印度深科技投资联盟，承诺在未来十年内投入超过10亿美元，要在印度这片土地上培育出真正的科技独角兽。这个名为"印度深科技投资联盟"的组织汇聚了风投界的传奇力量：Accel、Blume Ventures、Celesta Capital、Premji Invest等八家重量级机构齐聚一堂。这种正式结盟的做法在风投圈极其罕见——投资者通常是竞争关系，很少会在具有约束力的承诺下正式组成联盟。大多数跨境合作都是通过个别基金策略非正式进行的，而非通过这种协调一致的资本集团。联盟的成立时机颇有深意。今年4月，印度商务部长皮尤什·戈亚尔在一份题为"印度vs中国：初创企业现实检验"的报告中严厉批评国内初创公司专注于外卖配送而非创新，并将其与中国企业进行对比，此言一出立刻招致业界强烈反弹。多位投资者和创始人反驳称，印度缺乏深科技风险投资的资本，戈亚尔的评论忽视了为本土市场而努力奋斗的创始人们的决心。这个新联盟的成立显然是对这些担忧的直接回应。联盟的野心与印度政府的宏大计划不谋而合。印度政府在今年的国家预算中宣布了价值1万亿卢比（约合110亿美元）的研发创新...

2025-09-03

148

SE-Agent是一个自进化框架，通过轨迹级进化机制实现推理路径之间的信息交换，突破了单一轨迹的认知局限。该方法扩展了搜索空间，突破了局部最优，并展现了从集体交互中涌现的能力，在SWE-bench Verified上实现了80% 的 Top1 性能，真正实现了基于 LLM 的智能体在复杂推理任务中的自主进化。性能结果 SE-Agent 实现了三个核心的自我进化操作，改变了代理解决问题的方式： 1. 修订-失败驱动的策略生成通过深入的自我反思和有针对性的改进，分析单个失败的轨迹。它超越了简单的重试，识别基本方法的局限性，并创建架构上正交的问题解决范式。这包括分析单个轨迹以识别错误、低效或概念盲点，然后促使代理生成完全不同的解决方案来克服这些特定的局限性。 2.重组-跨轨迹知识合成通过智能地整合多条现有解决方案路径的优势，创建新的轨迹。跨轨迹灵感主要产生于此——SE-Agent 智能地从不同的轨迹中筛选出性能优异的片段，并将它们合并，从而构建出更优的方法。该流程明确地利用了各种尝试之间的相互依赖性，允许一个领域的成功弥补其他领域的不足，从而实现1+1>2 的协同效应，超越单个轨...

2025-09-03

148

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。