豆包团队开源多语言代码修复基准 Multi-SWE-bench-低调大师

豆包团队开源多语言代码修复基准 Multi-SWE-bench

2025-04-10 348

字节跳动豆包大模型团队宣布开源首个多语言类 SWE 数据集——Multi-SWE-bench，可用于评估和提升大模型“自动修 Bug”能力。

据介绍，在 SWE-bench 基础上，Multi-SWE-bench 首次覆盖 Python 之外的 7 种主流编程语言，是真正面向“全栈工程”的评测基准。其数据均来自 GitHub issue，历时近一年构建，以尽可能准确测评和提高大模型高阶编程智能水平。

该数据集是业内首个面向多语言代码问题修复的大模型评测基准，覆盖 Java、TypeScript、C、C++、Go、Rust 和 JavaScript 等编程语言。

论文链接：https://arxiv.org/abs/2504.02605
榜单链接：https://multi-swe-bench.github.io
代码链接：https://github.com/multi-swe-bench/multi-swe-bench
数据链接：https://huggingface.co/datasets/ByteDance-Seed/Multi-SWE-bench

Multi-SWE-bench 旨在补全现有同类基准语言覆盖方面的不足，系统性评估大模型在复杂开发环境下的“多语言泛化能力”，推动多语言软件开发 Agent 的评估与研究，其主要特性如下：

首次覆盖 7 种主流编程语言（包括Java、Go、Rust、C、C++、TypeScript、JavaScript），构建多语言开发环境下的代码修复任务，系统评估模型的跨语言适应与泛化能力；
引入任务难度分级机制，将问题划分为简单（Easy）、中等（Medium）和困难（Hard）三类，涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战；
1,632 个实例全部来源于真实开源仓库，并经过统一的测试标准和专业开发者的审核筛选，确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。

微信关注我们

原文链接：https://www.oschina.net/news/343753/doubao-multi-swe-bench

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

百度文心大模型 4.5 Turbo 将于 4 月 25 日亮相

百度发布官方预告，文心大模型 4.5 Turbo 将于 4 月 25 日的 Create 大会上正式亮相。 Create 2025 百度 AI 开发者大会将于 4 月 25 日在武汉体育中心举办，大会将围绕 MCP、DeepSeek、Agent、AI 编程等热点话题设置六大分会场。除此之外，百度还表示将在 4 月 25 日带来主旨会议、生态大会等内容，以及 40 多节 AI 公开课和 5000 平米 AI 展区。现场嘉宾包括：李彦宏：百度创始人、董事长兼首席执行官沈抖：百度集团执行副总裁、百度智能云事业群总裁王海峰：百度首席技术官神秘嘉宾不久前的 3 月 16 日，百度发布了文心大模型 4.5 和 X1，文心大模型 4.5已上线百度智能云千帆大模型平台，企业用户和开发者登录即可调用 API；文心大模型 X1也即将在千帆上线，百度搜索、文小言 App 等产品也将陆续接入文心大模型 4.5 和文心大模型 X1。文心大模型 4.5 是百度首个原生多模态大模型，在多模态理解、文本和逻辑推理等方面有显著提升，多项测试表现优于 GPT4.5，API 调用价格仅为 GPT4.5 的 1...

2025-04-10

262

作者：墨飏，世如，筱姜 4月9日，阿里云 AI 势能大会在北京召开，阿里云百炼上线业界首个全生命周期 MCP 服务，无需用户管理资源、开发部署、工程运维等工作，5分钟即可快速搭建一个连接MCP服务的 Agent（智能体）。作为云上托管 MCP 服务的最佳运行时，函数计算 FC 为阿里云百炼 MCP 提供弹性调用能力，用户只需提交 npx 命令即可"零代码"将开源 MCP Server 部署到云上，函数计算FC 会准备好计算资源，并以弹性、可靠的方式运行 MCP 服务，按实际调用时长和次数计费，欢迎您在阿里云百炼和函数计算FC 上体验 MCP 服务。函数计算业界首发 Serverless MCP 运行时一键实现 MCP Server 云上托管目前，MCP 官方及三方仓库提供了众多开源 MCP Server 实现，但社区主要使用本地 STDIO(Standard Input/Output) 即本地通信模式。若想将 MCP Server 托管成远端对外服务，改造成本较高，需解决协议转换、并发及客户端适配等问题。虽然市面上有一些开源 MCP Proxy 实现方案，但在实际业务场景下，稳...

2025-04-10

436

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。