字节跳动开源 Scale-SWE 数据集-低调大师

字节跳动开源 Scale-SWE 数据集

2026-04-07 76

中国人民大学高瓴人工智能学院与字节跳动技术团队合作近日完成相关研究，发布 Scale-SWE 数据集。研究团队依托火山引擎的 Sandbox 基建，通过 Sandboxed multi-agent 系统，成功实现 SWE 任务的规模化拓展，构建起包含 100k 真实数据、目前规模最大的开源高质量 SWE 数据集。

基于该数据集蒸馏数据所训练的 Qwen3-30A3B-Instruct 模型，也在 SWE-bench-Verified 评测中取得了 64% 的优异成绩。

根据介绍，研究团队提出了一套在 Sandbox 环境中运行的多 Agent 工作流，主要包含三个核心模块：EBA（Environment Builder Agent）、UCA（Unit-test Creator Agent）和 PSWA（Problem Statement Writer Agent）。

EBA（Environment Builder Agent）：EBA 负责在 Sandbox 中自主探索仓库结构，定位并配置环境文件，如 README.md, setup.py, pyproject.toml 等并完成环境配置。在执行 pytest 等脚本验证环境后，可根据报错信息动态调整配置。该阶段对资源消耗较大，依赖高并发调度实现高效执行。
UCA（Unit-test Creator Agent）：针对缺乏自带 unit-test 的高质量 pull request，UCA 可依据代码差异与仓库完整代码自动生成 F2P/P2P 测试样例，并通过与环境交互进行调整，最终通过切换 commit 执行测试进行验证，确保测试用例符合定义。高并发物理机调度是本阶段快速验证的基础，因为数据量的规模高达 100k。
PSWA（Problem Statement Writer Agent）：PSWA 负责生成高质量的问题描述，要求既不泄露缺陷位置或解决方案，又能完整准确地反映问题语义。为防止信息泄露，团队选用指令遵循能力更强的 Gemini 3-Pro 作为驱动模型。消融实验显示，问题描述质量对模型 SFT 效果影响显著，在 SWE-bench-Verified 上差异可达近 10%。

上述三个 Agent 模块的高效协同，高度依赖稳定、高并发的 Sanbox 基础设施作为底座。依托火山引擎 Sandbox 基建，研究团队得以调度数千个 Sandbox 并发执行 SWE 数据构建任务，原本单台物理机需运行约 1 个月的工作量，现仅需 1 小时即可完成，且调度过程稳定可靠，有效避免了资源抢占问题。

同时，镜像拉取内置 cache 机制，大幅降低延迟。正是这一高并发调度能力，为 100k 量级 SWE 数据的快速构建提供了坚实支撑，使多 Agent 工作流的规模化落地成为可能。

为了验证 Scale-SWE 数据的效果，研究团队使用 DeepSeek v3.2 进行蒸馏。得到 71k 条成功轨迹，并基于 Qwen3-30B-A3B-Instruct 进行 SFT。结果如下：

实验表明，对于同等规模模型，Scale-SWE-Agent 相较于 Qwen3-Coder-30A3B 和 GLM-4.7-Flash-30A3B 均有显著提升。即便是更大规模的模型（如 KAT-Dev-32B）以及基于其他数据集训练的模型（如 SWE-Lego-32B），Scale-SWE 仍展现出稳定的性能优势，充分验证了该数据集的有效性。

此外，团队在相同蒸馏流程下，对比了不同数据集的效果，结果如下：

微信关注我们

原文链接：https://www.oschina.net/news/418336

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

一群虾协作，比一只虾强！Clawith：建立一个龙虾团队

清明节前夕，Anthropic 一纸公告封掉了所有第三方工具的订阅令牌访问震惊业界，无数 OpenClaw 用户早上醒来发现工具挂了，Hacker News 相关讨论帖子冲到 684 点，近千条评论大半都在骂；国内多家科技媒体公众号头版头条节日加班报道。为什么那么多人在用 OpenClaw？因为你一个人加一个 Claude，就能完成相当复杂的编程任务 —— 一个 Agent，一个上下文，搞定。但如果你的问题不是“一个人写代码”，而是“一个团队协同做事”呢？一只虾打天下的边界过去这一年，“AI Agent”这个词被说了无数遍，但大多数落地实践依然是同一个模式：一个用户，一个对话窗口，一个 Agent，完成一项任务。任务结束，上下文清空，下次从零开始。对于个人用户，这够用，但对于一个需要多部门协同、长周期持续运行、多人共享上下文的组织来说，这条路走不通——不是因为模型不够聪明，而是因为架构根本不是为协作设计的。你没法让两只 OpenClaw 互相传消息；你没法让一只 Agent 主动感知到另一只 Agent 正在处理的事，然后接力；你没法在整个组织里积累一个持续生长的共同记忆。这...

2026-04-07

55

>JeecgBoot AI 专题研究* Claude Code 缓存机制深度剖析：7 个隐藏 Bug 叠加触发的「死亡螺旋」你的配额去哪了？如果你最近发现自己的 Claude Code 额度消耗得莫名其妙地快 —— 相信我，你不是一个人。就在这几天，一位 Claude Max 20x 订阅用户发了一篇让整个社区炸锅的帖子：仅仅 4 月 1 日这一天，他就烧掉了整整一周 43% 的 token 配额。他没有做什么异常操作，只是正常写代码。这不是玄学，也不是 Anthropic 在悄悄限流。他花了几天时间逆向分析 Claude Code 的压缩后源码（cli.js），找到了 7 个可以叠加触发的缓存 Bug。这些 Bug 单独来看都能让你多花点冤枉钱，但叠在一起，就会形成一个把你的订阅费整包吞掉的「死亡螺旋」。最核心的一个 Bug：Extra Usage 会悄悄关掉你的缓存 7 个 Bug 里最致命的，是关于缓存时长的一处静默降级。在 Claude Code 的cli.js里，有一个函数负责向服务器申请缓存时长 —— 要么 1 小时，要么 5 分钟。正常情况下，你会拿到 ...

2026-04-07

46

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Rocky Linux

Rocky Linux（中文名：洛基）是由Gregory Kurtzer于2020年12月发起的企业级Linux发行版，作为CentOS稳定版停止维护后与RHEL（Red Hat Enterprise Linux）完全兼容的开源替代方案，由社区拥有并管理，支持x86_64、aarch64等架构。其通过重新编译RHEL源代码提供长期稳定性，采用模块化包装和SELinux安全架构，默认包含GNOME桌面环境及XFS文件系统，支持十年生命周期更新。

WebStorm

WebStorm 是jetbrains公司旗下一款JavaScript 开发工具。目前已经被广大中国JS开发者誉为“Web前端开发神器”、“最强大的HTML5编辑器”、“最智能的JavaScript IDE”等。与IntelliJ IDEA同源，继承了IntelliJ IDEA强大的JS部分的功能。