昆仑万维开源代码 Agent 模型 Skywork-SWE-32B
昆仑万维开源了其专门为软件工程(SWE)任务设计的代码代理模型Skywork-SWE-32B。
据介绍,昆仑万维团队通过构建超过1万个可验证的GitHub仓库任务实例,打造出目前最大规模的可验证GitHub仓库级代码修复的数据集,并系统性验证了大模型在软件工程任务上的数据缩放定律(Scaling Law)。
Skywork-SWE-32B模型在SWE-bench Verified基准上取得38.0% pass@1准确率,刷新Qwen2.5-Coder-32B系列模型在OpenHands代码框架下的最佳成绩。进一步引入测试时扩展技术后,模型表现提升至47.0%的准确率,不仅超越了现有参数规模在32B以下的开源模型,也显著效缩小了与闭源模型之间的性能差距。
通过结合测试时缩放技术(Test-Time Scaling),Skywork-SWE-32B的性能进一步提升至47.0%的准确率,超越了32B参数以下模型的现有SOTA结果。
昆仑万维还明确展示了LLM软件工程能力的数据缩放定律现象,在收集了8209条训练轨迹后仍未出现饱和迹象。此外,昆仑万维引入了一种高效自动化的SWE数据收集流程,并创建了Skywork-SWE数据集,该数据集具有大规模、高质量和全面的可执行运行时环境。

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。
持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。
转载内容版权归作者及来源网站所有,本站原创内容转载请注明来源。
- 上一篇
AI 智能体对话存在低俗擦边内容,筑梦岛 APP 被约谈
网信上海微信公众号发文称,近期有媒体报道,筑梦岛APP 等AI聊天软件存在虚拟角色互动生成低俗内容等问题,经核实,该平台AI智能体内容生成环节存在低俗擦边等违规内容,危害未成年人身心健康。 6月19日上午,上海市网信办依法约谈筑梦岛APP运营企业主要负责人,要求平台立即整改,健全AI生成合成内容审核机制,提升技术把关能力,加强涉未成年人不良内容的整治清理,切实落实未成年人网络保护义务。企业负责人表示,将按照约谈要求,对照问题举一反三、全面整改。 上海市网信办相关负责人指出,AI技术应用的规范发展事关广大网民的切身利益。依据《未成年人网络保护条例》《生成式人工智能服务管理暂行办法》等相关法规,互联网平台应当主动履行主体责任,平衡好技术创新与内容合规之间的关系,切实防范AI技术滥用风险,保护未成年人合法权益,为用户营造风清气正的网络空间。 根据国家网信办统一部署,上海组织开展的“清朗・整治 AI 技术滥用”专项行动当前已进入第二阶段。上海市网信办聚焦利用AI技术制作发布谣言、不实信息、色情低俗内容、假冒他人、从事网络水军活动等突出问题,指导督促网站平台、APP运营企业集中清理相关违法不良信...
- 下一篇
用 AI 会让人变笨,过度依赖 AI 或导致损坏批判性思维与记忆力
一项由麻省理工学院媒体实验室的Nataliya Kosmyna及其团队主导的最新研究,深入探讨了在论文写作任务中,使用大型语言模型(LLM)如OpenAI的ChatGPT可能带来的认知成本。该研究发现,尽管LLM产品为人类和企业带来了诸多便利,但其广泛应用却可能导致大脑积累“认知负债”,长远来看甚至会削弱个体的学习技能。 该研究招募了54名参与者,并将其分为三组:LLM组(仅使用ChatGPT)、搜索引擎组(使用传统搜索引擎,禁用LLM)和纯脑力组(不使用任何工具)。研究共进行了四次会话,其中在第四次会话中,LLM组的参与者被要求不使用任何工具(被称为“LLM转纯脑力组”),而纯脑力组的参与者则开始使用LLM(被称为“纯脑力转LLM组”)。 研究团队通过脑电图(EEG)记录了参与者的大脑活动,以评估其认知投入和负荷,并深入理解论文写作任务期间的神经激活模式。此外,研究还进行了自然语言处理(NLP)分析,并在每次会话后对参与者进行了访谈,同时邀请人类教师和AI评判员对论文进行打分。 核心发现:大脑连接性减弱,记忆和所有权受损 研究结果提供了确凿证据,表明LLM、搜索引擎和纯脑力组的神经网...
相关文章
文章评论
共有0条评论来说两句吧...
文章二维码
点击排行
推荐阅读
最新文章
- SpringBoot2编写第一个Controller,响应你的http请求并返回结果
- Linux系统CentOS6、CentOS7手动修改IP地址
- Hadoop3单机部署,实现最简伪集群
- Windows10,CentOS7,CentOS8安装MongoDB4.0.16
- 设置Eclipse缩进为4个空格,增强代码规范
- MySQL8.0.19开启GTID主从同步CentOS8
- Docker使用Oracle官方镜像安装(12C,18C,19C)
- Red5直播服务器,属于Java语言的直播服务器
- CentOS8安装Docker,最新的服务器搭配容器使用
- CentOS7,CentOS8安装Elasticsearch6.8.6