摩尔线程宣布正式发布并开源面向 GPU 底层算子生成的专用代码大模型 MusaCoder,包含 9B 和 27B 两个参数规模。
公告称,这是业内首个基于国产 GPU 算力底座完成全链路训练与验证的开源代码大模型,其完整后训练流程均在基于 MTT S5000 构建的夸娥智算集群上完成。
在 KernelBench 严格评测中,MusaCoder-27B-RL 以 Overall Pass@8 93.2%、Avg.@8 88.60% 的成绩,超越 Claude Opus 4.7、DeepSeek-V4 Pro、GLM-5.1、Kimi K2. 6等主流 SOTA 代码模型,性能达到当前行业领先水平。

该模型重点支持从 PyTorch 标准算子自动生成高性 能CUDA/MUSA 原生 Kernel 代码,旨在降低开发者手写底层 GPU 算子的门槛,提升 GPU 高性能计算场景下的代码生成、验证和优化效率。

MusaCoder构建了一套面向GPU原生算子(CUDA/MUSA)生成的大模型全栈后训练方法论。该流程覆盖数据构建、执行验证、强化学习优化等关键环节,使模型能够从基础代码能力逐步进化为具备底层算子生成与修复能力的专用模型。
- 在数据构建阶段,MusaCoder通过结构化推理过程和显式Shape信息注入,增强模型对张量形状、内存布局和索引关系的理解,解决从通用代码能力迁移到GPU Kernel生成任务时的冷启动问题。
- 在评测与训练环境方面,摩尔线程构建了MooreEval分布式执行验证系统。MooreEval能够对模型生成的代码进行自动编译、执行、正确性验证、性能测试和反作弊检测,并将结果转化为稳定的训练反馈信号。这使得模型不仅能学习“写出能运行的代码”,还能够进一步学习“写出正确、合法且更高效的原生GPU Kernel”。
- 在强化学习阶段,MusaCoder针对GPU Kernel生成任务中的多轮修复、训练稳定性和长尾困难样本等问题,引入了PrimeEcho、MirrorPop和BDR等机制,用于提升模型在多轮调试场景下的修复能力和训练稳定性。通过这些方法,MusaCoder打通了从基础代码微调到执行反馈强化学习的完整优化闭环。
