开源代码大模型,摩尔线程力推MusaCoder完成全栈训练

据悉2026年6月10日，摩尔线程正式发布并开源了MusaCoder，这是业内首个基于国产全功能GPU完成全链路训练与验证的代码大模型。

MusaCoder专为GPU底层算子生成任务设计，重点支持从PyTorch标准算子自动生成高性能CUDA/MUSA原生Kernel代码，大幅降低开发者手动编写和优化底层算子的门槛。

MusaCoder-27B-RL版本在权威的KernelBench评测中，Overall Pass@8高达93.2%，Avg.@8达到88.60%，一举超越Claude Opus 4.7、DeepSeek-V4 Pro等主流模型，性能达到行业领先水平。

其SFT、RL等全栈训练流程，均在摩尔线程基于MTT S5000旗舰AI训推一体卡构建的“夸娥”智算集群上完成。

在MusaCoder发布前，国产GPU更多扮演算力供应角色，支撑外部大模型的推理与部署。但MusaCoder的诞生，首次完整地证明了国产GPU不仅能跑模型，更能深度参与模型的全栈式训练。这标志着国产AI算力从可用迈向了“好用”的新阶段。

在MusaCoder的训练中，除了海量计算，更需要频繁进行代码生成-编译-执行-验证-反馈的密集循环，对计算精度、稳定性、效率要求苛刻。成功运行复杂的强化学习闭环，验证了国产全功能GPU能稳定支撑AI领域最前沿的技术研发。

然而，不同于通用代码助手，MusaCoder是专注生成GPU算子的专家。它同样支持9B和27B两种参数规模，方便开发者在性能和效率间选择。

MusaCoder背后的关键技术方法值得一看。

一是系统化训练策略。采用SFT（监督微调）、RFT（拒绝采样微调）、RL（强化学习）等多阶段流水线，模型还获得了生成–编译–执行–验证–修复的闭环反馈，与纸上谈兵式的纯语言模型训练有本质区别。

二是创新技术。在RL阶段，引入了PrimeEcho、MirrorPop、BDR等创新机制，提升了模型的多轮调试修复能力和训练稳定性。

三是强化执行验证。摩尔线程自研的MooreEval分布式执行验证系统，可对生成的代码进行自动编译、执行、正确性及性能验证，确保了学以致用。

MusaCoder的模型权重已在Hugging Face平台上线，面向全球开发者开源。

作为MUSA生态的关键一步，它将为开发者提供自动化生成MUSA原生Kernel的能力，让开发者更专注于上层应用创新。

下一步再增强MusaCoder在更复杂任务上的能力，并探索与IDE插件、自动调试、性能分析工具的结合，摩尔线程可以构建一条从PyTorch参考实现到高性能MUSA原生Kernel的全自动优化闭环。

【声明】本文和作者回复仅代表个人观点，不构成任何投资建议。

- END-

你怎么看？

欢迎文末评论！

欢迎点赞、在看、分享，一键三连