
据悉2026年6月10日,摩尔线程正式发布并开源了MusaCoder,这是业内首个基于国产全功能GPU完成全链路训练与验证的代码大模型。
MusaCoder专为GPU底层算子生成任务设计,重点支持从PyTorch标准算子自动生成高性能CUDA/MUSA原生Kernel代码,大幅降低开发者手动编写和优化底层算子的门槛。
MusaCoder-27B-RL版本在权威的KernelBench评测中,Overall Pass@8高达93.2%,Avg.@8达到88.60%,一举超越Claude Opus 4.7、DeepSeek-V4 Pro等主流模型,性能达到行业领先水平。
其SFT、RL等全栈训练流程,均在摩尔线程基于MTT S5000旗舰AI训推一体卡构建的“夸娥”智算集群上完成。
在MusaCoder发布前,国产GPU更多扮演算力供应角色,支撑外部大模型的推理与部署。但MusaCoder的诞生,首次完整地证明了国产GPU不仅能跑模型,更能深度参与模型的全栈式训练。这标志着国产AI算力从可用迈向了“好用”的新阶段。
在MusaCoder的训练中,除了海量计算,更需要频繁进行代码生成-编译-执行-验证-反馈的密集循环,对计算精度、稳定性、效率要求苛刻。成功运行复杂的强化学习闭环,验证了国产全功能GPU能稳定支撑AI领域最前沿的技术研发。
然而,不同于通用代码助手,MusaCoder是专注生成GPU算子的专家。它同样支持9B和27B两种参数规模,方便开发者在性能和效率间选择。
MusaCoder背后的关键技术方法值得一看。
一是系统化训练策略。采用SFT(监督微调)、RFT(拒绝采样微调)、RL(强化学习)等多阶段流水线,模型还获得了生成–编译–执行–验证–修复的闭环反馈,与纸上谈兵式的纯语言模型训练有本质区别。
二是创新技术。在RL阶段,引入了PrimeEcho、MirrorPop、BDR等创新机制,提升了模型的多轮调试修复能力和训练稳定性。
三是强化执行验证。摩尔线程自研的MooreEval分布式执行验证系统,可对生成的代码进行自动编译、执行、正确性及性能验证,确保了学以致用。
MusaCoder的模型权重已在Hugging Face平台上线,面向全球开发者开源。
作为MUSA生态的关键一步,它将为开发者提供自动化生成MUSA原生Kernel的能力,让开发者更专注于上层应用创新。
下一步再增强MusaCoder在更复杂任务上的能力,并探索与IDE插件、自动调试、性能分析工具的结合,摩尔线程可以构建一条从PyTorch参考实现到高性能MUSA原生Kernel的全自动优化闭环。
【声明】本文和作者回复仅代表个人观点,不构成任何投资建议。

夜雨聆风