(PleaseseeAPPENDIX1forEnglishsummary)
事件
2025年12月20–21日,摩尔线程在北京举办首届MUSA开发者大会(MDC2025)。大会围绕自主计算与开发者生
态展开,集中发布新一代全功能GPU架构花港、万卡级智算集群夸娥、推理与图形领域的关键性能突破,并系统
展示了以MUSA为核心的软件栈成熟度与生态建设进展。
点评
MUSA5.0已形成从指令集、编程模型、编译器到通信库的全栈体系,并在多个关键指标上实现接近国际主流水平
MUSA5.0已形成从指令集、编程模型、编译器到通信库的全栈体系,并在多个关键指标上实现接近国际主流水平
的工程化表现:1)开发体验:原生MUSAC,同时兼容TileLang、Triton,降低CUDA迁移门槛;2)性能指标:
muDNN中GEMM/FlashAttention效率>98%,通信效率~97%,编译器性能提升约3倍;3)生态策略:明确逐步开源
计算库、通信库、系统管理框架等核心组件;4)前沿扩展:MTX中间语言、muLang、MUSA-Q、muLitho等,覆盖
渲染、量子与计算光刻。
花港架构是此次大会的技术核心。公司发布新一代全功能GPU架构花港,在算力密度、能效、精度覆盖与互联能
力上全面升级,支持FP4–FP64全精度计算,并引入混合低精度(MTFP6/MTFP4)。在架构层面,花港强调异步编
程模型与超大规模互联(MTLink),为万卡乃至十万卡集群提供扩展基础。在此基础上,公司给出了清晰的产品
分化路径:
华山:面向AI训推一体与超大规模智算,定位下一代AI工厂底座;
庐山:专注高性能图形渲染,几何、AI、光追等指标实现数量级提升,全面对标3A游戏与专业图形创作需
求。
在国产GPU厂商中,摩尔线程是少数坚定走“全功能GPU”而非“单一AI加速器”路线的公司。“花港—华山—庐山”的
技术路径显示,公司并未在AI浪潮中放弃图形与通用计算,这在长期生态与开发者黏性上具备更高上限,但同时
也意味着更高的研发与工程复杂度。
夸娥万卡智算集群是对外展示工程能力的重要里程碑。集群在Dense模型与MoE模型上分别实现约60%与40%的
MFU,线性扩展效率约95%,有效训练时间占比超过90%。在训练侧,完整复现FP8训练流程;在推理侧,与硅基
流动合作,在DeepSeekR1671B模型上实现单卡Prefill>4000tokens/s、Decode>1000tokens/s。同时,公司公布了
MTTC256超节点的前瞻规划,强调计算+交换一体化的高密架构,为下一代超大规模智算中心做准备。
具身智能全栈赋能,打造仿真—训练—部署一体化平台。在本次大会上,摩尔线程正式发布MTLambda具身智能
仿真训练平台,以MUSA统一架构为底座,深度融合物理引擎、图形渲染引擎与AI计算引擎,构建覆盖开发、仿
真与训练的全栈式技术体系。该平台通过高精度物理仿真与真实感渲染环境,加速具身智能模型在复杂真实世界
场景中的学习与泛化能力,并与摩尔线程GPU算力、端云协同方案形成联动,为机器人、自动化与智能体等应用
提供高效、可扩展的训练基础设施,体现公司在融合计算方向上的前瞻布局。
风险:1)AI技术发展不及预期;2)上游供应短缺;3)AI数据中心建造放缓
研究报告ResearchReport
23Dec2025
中国电子China(Overseas)Technology
MDC2025:全功能GPU路线清晰,MUSA生态进入规模化验证阶段
MDC2025:AClearFull-FunctionGPURoadmapastheMUSAEcosystemEnterstheScale-UpValidationPhase
姚书桥BarneyYao