具身智能、万卡集群：摩尔线程MUSA卡位下一个算力十年

5月18日，摩尔线程在北京举办主题为“词元时代，万物智能”的年度产品发布会。摩尔线程创始人、董事长兼 CEO 张建中在发布会上开门见山的表示：“我们已真正进入词元时代。Token 不仅代表经济，更让整个世界焕新，带来万物智能。过去 IoT 是 Internet of Things，今天，它应该叫 Intelligence of Things。 ”

单应用日均 Token 消耗突破 140 万亿，智能体应用已撑起算力需求的半壁江山，国内头部大模型的迭代周期压缩至1——2个月——"算力荒"不再是预警，而是正在兑现的现实。但焦虑的另一面，是一个更深层的老问题：对于国产 GPU 而言，兼容 CUDA 几乎是一个“老生常谈”的问题，却鲜有成熟替代路径。

发布会上，摩尔线程全面展示了“云-边-端”全栈智算矩阵。从万卡级规模的夸娥智算集群，到自研“ 长江 ” SoC 驱动的智能终端 MTT AICUBE 和MTT AI BOOK；从数字世界智能体“小麦”，到加速物理AI落地的首个全栈具身智能仿真平台 MT Lambda，再到持续进化的 MUSA 生态。

这一次，它没有停留在硬件参数的比拼上。从对标 CUDA 12.8 的全栈兼容，到用 AI 驱动生态的自我进化，再到打通数字与物理世界的具身智能，摩尔线程正在证明一件事：国产 GPU 的下半场，芯片只是入场券，生态才是终局。

MUSA 5.1.0：用三年时间补上国产 GPU 的生态短板

长期以来，“兼容 CUDA” 更像国产 GPU 的宣传话术。开发者真正痛点不是算力差几个百分点，而是代码跑不通、算子对不上、迁移成本高到不可接受。多数厂商只做到局部 API 适配，远未达到工程可用的全链路兼容。

这正是 MUSA 5.1.0 试图打破的僵局。张建中在现场说得很直白：" MUSA 的目标从来不是做一个 CUDA 的替代品，而是要让 CUDA 开发者无缝迁移到国产平台，真正实现即插即用。"

从"部分可用"到"全面对齐"

驱动与运行时新增 248 个 API ，累计兼容 761 个核心接口，这意味着绝大多数 CUDA 程序可无需修改，在 MUSA 架构上高效运行。；

BLAS 、SPARSE、RAND、FFT 等核心数学库实现 100% 对齐，确保科学计算与AI训练的精度与效率；

支持 55 类核心 AI 算子，muDNN 算子库功能全面覆盖 cuDNN，并额外扩展 230+API，满足主流模型训推需求。；

最关键的突破： PyTorch 全部 3194 个算子实现 100% 兼容。这意味着全球数百万 PyTorch 开发者几乎无需修改代码，就能把模型搬到 MUSA 上。

全栈软件栈：不止兼容，更要自成体系

兼容只是起点。MUSA 同时构建了从底层驱动到上层应用的全栈软件架构：包括驱动、运行时、编程模型与工具链、加速库与框架、开发者套件等基础软件，也包含了集群的 AI 训推套件与系统管理软件。这种全栈设计避免了"头痛医头"的碎片化补丁，实现了系统级的性能提升。

在大模型训练与推理的热点算子上，MUSA也拿出了实际的性能数据：FlashAttention3 等 Transformer 核心算子在 MUSA 上达到 95% 的极致效率，基于 TileLang 自动调优的 Group GEMM 算子实现了 60% 的性能提升。

上周摩尔线程也公布正式合入 SGLang，这意味着" MUSA 的代码开始合入vLLM、SGLang 这些主流开源框架的主线，它就不再是一个被动的兼容者，而是开始成为生态的共建者。

云边端全域统一：一套架构，吃满词元时代的全部算力场景

与多数国产 GPU 厂商 All-in 云端训练不同，摩尔线程从成立之日起就押注"云-边-端"全栈布局，本次发布会将这一战略推到了极致。而 MUSA，正是贯穿三大场景的统一底层——一套架构、全域覆盖，既解决了产业碎片化的问题，也让算力的调度与协同有了统一的语言。

云端：万卡集群的训推一体化底座

云端是智算的主战场。MUSA 架构支撑的夸娥（KUAE）智算集群已实现万卡级规模的稳定运行，多项关键指标进入国际主流水平：Dense 大模型训练MFU达60%，MoE 大模型 MFU 达40%，有效训练时长达 90%，训练线性扩展效率达95%。

语音、视觉理解及多模态模型同样覆盖。更具标志性的是，MUSA 正式成为 vLLM 官方后端，并合入 SGLang官方主线获得原生支持——开发者无需额外适配，开箱即用。

边端与终端：智能的"神经末梢"，也是生态的入口

如果云端是大脑，边端与终端就是神经末梢。摩尔线程基于 MUSA 自研的"长江"智能 SoC 芯片，集成 CPU、GPU、NPU、VPU 等多个异构计算单元，算力达 50 TOPS，为端侧 AI 应用提供独立的算力底座。

在家庭场景，搭载"长江" SoC 的 MTT AICUBE 智能家庭 AI 中枢整合了"智能体+AI PC+AI NAS "三大能力。内置的"小麦"智能体预装 60 余项技能，可流畅运行本地大模型。

在个人开发场景，升级后的 MTT AIBOOK 专为智能体开发者打造：搭载原生MTT AIOS 系统，支持 12 个以上智能体同时运行，提供 90+工具调用接口，并创新支持原生 Linux 、虚拟化 Windows 及容器化 Android 多系统。一台AIBOOK，即可覆盖智能体的开发、调试与部署全流程。

面向工业边缘，MTT E300 AI 模组支持混合精度计算，可在严苛环境下稳定运行，瞄准工业质检、能源巡检、智能汽车、低空经济等低延迟场景。

有人质疑摩尔线程做 To C 产品是否分散精力。但换个角度看，AICUBE 和AIBOOK 不只是消费品，更是 MUSA 生态的"开发者入口"。用一台价格亲民的设备让普通用户和开发者接触到 MUSA 架构、养成使用习惯，这种渗透方式远比纯技术推广高效——当年 CUDA 生态的起点，不也是从一块游戏显卡开始的吗？

用AI 建生态，摩尔线程开辟GPU发展新路径

全栈兼容是 MUSA 的基础。但真正让摩尔线程拉开身位的，是它对生态建设方式本身的重新定义。

传统 GPU 生态建设是一个"人力密集型"工程：厂商雇大量工程师，逐个迁移代码、逐个开发算子、逐个适配框架，效率低、周期长。英伟达用了二十多年才建起 CUDA 的壁垒，国产厂商沿用同样的路径追赶，永远只能跟在后面。

摩尔线程的解法是：让 AI 来建设 AI 的生态。

本次发布会推出的两个 AI 工具，正在改变生态建设的速度公式：

Automusify 智能迁移工具 ——基于大模型技术，实现了对 Top 100 人工智能与 Top 100 科学计算加速仓库的 100% 零干预自动迁移。开发者上传CUDA 代码，全程无需人工参与。迁移后的精度与性能，与原代码保持一致。

MUSACODE AI 编程助手 ——通过大模型智能体协同，已成功开发并交付超10000 个 Kernel 算子，覆盖绝大多数通用计算与 AI 计算场景。开发者无需学习 MUSA 语法，用自然语言描述需求，目前已原生集成在 VSCode 中，即装即用。

张建中的判断是："过去我们说'软件定义硬件'，现在我们要说' AI 定义软件'。MUSA 生态不是靠摩尔线程一家来建，而是靠所有开发者，加上 AI 的力量，共建一个自进化的生态。"

这句话的潜台词是：生态建设的游戏规则正在被改写。"谁先积累了二十多年开发者"这个护城河，也许没有想象中那么不可逾越。

在开源与开放上，摩尔线程在 GitHub 上开放了所有加速库与工具链的源代码，并发起了 PES 开发者联盟，联合中国移动、智源研究院、智谱 AI 等上下游伙伴，共同推进产业落地。

押注具身智能：摩尔线程提前卡位下一个算力主航道

大模型技术逐渐成熟之后，具身智能被公认为 AI 产业的下一个风口。但这条路有三道几乎绕不过去的坎：数据稀缺、真机训练成本高、场景难以泛化。

摩尔线程基于 MUSA 架构打造的 MT Lambda 全栈具身智能仿真平台，试图一站式解决这些问题。

数据"零拷贝"，仿真效率大幅提升；中间层融合了自研的 AlphaCore 物理引擎、渲染引擎与 AI 引擎；上层则提供 MT Lambda-Lab 策略开发与训练平台，以及 MT Lambda-Sim 高保真仿真平台。

发布会现场，摩尔线程现场演示了其机器狗，直观展示了平台在策略开发与动作训练上的效果。同时，摩尔线程宣布了一系列生态合作落地：

与光轮智能联合打造国产合成数据解决方案，依托千卡夸娥集群每天可生成10万帧高保真合成数据；与智源研究院合作，实现任务资产一键导入、智能体算力调度、训练推理加速的全链路闭环。

上市后的摩尔线程，到底想成为什么？

2025 年成功登陆科创板之后，摩尔线程的战略节奏明显加快。从官宣 AI 训推一体智算卡 MTT S5000，到本次推出全栈智算矩阵，摩尔线程正在从一家 “GPU 芯片公司” 快速转型为一家 “全栈智算解决方案提供商”。

这种转型背后，是摩尔线程对行业趋势的深刻判断：未来的算力竞争，不再是单一芯片的竞争，而是全栈能力的竞争。随着 Agentic AI 和具身智能的兴起，算力需求正在从云端向边端和终端扩散，单一的云端 GPU 厂商无法满足全场景的算力需求。只有打通云边端，提供从硬件到软件、从训练到部署的一站式解决方案，才能在未来的竞争中占据主动。

同时，摩尔线程也在刻意与“英伟达替代者” 的标签划清界限。张建中在发布会上多次强调， MUSA 的目标不是复制 CUDA，而是打造一个更适合 AI 时代的开放生态。与英伟达封闭的生态模式不同，MUSA 坚持开源与开放的原则，在 GitHub 上开放了所有加速库与工具链的源代码，并发起了 PES 开发者联盟，联合上下游伙伴共同建设生态。

当然，我们也要清醒地看到，MUSA 生态与 CUDA 之间仍然存在不小的差距。虽然在核心 API 和算子层面已经实现了全面兼容，但在行业应用的深度和广度上，还有很长的路要走。同时，高端 GPU 的硬件性能与英伟达的最新产品相比，仍然存在一定的差距。

但不可否认的是，摩尔线程已经找到了一条适合国产 GPU 的发展道路：用全栈布局覆盖所有算力场景，用 AI 加速生态建设，用开放吸引开发者。这种 “全栈 + 自进化 + 开放” 的模式，为国产 GPU 的突围提供了一个全新的思路。

发布会尾声，张建中说： “词元时代的到来，为国产算力提供了前所未有的历史机遇。过去我们是追赶者，现在我们有机会成为并行者，甚至在某些领域成为引领者。”

言外之意是：AI 算力的格局正在改写。芯片之争只是上半场，生态之争才是终局。谁能把云、边、端打通，把训练、推理、仿真打通，把开发者、企业、硬件伙伴团结在一起，谁就能握住下一代算力的主动权。

MUSA 的故事刚刚开始。但对国产算力而言，一个更自主、更开放、更面向未来的选项，已经站在了舞台中央。

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体)，仅供学习参考。用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权，请联系我们反馈本站将在三个工作日内改正。