5月18日,摩尔线程在北京举办主题为“词元时代,万物智能”的年度产品发布会。 摩尔线程创始人、董事长兼 CEO 张建中 在发布会上开门见山的表示:“我们已真正进入词元时代。Token 不仅代表经济,更让整个世界焕新,带来万物智能。 过去 IoT 是 Internet of Things,今天,它应该叫 Intelligence of Things。 ”

单应用日均 Token 消耗突破 140 万亿,智能体应用已撑起算力需求的半壁江山,国内头部大模型的迭代周期压缩至1——2个月——"算力荒"不再是预警,而是正在兑现的现实。但焦虑的另一面,是一个更深层的老问题:对于国产 GPU 而言,兼容 CUDA 几乎是一个“老生常谈”的问题,却鲜有成熟替代路径。

发布会上,摩尔线程全面展示了“云-边-端”全栈智算矩阵。从万卡级规模的夸娥智算集群,到自研“ 长江 ” SoC 驱动的智能终端 MTT AICUBE 和MTT AI BOOK;从数字世界智能体“小麦”,到加速物理AI落地的首个全栈具身智能仿真平台 MT Lambda,再到持续进化的 MUSA 生态。

这一次,它没有停留在硬件参数的比拼上。从对标 CUDA 12.8 的全栈兼容,到用 AI 驱动生态的自我进化,再到打通数字与物理世界的具身智能,摩尔线程正在证明一件事: 国产 GPU 的下半场,芯片只是入场券,生态才是终局。

MUSA 5.1.0:用三年时间补上国产 GPU 的生态短板

长期以来,“兼容 CUDA” 更像国产 GPU 的宣传话术。开发者真正痛点不是算力差几个百分点,而是代码跑不通、算子对不上、迁移成本高到不可接受。多数厂商只做到局部 API 适配,远未达到工程可用的全链路兼容。

这正是 MUSA 5.1.0 试图打破的僵局。张建中在现场说得很直白:" MUSA 的目标从来不是做一个 CUDA 的替代品,而是要让 CUDA 开发者无缝迁移到国产平台,真正实现 即插即用 。"

从"部分可用"到"全面对齐"

驱动与运行时新增 248 个 API ,累计兼容 761 个核心接口,这意味着绝大多数 CUDA 程序可无需修改,在 MUSA 架构上高效运行。;

BLAS 、SPARSE、RAND、FFT 等核心数学库实现 100% 对齐 ,确保科学计算与AI训练的精度与效率;

支持 55 类核心 AI 算子 ,muDNN 算子库功能全面覆盖 cuDNN,并额外扩展 230+API,满足主流模型训推需求。;

最关键的突破: PyTorch 全部 3194 个算子实现 100% 兼容 。 这意味着全球数百万 PyTorch 开发者几乎无需修改代码,就能把模型搬到 MUSA 上。

全栈软件栈:不止兼容,更要自成体系

兼容只是起点。MUSA 同时构建了从底层驱动到上层应用的全栈软件架构:包括驱动、运行时、编程模型与工具链、加速库与框架、开发者套件等基础软件,也包含了集群的 AI 训推套件与系统管理软件。这种全栈设计避免了"头痛医头"的碎片化补丁,实现了系统级的性能提升。

在大模型训练与推理的热点算子上,MUSA也拿出了实际的性能数据:FlashAttention3 等 Transformer 核心算子在 MUSA 上达到 95% 的极致效率,基于 TileLang 自动调优的 Group GEMM 算子实现了 60% 的性能提升。

上周摩尔线程也公布正式合入 SGLang,这意味着" MUSA 的代码开始合入vLLM、SGLang 这些主流开源框架的主线,它就不再是一个被动的兼容者,而是开始成为生态的共建者。

云边端全域统一:一套架构,吃满词元时代的全部算力场景

与多数国产 GPU 厂商 All-in 云端训练不同,摩尔线程从成立之日起就押注"云-边-端"全栈布局,本次发布会将这一战略推到了极致。而 MUSA,正是贯穿三大场景的统一底层——一套架构、全域覆盖,既解决了产业碎片化的问题,也让 算力 的调度与协同有了统一的语言。

云端:万卡集群的训推一体化底座

云端是智算的主战场。MUSA 架构支撑的夸娥(KUAE)智算集群已实现万卡级规模的稳定运行,多项关键指标进入国际主流水平:Dense 大模型训练MFU达60%,MoE 大模型 MFU 达40%,有效训练时长达 90%,训练线性扩展效率达95%。

语音、视觉理解及多模态模型同样覆盖。更具标志性的是,MUSA 正式成为 vLLM 官方后端,并合入 SGLang官方主线获得原生支持——开发者无需额外适配,开箱即用。

边端与终端:智能的"神经末梢",也是生态的入口

如果云端是大脑,边端与终端就是神经末梢。摩尔线程基于 MUSA 自研的"长江"智能 SoC 芯片,集成 CPU、GPU、NPU、VPU 等多个异构计算单元,算力达 50 TOPS,为端侧 AI 应用提供独立的算力底座。

在家庭场景,搭载"长江" SoC 的 MTT AICUBE 智能家庭 AI 中枢整合了"智能体+AI PC+AI NAS "三大能力。 内置的"小麦"智能体预装 60 余项技能,可流畅运行本地大模型。

在个人开发场景,升级后的 MTT AIBOOK 专为智能体开发者打造:搭载原生MTT AIOS 系统,支持 12 个以上智能体同时运行,提供 90+工具调用接口,并创新支持原生 Linux 、虚拟化 Windows 及容器化 Android 多系统。一台AIBOOK,即可覆盖智能体的开发、调试与部署全流程。

面向工业边缘,MTT E300 AI 模组支持混合精度计算,可在严苛环境下稳定运行,瞄准工业质检、能源巡检、智能汽车、低空经济等低延迟场景。

有人质疑摩尔线程做 To C 产品是否分散精力。但换个角度看,AICUBE 和AIBOOK 不只是消费品,更是 MUSA 生态的"开发者入口"。用一台价格亲民的设备让普通用户和开发者接触到 MUSA 架构、养成使用习惯,这种渗透方式远比纯技术推广高效——当年 CUDA 生态的起点,不也是从一块游戏 显卡 开始的吗?

用AI 建生态,摩尔线程开辟GPU发展新路径

全栈兼容是 MUSA 的基础。但真正让摩尔线程拉开身位的,是它对生态建设方式本身的重新定义。

传统 GPU 生态建设是一个"人力密集型"工程:厂商雇大量工程师,逐个迁移代码、逐个开发算子、逐个适配框架,效率低、周期长。 英伟达 用了二十多年才建起 CUDA 的壁垒,国产厂商沿用同样的路径追赶,永远只能跟在后面。

摩尔线程的解法是: 让 AI 来建设 AI 的生态。

本次发布会推出的两个 AI 工具,正在改变生态建设的速度公式:

Automusify 智能迁移工具 ——基于大模型技术,实现了对 Top 100 人工智能 与 Top 100 科学计算加速仓库的 100% 零干预自动迁移。开发者上传CUDA 代码,全程无需人工参与。迁移后的精度与性能,与原代码保持一致。

MUSACODE AI 编程助手 ——通过大模型智能体协同,已成功开发并交付超10000 个 Kernel 算子,覆盖绝大多数通用计算与 AI 计算场景。开发者无需学习 MUSA 语法,用自然语言描述需求,目前已原生集成在 VSCode 中,即装即用。

张建中的判断是:"过去我们说'软件定义硬件',现在我们要说' AI 定义软件'。MUSA 生态不是靠摩尔线程一家来建,而是靠所有开发者,加上 AI 的力量,共建一个自进化的生态。"

这句话的潜台词是:生态建设的游戏规则正在被改写。"谁先积累了二十多年开发者"这个 护城河 ,也许没有想象中那么不可逾越。

在开源与开放上,摩尔线程在 GitHub 上开放了所有加速库与工具链的源代码,并发起了 PES 开发者联盟,联合 中国移动 、智源研究院、智谱 AI 等上下游伙伴,共同推进产业落地。

押注具身智能:摩尔线程提前卡位下一个算力主航道

大模型技术逐渐成熟之后,具身智能被公认为 AI 产业的下一个风口。但这条路有三道几乎绕不过去的坎:数据稀缺、真机训练成本高、场景难以泛化。

摩尔线程基于 MUSA 架构打造的 MT Lambda 全栈具身智能仿真平台 ,试图一站式解决这些问题。

数据"零拷贝",仿真效率大幅提升;中间层融合了自研的 AlphaCore 物理引擎、渲染引擎与 AI 引擎;上层则提供 MT Lambda-Lab 策略开发与训练平台,以及 MT Lambda-Sim 高保真仿真平台。

发布会现场,摩尔线程现场演示了其机器狗,直观展示了平台在策略开发与动作训练上的效果。同时,摩尔线程宣布了一系列生态合作落地:

与光轮智能联合打造国产合成数据解决方案,依托千卡夸娥集群每天可生成10万帧高保真合成数据;与智源研究院合作,实现任务资产一键导入、智能体算力调度、训练推理加速的全链路闭环。

上市 后的摩尔线程,到底想成为什么?

2025 年成功登陆 科创板 之后,摩尔线程的战略节奏明显加快。从官宣 AI 训推一体智算卡 MTT S5000,到本次推出全栈智算矩阵,摩尔线程正在从一家 “GPU 芯片公司” 快速转型为一家 “全栈智算解决方案提供商”。

这种转型背后,是摩尔线程对行业趋势的深刻判断:未来的算力竞争,不再是单一芯片的竞争,而是全栈能力的竞争。随着 Agentic AI 和具身智能的兴起,算力需求正在从云端向边端和终端扩散,单一的云端 GPU 厂商无法满足全场景的算力需求。只有打通云边端,提供从硬件到软件、从训练到部署的一站式解决方案,才能在未来的竞争中占据主动。

同时,摩尔线程也在刻意与“英伟达替代者” 的标签划清界限。张建中在发布会上多次强调, MUSA 的目标不是复制 CUDA,而是打造一个更适合 AI 时代的开放生态。 与英伟达封闭的生态模式不同,MUSA 坚持开源与开放的原则,在 GitHub 上开放了所有加速库与工具链的源代码,并发起了 PES 开发者联盟,联合上下游伙伴共同建设生态。

当然,我们也要清醒地看到,MUSA 生态与 CUDA 之间仍然存在不小的差距。虽然在核心 API 和算子层面已经实现了全面兼容,但在行业应用的深度和广度上,还有很长的路要走。同时,高端 GPU 的硬件性能与英伟达的最新产品相比,仍然存在一定的差距。

但不可否认的是,摩尔线程已经找到了一条适合国产 GPU 的发展道路:用全栈布局覆盖所有算力场景,用 AI 加速生态建设,用开放吸引开发者。这种 “全栈 + 自进化 + 开放” 的模式,为国产 GPU 的突围提供了一个全新的思路。

发布会尾声,张建中说: “词元时代的到来,为国产算力提供了前所未有的历史机遇。过去我们是追赶者,现在我们有机会成为并行者,甚至在某些领域成为引领者。”

言外之意是:AI 算力的格局正在改写。芯片之争只是上半场,生态之争才是终局。谁能把云、边、端打通,把训练、推理、仿真打通,把开发者、企业、硬件伙伴团结在一起,谁就能握住下一代算力的主动权。

MUSA 的故事刚刚开始。但对国产算力而言,一个更自主、更开放、更面向未来的选项,已经站在了舞台中央。

本站所有文章资讯、展示的图片素材等内容均为注册用户上传(部分报媒/平媒内容转载自网络合作媒体),仅供学习参考。 用户通过本站上传、发布的任何内容的知识产权归属用户或原始著作权人所有。如有侵犯您的版权,请联系我们反馈本站将在三个工作日内改正。