国产GPU正在填上CUDA护城河新智元

5/20/2026

老黄在北京喝豆汁「翻车」,全网笑疯了。但真正值得警惕的,是他背后那个正在长出来的「中国版CUDA生态」。从万卡集群到机器狗,从SGLang主线到AI Agent自动迁移,这家公司这次不只是秀芯片,而是在重写国产GPU的游戏规则!

这几天,老黄喝豆汁的表情包,已经在全网刷屏了。

他穿着黑色皮衣,端着炸酱面,站在方砖厂69号门口边拌边吃。

有人递过来一碗豆汁,他喝了一大口,眉头瞬间拧成一团,周围一片哄笑。

但他这次来北京,显然不只是来吃面的。

老黄自己说过一句话,「不要低估中国的实力和竞争力,那是愚蠢的。」

5月18日晚,炸酱面热搜还没凉,摩尔线程在北京开了年度产品发布会。

但所有这些硬件背后,有一条贯穿全场的主线——MUSA生态。

CUDA最硬的地方,是开发者的肌肉记忆

CUDA统治AI算力十五年,靠的不是芯片快,靠的是生态锁定。

几百万开发者的代码、习惯、工具链,甚至手指敲键盘的肌肉记忆,都长在CUDA上面。

换平台?重写代码、重学工具、重新踩坑。硬件采购只是一张订单,工程迁移是一场组织动员。

你能造出神兵利器,但很难改变几百万人的生活习惯——这才是卡脖子卡得最见血的地方。

所以国产GPU的竞争,到了今天,已经从「硬件替代」推进到「生态替代」。

硬件替代解决的是有没有卡,生态替代解决的是开发者愿不愿意来、模型能不能跑、行业敢不敢规模化采购。

如今,MUSA已经实现了芯片架构、指令集、编程模型、软件运行库、驱动框架和上层应用工具链的全面覆盖。

从云端万卡集群到个人算力本再到边缘SoC模组,跑的都是同一套MUSA。大模型训练、推理服务、智能体、机器人仿真,全部长在这同一个底座上。

这意味着他们卖的不是某一颗芯片、某一张卡,而是一整套国产全功能GPU的底层生态。

四级跃迁,MUSA开始从兼容走向自进化

具体来说,MUSA生态的进展可以拆成四个台阶。

兼容,原生,开放,自进化。

每往上一层,MUSA的角色就发生一次变化。

前两层解决迁移和性能,第三层解决开发者入口,第四层开始改变生态建设的成本结构。

第一层是兼容:先把开发者的旧代码吃下来

国产GPU应用最大的障碍之一,是迁移成本。

开发者已经习惯CUDA、PyTorch、cuDNN、Triton、vLLM、SGLang这一整套工具链。如果换一张卡就要重写工程、重新调试、重新踩坑,再漂亮的硬件指标也很难变成采购决策。

MUSA SDK 5.1.0直接对标CUDA 12.8,驱动及运行时API兼容数干到761个。

核心数学库Blas、Sparse、Rand、FFT,100%功能兼容。

AI算子库muDNN覆盖55类核心AI算子,额外扩展230多个。

PyTorch全量3194个算子,100%兼容,不是「大部分能凑合跑」,是全量。

绝大多数CUDA程序不改一行代码,直接在摩尔线程的卡上跑通。开发者凭肌肉记忆写出来的代码,MUSA全吃下了。

迁移成本越低,试用意愿越强。原有代码越能复用,组织内部推进国产算力,出错的风险和投入的成本都会大大降低。

第二层是原生:光能跑还不够,关键路径必须跑得快

兼容解决的是「能不能迁」,原生性能解决的是「迁过来值不值」。如果关键路径上性能拉胯,客户最后还是会把你放在备用方案的位置。

MATE加速库直接对着大模型最吃算力的几个算子开刀。FlashAttention3、Sage Attention、DSA、GDN、DeepGEMM,全是硬骨头。

FA3在摩尔线程GPU上效率飙到95%,热点算子覆盖率突破90%,Attention类算子全场景覆盖。

大模型训推的瓶颈从来不在「所有功能都支持」,而在Attention、GEMM、MoE通信、KV Cache这几条高频路径上。这几条路卡住,整套系统就被拖住。FA3到95%,意味着MUSA在最要命的环节上跟CUDA的差距已经是个位数。

此外,MUSA还新增了Fortran编译器,VASP等科学计算软件可以直接迁移。

TileLang-MUSA已经合入开源主线,GEMM类算子实现95%以上的汇编级性能效率,Attention类算子达到90%以上。

Triton-MUSA升级支持到Triton 3.6最新版本。

这些工具看起来离普通读者很远,但它们决定了硬核开发者愿不愿意在这个平台上写底层算子。

客户不会为情怀长期付费,只会为效率、稳定性和确定性付费。MUSA如果能在关键路径上持续接近原生效率,它的身份就会从「兼容层」变成「高性能开发平台」。

第三层是开放:进主线,才算真正上桌

整场发布会里,这一层的战略分量可能最重。

全球顶级推理引擎SGLang,已经将MUSA合入官方主线,并列入2026 Q2官方硬件支持矩阵,和GB200/GB300、AMD、TPU并列。

截至5月12日,摩尔线程在SGLang上提交47个PR,合并41个。

在vLLM那边,MUSA同样拿到官方后端身份。TileLang-MUSA也已经合入开源主线。

开发者在使用时,直接调用的就是框架。

框架支持谁,代码就能跑在谁的卡上。框架不支持,芯片再猛也是孤岛。

现在代码进入SGLang和vLLM主线,开发者在官方文档里就能看到MUSA后端。后续新模型、新工具、新推理策略的适配成本,会明显下降。

模型适配层也是同一个逻辑。

摩尔线程MTT S5000目前已完成DeepSeek V4、GLM-5.1、Qwen3.5、MiniMax M2.7、Kimi K2.6等大语言模型的深度适配。视觉理解和多模态模型也覆盖了Qwen3-VL-235B/8B和Wan 2.2。

重点在于Day-0。模型发布当天,MUSA算力就已经就位。

在大模型一个月一迭代的今天,客户关心的不只是某个历史模型能不能跑,而是下一个热门模型出来时,自己的算力底座能不能及时变成可用服务。

Day-0适配能力,本质上是在争夺模型时代的时间窗口。

更深一层看,中国最头部的大模型和国产算力底座同步就位,意味着从算法到硬件的完整链路正在变厚。

这条内循环一旦跑起来,每一次模型迭代都会给生态添一层土,而不是把已有系统再冲散一次。

Scroll for more