DeepSeek V4发布，黄仁勋预言成真差评X.PIN

一旦DeepSeek率先在华为平台上发布，对美国而言将是灾难性的结果"。

这里的"我国"指美国

这不是托尼说的，而是英伟达黄仁勋在某个播客上的原话。如今DeepSeek V4的出现，让老黄的预言成真了？

作为大家苦等了一年多的 DeepSeek 大版本迭代，只看性能差友们可能会略有失望。但 DeepSeek V4 是真便宜，价格对比国外模型直接腰斩属于是。

关于模型的具体内容，在白天的文章中已经提到，就不重复了。

但托尼觉得，随着这次发布，意义更重大的，是深度求索选择在华为昇腾平台上进行首发，结合下午的直播，这意味着 DeepSeek 完成了在国产硬件上的训练适配。

根据网友爆料，这次最先支持国产硬件训练的是 DeepSeek V4 Flash 的后训练过程，基于国产硬件的预训练也有望在今年下半年实现。

换句话说，从今天开始，大家嚷嚷了很久的 AI 全流程使用国产硬件，一下子就实现了！

大家可以把华为的昇腾平台理解为连 AI 芯片都是国产的 AI 计算平台。

假如一年以前有人跟我说，纯国产的AI平台能够支撑一款旗舰模型的全链路研发，托尼我也不敢相信。

但现在它就是成了，这对于国产AI的发展影响是很深远的。

之前老黄没少拿这个事儿游说美国政府让自己卖货，按照老黄的意思，在 AI 军备竞赛中，从底层的电力，冷却，消防这些基础设施，到芯片、服务器等算力设施，再到软件生态和模型的架构演进，这些要素都缺一不可，样样都赢才能赢麻到最后。

AI 是一块“五层蛋糕” - NVIDIA 博客- 英伟达

而咱们的优势，无疑是祖国强大的基建能力，以及充足的人才储备。这些能让我们打造出很多高性价比的模型。

但不得不承认，我们的芯片制程离世界顶端，确实有些差距。好在 AI 需要的芯片，打的是规模战、集群战。所以工程师们想了些办法，来解决制程上的不足。

一来，虽然制程工艺有限制，但芯片可以在不计成本的情况下，通过暴力堆规模，来提升算力。而在配套的内存上，国产也有自研 HBM（高带宽内存），来保证带宽没有瓶颈。

二来，虽然单颗芯片性能有限，但架不住量大管饱啊，把大量的芯片利用起来，组合成一个"计算中心"，塞进机柜里，其实就是这两年火热的超节点。

超节点的概念就是英伟达提出的，老黄也做了相应的布局，NVL72 系统把 72 个Blackwell GPU 集成到一个液冷机柜中，达成了约 180 PFLOPs 的 FP16 算力。

而国产芯片们想要堆出近似算力，就需要拿出更多的芯片。所以去年华为昇腾拿出了 384 超节点，通过 12 个机柜，每个机柜 32 张卡，硬是堆出 300 PFLOPs 算力，接近 NVL72 的两倍了。而今年差评更是在 MWC 现场看到了华为最新的 Atlas 950，也就是 8192 卡互联的超节点。

可最严重的一环，其实是生态。

托尼不得不承认，老黄是真有远见的。20年前，英伟达就开始为了 CUDA 生态埋伏笔，甚至牺牲掉了 GeForce 游戏显卡的利润，导致有一段时间差点在和 ATi/AMD 的竞争中死掉。

但英伟达成功熬到了黎明。所以差友们能看到，现在几乎所有 AI 相关的基础模型和优化都基于 CUDA 来运转、后起的 GPU、TPU 等 AI 计算生态都要向它低头。

甚至包括之前 DeepSeek 亲手打造的护城河之一：PTX 底层语言优化，也是为了把NVIDIA GPU 的性能榨干，让模型效率更高，从而让 DeepSeek 模型更有性价比。

也因此，对于国内来说，在制裁的大背景下，不论是华为昇腾的 CANN，还是摩尔线程的 MUSA，目前还要做对 CUDA 的兼容性支持，来让开发者能更快适应自家芯片。

但咱们也不能一直活在别人屋檐下。构建属于自己的软件生态，迫在眉睫。所以最近几年托尼也开始看到像 TileLang 这类由中国主导的生态项目，尝试在不同的方向构建出属于自己的护城河。

就是这些项目对于 CUDA 生态来说，并没有什么伤筋动骨的攻击性。