DeepSeek下一代“王炸”模型架构曝光智东西

据1月21日报道，DeepSeek-R1发布一周年之际，来自DeepSeek的神秘新模型“MODEL1”悄然现身GitHub代码库。

多位社区开发者推测，MODEL1很可能正是DeepSeek内测中的V3终极版本（V4模型），也有人猜测它可能代表一个完全独立于V系列的新模型。

▲海外开发者在X平台讨论MODEL1身份

近日，DeepSeek向其核心推理内核FlashMLA推送了一系列更新，而在这些提交中，一个此前从未公开亮相的模型命名引发了社区的高度关注——MODEL1。

▲DeepSeek代码库出现MODEL1相关（图源：X）

这一名称不仅出现在SM90架构相关的.cu内核实例化文件中，还贯穿在多个针对FP8稀疏解码路径的模板定义与内存布局注释里。

更关键的是，据海外开发者推测，MODEL1的背后将是一整套新的推理机制、算子结构与底层内存配置，会与DeepSeek现有V3.2模型呈现出完全不同的技术路径。

在相关代码文件中可以看到，MODEL1被用于核心解码函数的多个实例中，显式适配了头维度为64和128的场景，并专门部署在SM90和SM100架构上。

▲DeepSeek FlashMLA源码截图（图源：GItHub）

代码中多处调用了“ModelType::MODEL1”，与其对应的还有一套独立的持久化内核。这些文件与V32版本的持久化内核文件并行存在，这显示出DeepSeek或许已为该模型设计了与V3系列完全不同的编译路径与执行逻辑。

▲DeepSeek FlashMLA源码文件树（图源：GItHub）

更值得注意的是，在代码中，有一条特别注释写道：对于F3架构（即SM90平台）下的MODEL1模型，其KV缓存的内存stride必须是576B的整数倍。

▲海外网友推文截图（目前该条注释已于代码库内删除）

这一配置区别于V3.2的656B，暗示着MODEL1对底层内存对齐和调度有更为严格的要求，可能与其更复杂的运行时行为与动态缓存机制有关。

一位海外网友也对这部分代码进行了深入解读，他认为，MODEL1在整体结构上展现出更强的实验性特征，支持动态Top-K稀疏推理逻辑，还引入了额外的KV缓存区。

▲海外开发者的分析（图源：X）