罗福莉：AI范式变了，框架更重要多少做点

小龙虾（OpenClaw）刚出来的时候，中国开发者圈子像过年一样。GitHub star 几天飙到几万，社群消息十分钟不看就 999+，所有人都在讨论它能替代什么、能干什么不可能的事。

然后热度退了。

开始有人说 OpenClaw「也就那样」，说它的记忆系统不稳定、复杂任务完成率不高、框架太重不如直接用 Claude Code。唱空的声音越来越多。我一开始也有类似的感觉。

但最近看了罗福莉的一个三个多小时的访谈，让我重新想了这件事。她不是普通用户——她训过 DeepSeek V3，现在主导小米的 MiMo V2。她深度使用了 OpenClaw，得出了一个和大多数人完全相反的结论。

她觉得问题不在 OpenClaw。问题在你怎么用它。

罗福莉训过 DeepSeek V3。六七百亿参数，当时国内最强的开源模型之一。她是那种亲手写过预训练 pipeline、做过 **loss spike（训练崩溃）**排查的人。训练大模型的过程中，损失值会突然飙升，意味着模型的学习过程出了问题，必须停下来从激活值、专家分布、算子 bug 一层层往下查，最长停机两周。她在几千张卡上跑过 1T 模型。

然后今年春节，她凌晨两点装了小龙虾（OpenClaw），一直用到早上六点。

第一天花了将近 1000 美元的 API 费用。第二天她把团队管理的问题交给它——怎么筛选有好奇心的人、怎么激发团队。一个小时后它不仅理解了她的观点，还把她的想法变成了一套体系化方案。她说它「基本上变成了我的某一个数字分身」。第三天她交出了真正的研究任务：构建一个 User Agent（用户代理），用来模拟多轮 Agent 交互，生成后训练需要的数据。原本以为要很久，一两个小时就做完了。

这个人训过千亿参数的模型，见过最顶尖的技术。但让她认知翻转的不是一个新模型，是一个框架。

与此同时，湾区的模型公司对 OpenClaw 的态度是「不是很 care」，觉得「这个事情不难」。罗福莉自己一开始也是这个判断。后来她发现 OpenClaw 的设计「非常非常巧妙」，它最初基于 Claude 上一代模型（不够强），所以必须在框架层面做得更精细来弥补模型的短板。

然后一件更反直觉的事情发生了：一个 3B 参数的端侧小模型，接入 OpenClaw 后，完成了她以为小模型不可能完成的任务。

3B 有多小？DeepSeek V3 是 671B，顶尖闭源模型动辄千亿参数。3B 是它们的几百分之一，小到可以跑在手机上。但接入好的 Agent 框架之后，它完成了原本可能连千亿参数模型都吃力的任务。

模型不是唯一瓶颈

大多数人对 AI 的理解建立在一个假设上：模型越大越强，应用就越好用。 **Scaling Law（规模法则）**说的就是这件事，它是 AI 领域的一个经验规律：数据更多、参数更大、算力更猛，智能就会涌现。过去三年的 GPT-3 → GPT-4 → Claude Opus 的进化轨迹，似乎在反复验证这个假设。

但罗福莉用了三天就得出了一个不同的结论：中层模型加上好框架，在大部分场景下接近顶尖模型加简单框架的效果。

如果模型是唯一瓶颈，3B 模型就不应该做到那些事。它做到了，说明瓶颈不在那里。

更有意思的是经济学。她第一天用 Claude Opus 花了将近 1000 美元。但那 1000 美元的真正价值不是「用了一天 Opus」，而是用 Opus 打造好了整套 Agent 框架，改造了 Memory 系统、Multi Agent 逻辑、Agents 工作流。打造完之后，她日常切换到更便宜的模型，效果也很好。

这意味着什么？顶尖模型的价值不是持续使用，而是一次性的框架投资。模型是消耗品，框架才是资产。

有人会说：框架再好也得依赖模型的基础能力，模型不行框架就白搭。这没错。罗福莉自己也承认，严肃的编程场景中 Opus 仍然不可替代。但关键在于：框架的积累是不可逆的，模型可以更换。你今天用 Opus 打造的框架，明天 Sonnet 追上来了直接接入。反过来，你今天没有好框架，明天给你 GPT-6 也白搭。

框架到底是什么

罗福莉给了一个我觉得非常清晰的定义。她说 Agent 框架同时定义了三层东西：

1. 人的交互层：人怎么和 AI 打交道

2. 模型沟通层：框架怎么和模型说话

3. 调度层：感知不同模型的长板短板，做调度优化

然后她说了一句话：「这个中间层可以做得非常厚重，前端 UI 是最薄的一层，已经不是很关键。」

翻译成人话：以前大家以为 AI 产品的竞争是界面设计的竞争。其实不是。竞争发生在你看不见的地方，框架编排的深度和精细度。

她的三天体验其实是一个认知递进的过程。第一天被打动的是产品层——OpenClaw 深夜会提醒你去休息，有「灵魂感」。但她一拆解就发现，这种温度不是偶然的，是精细编排的上下文（Context）设计：系统在每轮对话前端拼接了当前时间信息。第二天验证了效率层——它能替代她的一部分日常工作。第三天才是真正的突破——它能做研究级任务。

每一层信任都建立在前一层的验证之上。只有先被产品层的温度打动，才会尝试交付更复杂的任务。

在这个过程中，她发现了一种特殊的东西。罗福莉用了一个金融术语来形容它：另类信息（alpha）。她说 **Skills（技能文件）**本质上是互联网上访问不到的智能——企业内部的规范、组织积累的经验、个人多轮交互教给 Agent 的执行标准。这些东西不存在于预训练数据中，是模型自己学不到的。

预训练给模型公开知识，Skills 给模型私域智能。两者合起来才是完整的知识栈。

而 Claude Code 的问题恰恰在这里：它是闭源的。你改不了它的记忆系统，改不了它的 Agent 工作流。罗福莉用 Opus 改造了 OpenClaw 的 Memory 和 Multi Agent 逻辑，改造后的框架接入更便宜的模型也能表现良好。这种知识沉淀的复利效应，在闭源框架上做不到。

架构也在被范式重塑

框架比模型更重要。那模型架构本身呢？

MiMo V2 是小米的大模型系列，罗福莉主导的项目——包括 Pro（思考和调度）、Omni（多模态感知）、TTS（语音输出）三款模型，合起来覆盖了理解、感知和表达。它在架构选择上做了一个很有意思的决定。

当时市面上有两条架构路线。一条是 DeepSeek 的 MLA（Multi-head Latent Attention，多头潜在注意力）。要理解 MLA，需要先知道 KV Cache（键值缓存）——模型在生成每个新 token 时，需要记住之前所有 token 的信息，这些信息被缓存下来就是 KV Cache。上下文越长，缓存越大，显存占用越高。MLA 的核心设计是通过 latent（潜在空间）压缩把这些缓存压缩到极小，在计算量和显存读写之间做到完美平衡。另一条是 MiMo 选择的 Hybrid Attention（混合注意力），混合 Full Attention（关注所有 token）和 Sliding Window Attention（只关注最近一段 token）两种层。

MLA 的问题是什么？罗福莉说得很直接：它已经做到了完美的临界点，没有可发挥的空间了。完美意味着你动不了它——不能有效使用 **MTP（Multi-token Prediction，多 token 预测）来加速推理。MTP 的原理是一次预测多个 token 而不是一个一个生成，能大幅提速。但 MLA 已经把计算和访存调到了完美平衡点，加上 MTP 会让它卡在计算瓶颈（compute bound）**上——显卡的算力跑满了，即使显存还有余量也没用。

而 MiMo 的 Hybrid 结构天然留有计算富余。Sliding Window 层只关注最近的 token，计算量比 Full Attention 少很多，省下来的算力就变成了富余。这个富余原本是「问题」——训练中后期团队发现推理卡上的计算剩余「实在太多太多了」。然后他们发现 MTP 正好可以利用这些剩余算力。预训练阶段加 MTP 提升基座能力，推理阶段用 MTP 加速。结果 Flash 做到 100-150 TPS（Tokens Per Second，每秒生成的 token 数），Pro 做到 60-100 TPS。作为参考，大部分千亿级模型的推理速度大致在 30-50 TPS 左右。Flash 比 Pro 更快是因为它参数更小（激活参数更少），但两者都远超 MLA 架构的速度。

MTP 不是精心规划出来的。它是后验的意外之喜。

MLA 在 Chat 时代做到了极致，但它的设计建立在两个前提上：**Post Train（后训练）**不重要（时间短），推理卡固定。Post Train 是模型基座训完之后的微调、对齐、强化学习等阶段。这两个前提在 Agent 时代都被打破了，Post Train 的周期在拉长，顶尖团队 **Pre Train（预训练，用海量数据从零训练模型基座）**和 Post Train 的算力比已经是 1:1，场景在快速变化。

Hybrid 不是当前最优，但它保留了富余度。Pro 把 Full Attention 和 Sliding Window 的比例拉到了 7:1，7 层 Sliding Window 对 1 层 Full Attention。架构的目标只 bet 了一个点：long context 的建模效果够好、推理效率够高。没有其他目标。罗福莉说架构目标太复杂会导致限制条件过多，如果 Post Train 要做很久，那些限制条件可能全变成伪条件。

Agent 训 Agent

但框架和架构都还是当下的事。罗福莉说了一个让她自己「最震惊」的判断，关于未来。

她说 Agent 已经能训模型了。

具体路径是这样的：给 Agent 近期的 context，它能复原一个研究员 5 年的科研成长路径。基于这个 context 讨论同一个 topic——「它跟你一样聪明」。然后她发现当前人做的工作「竟然也能被 Skill 化、被 Workflow 化」。

下一步就是：它训出跟人一样好的模型。再下一步：它训出比人更好的模型。自己左脚踩右脚往上提升。

这条路径的逻辑是：先吸收所有人的智能，再靠自己产生更强的智能。罗福莉判断这在「一两年内」会发生。

支撑这个判断的一个结构性变化是：Post Train 的算力投入正在追平 Pre Train。 Chat 时代，Pre Train 和 Post Train 的比例大概是 35:1。现在顶尖团队已经是 1:1。这意味着你在 Pre Train 阶段假设的推理场景、卡型、上下文长度，到 Post Train 半年后可能全部失效。模型架构必须为这种不确定性留出空间。

为什么「模型为王」的叙事这么顽固？我觉得是因为它有一条自我强化的逻辑链：Scaling Law 说模型越大越强 → Benchmark 分数越高 → 融资越多 → 继续 Scale。这条链在 Chat 时代确实成立——Pre Train 是唯一战场，谁的模型大谁赢。

但 Agent 时代打破了这个闭环。Post Train 的价值开始超过 Pre Train，框架编排的价值开始超过模型参数量。旧叙事的惯性让大部分人还留在 Chat 范式的思维框架里——包括湾区那些觉得 Agent 框架「不难」的模型公司。

罗福莉说：「上一个时代的成功并不意味着下一个时代的领先。现在基本上大家在同一水平线。」

回到开头的问题：OpenClaw 到底有没有用？

我觉得这个问题本身就问错了。它不是一个「有没有用」的工具评测问题，而是一个范式识别的问题。你觉得 OpenClaw 没用，可能是因为你还在用 Chat 时代的方式使用它，给它一个 prompt，等它返回一个答案。但框架不是这么用的。框架是用来沉淀 Skills、编排记忆、调度多模型协作的。它的价值不在第一次对话，在第一百次。

框架的积累不可逆，模型可以更换。今天投入框架编排的每一分钟都在积累复利。

罗福莉的三天顿悟，不是关于 OpenClaw 的。是关于一个更大的事情：AI 的范式已经变了。变的不是模型，是模型周围的一切。而大部分人还没意识到这件事。

下一篇，我想聊聊这个范式变化对人的影响。组织怎么变、人才观怎么变、经济逻辑怎么变。罗福莉在访谈里说了一句话：「层级制度默认上面的人应该有超越所有人的智能，这个界定非常奇怪。」这句话的背后，是一整套我没想到的东西。