罗福莉:AI范式变了,框架更重要多少做点
小龙虾(OpenClaw)刚出来的时候,中国开发者圈子像过年一样。GitHub star 几天飙到几万,社群消息十分钟不看就 999+,所有人都在讨论它能替代什么、能干什么不可能的事。
然后热度退了。
开始有人说 OpenClaw「也就那样」,说它的记忆系统不稳定、复杂任务完成率不高、框架太重不如直接用 Claude Code。唱空的声音越来越多。我一开始也有类似的感觉。
但最近看了罗福莉的一个三个多小时的访谈,让我重新想了这件事。她不是普通用户——她训过 DeepSeek V3,现在主导小米的 MiMo V2。她深度使用了 OpenClaw,得出了一个和大多数人完全相反的结论。
她觉得问题不在 OpenClaw。问题在你怎么用它。
罗福莉训过 DeepSeek V3。六七百亿参数,当时国内最强的开源模型之一。她是那种亲手写过预训练 pipeline、做过 **loss spike(训练崩溃)**排查的人。训练大模型的过程中,损失值会突然飙升,意味着模型的学习过程出了问题,必须停下来从激活值、专家分布、算子 bug 一层层往下查,最长停机两周。她在几千张卡上跑过 1T 模型。
然后今年春节,她凌晨两点装了小龙虾(OpenClaw),一直用到早上六点。
第一天花了将近 1000 美元的 API 费用。第二天她把团队管理的问题交给它——怎么筛选有好奇心的人、怎么激发团队。一个小时后它不仅理解了她的观点,还把她的想法变成了一套体系化方案。她说它「基本上变成了我的某一个数字分身」。第三天她交出了真正的研究任务:构建一个 User Agent(用户代理),用来模拟多轮 Agent 交互,生成后训练需要的数据。原本以为要很久,一两个小时就做完了。
这个人训过千亿参数的模型,见过最顶尖的技术。但让她认知翻转的不是一个新模型,是一个框架。
与此同时,湾区的模型公司对 OpenClaw 的态度是「不是很 care」,觉得「这个事情不难」。罗福莉自己一开始也是这个判断。后来她发现 OpenClaw 的设计「非常非常巧妙」,它最初基于 Claude 上一代模型(不够强),所以必须在框架层面做得更精细来弥补模型的短板。
然后一件更反直觉的事情发生了:一个 3B 参数的端侧小模型,接入 OpenClaw 后,完成了她以为小模型不可能完成的任务。
3B 有多小?DeepSeek V3 是 671B,顶尖闭源模型动辄千亿参数。3B 是它们的几百分之一,小到可以跑在手机上。但接入好的 Agent 框架之后,它完成了原本可能连千亿参数模型都吃力的任务。
模型不是唯一瓶颈
大多数人对 AI 的理解建立在一个假设上:模型越大越强,应用就越好用。 **Scaling Law(规模法则)**说的就是这件事,它是 AI 领域的一个经验规律:数据更多、参数更大、算力更猛,智能就会涌现。过去三年的 GPT-3 → GPT-4 → Claude Opus 的进化轨迹,似乎在反复验证这个假设。
但罗福莉用了三天就得出了一个不同的结论:中层模型加上好框架,在大部分场景下接近顶尖模型加简单框架的效果。
如果模型是唯一瓶颈,3B 模型就不应该做到那些事。它做到了,说明瓶颈不在那里。
更有意思的是经济学。她第一天用 Claude Opus 花了将近 1000 美元。但那 1000 美元的真正价值不是「用了一天 Opus」,而是用 Opus 打造好了整套 Agent 框架,改造了 Memory 系统、Multi Agent 逻辑、Agents 工作流。打造完之后,她日常切换到更便宜的模型,效果也很好。
这意味着什么?顶尖模型的价值不是持续使用,而是一次性的框架投资。 模型是消耗品,框架才是资产。
有人会说:框架再好也得依赖模型的基础能力,模型不行框架就白搭。这没错。罗福莉自己也承认,严肃的编程场景中 Opus 仍然不可替代。但关键在于:框架的积累是不可逆的,模型可以更换。 你今天用 Opus 打造的框架,明天 Sonnet 追上来了直接接入。反过来,你今天没有好框架,明天给你 GPT-6 也白搭。
框架到底是什么
罗福莉给了一个我觉得非常清晰的定义。她说 Agent 框架同时定义了三层东西:
1. 人的交互层:人怎么和 AI 打交道
2. 模型沟通层:框架怎么和模型说话
3. 调度层:感知不同模型的长板短板,做调度优化
然后她说了一句话:「这个中间层可以做得非常厚重,前端 UI 是最薄的一层,已经不是很关键。」
翻译成人话:以前大家以为 AI 产品的竞争是界面设计的竞争。其实不是。竞争发生在你看不见的地方,框架编排的深度和精细度。
她的三天体验其实是一个认知递进的过程。第一天被打动的是产品层——OpenClaw 深夜会提醒你去休息,有「灵魂感」。但她一拆解就发现,这种温度不是偶然的,是精细编排的上下文(Context)设计:系统在每轮对话前端拼接了当前时间信息。第二天验证了效率层——它能替代她的一部分日常工作。第三天才是真正的突破——它能做研究级任务。
每一层信任都建立在前一层的验证之上。只有先被产品层的温度打动,才会尝试交付更复杂的任务。
在这个过程中,她发现了一种特殊的东西。罗福莉用了一个金融术语来形容它:另类信息(alpha)。她说 **Skills(技能文件)**本质上是互联网上访问不到的智能——企业内部的规范、组织积累的经验、个人多轮交互教给 Agent 的执行标准。这些东西不存在于预训练数据中,是模型自己学不到的。
预训练给模型公开知识,Skills 给模型私域智能。两者合起来才是完整的知识栈。
而 Claude Code 的问题恰恰在这里:它是闭源的。你改不了它的记忆系统,改不了它的 Agent 工作流。罗福莉用 Opus 改造了 OpenClaw 的 Memory 和 Multi Agent 逻辑,改造后的框架接入更便宜的模型也能表现良好。这种知识沉淀的复利效应,在闭源框架上做不到。
架构也在被范式重塑
框架比模型更重要。那模型架构本身呢?
MiMo V2 是小米的大模型系列,罗福莉主导的项目——包括 Pro(思考和调度)、Omni(多模态感知)、TTS(语音输出)三款模型,合起来覆盖了理解、感知和表达。它在架构选择上做了一个很有意思的决定。
当时市面上有两条架构路线。一条是 DeepSeek 的 MLA(Multi-head Latent Attention,多头潜在注意力)。要理解 MLA,需要先知道 KV Cache(键值缓存)——模型在生成每个新 token 时,需要记住之前所有 token 的信息,这些信息被缓存下来就是 KV Cache。上下文越长,缓存越大,显存占用越高。MLA 的核心设计是通过 latent(潜在空间)压缩把这些缓存压缩到极小,在计算量和显存读写之间做到完美平衡。另一条是 MiMo 选择的 Hybrid Attention(混合注意力),混合 Full Attention(关注所有 token)和 Sliding Window Attention(只关注最近一段 token)两种层。
MLA 的问题是什么?罗福莉说得很直接:它已经做到了完美的临界点,没有可发挥的空间了。 完美意味着你动不了它——不能有效使用 **MTP(Multi-token Prediction,多 token 预测)来加速推理。MTP 的原理是一次预测多个 token 而不是一个一个生成,能大幅提速。但 MLA 已经把计算和访存调到了完美平衡点,加上 MTP 会让它卡在计算瓶颈(compute bound)**上——显卡的算力跑满了,即使显存还有余量也没用。
而 MiMo 的 Hybrid 结构天然留有计算富余。Sliding Window 层只关注最近的 token,计算量比 Full Attention 少很多,省下来的算力就变成了富余。这个富余原本是「问题」——训练中后期团队发现推理卡上的计算剩余「实在太多太多了」。然后他们发现 MTP 正好可以利用这些剩余算力。预训练阶段加 MTP 提升基座能力,推理阶段用 MTP 加速。结果 Flash 做到 100-150 TPS(Tokens Per Second,每秒生成的 token 数),Pro 做到 60-100 TPS。作为参考,大部分千亿级模型的推理速度大致在 30-50 TPS 左右。Flash 比 Pro 更快是因为它参数更小(激活参数更少),但两者都远超 MLA 架构的速度。
MTP 不是精心规划出来的。它是后验的意外之喜。
MLA 在 Chat 时代做到了极致,但它的设计建立在两个前提上:**Post Train(后训练)**不重要(时间短),推理卡固定。Post Train 是模型基座训完之后的微调、对齐、强化学习等阶段。这两个前提在 Agent 时代都被打破了,Post Train 的周期在拉长,顶尖团队 **Pre Train(预训练,用海量数据从零训练模型基座)**和 Post Train 的算力比已经是 1:1,场景在快速变化。
Hybrid 不是当前最优,但它保留了富余度。Pro 把 Full Attention 和 Sliding Window 的比例拉到了 7:1,7 层 Sliding Window 对 1 层 Full Attention。架构的目标只 bet 了一个点:long context 的建模效果够好、推理效率够高。没有其他目标。罗福莉说架构目标太复杂会导致限制条件过多,如果 Post Train 要做很久,那些限制条件可能全变成伪条件。
Agent 训 Agent
但框架和架构都还是当下的事。罗福莉说了一个让她自己「最震惊」的判断,关于未来。
她说 Agent 已经能训模型了。
具体路径是这样的:给 Agent 近期的 context,它能复原一个研究员 5 年的科研成长路径。基于这个 context 讨论同一个 topic——「它跟你一样聪明」。然后她发现当前人做的工作「竟然也能被 Skill 化、被 Workflow 化」。
下一步就是:它训出跟人一样好的模型。再下一步:它训出比人更好的模型。自己左脚踩右脚往上提升。
这条路径的逻辑是:先吸收所有人的智能,再靠自己产生更强的智能。罗福莉判断这在「一两年内」会发生。
支撑这个判断的一个结构性变化是:Post Train 的算力投入正在追平 Pre Train。 Chat 时代,Pre Train 和 Post Train 的比例大概是 35:1。现在顶尖团队已经是 1:1。这意味着你在 Pre Train 阶段假设的推理场景、卡型、上下文长度,到 Post Train 半年后可能全部失效。模型架构必须为这种不确定性留出空间。
为什么「模型为王」的叙事这么顽固?我觉得是因为它有一条自我强化的逻辑链:Scaling Law 说模型越大越强 → Benchmark 分数越高 → 融资越多 → 继续 Scale。这条链在 Chat 时代确实成立——Pre Train 是唯一战场,谁的模型大谁赢。
但 Agent 时代打破了这个闭环。Post Train 的价值开始超过 Pre Train,框架编排的价值开始超过模型参数量。旧叙事的惯性让大部分人还留在 Chat 范式的思维框架里——包括湾区那些觉得 Agent 框架「不难」的模型公司。
罗福莉说:「上一个时代的成功并不意味着下一个时代的领先。现在基本上大家在同一水平线。」
回到开头的问题:OpenClaw 到底有没有用?
我觉得这个问题本身就问错了。它不是一个「有没有用」的工具评测问题,而是一个范式识别的问题。你觉得 OpenClaw 没用,可能是因为你还在用 Chat 时代的方式使用它,给它一个 prompt,等它返回一个答案。但框架不是这么用的。框架是用来沉淀 Skills、编排记忆、调度多模型协作的。它的价值不在第一次对话,在第一百次。
框架的积累不可逆,模型可以更换。今天投入框架编排的每一分钟都在积累复利。
罗福莉的三天顿悟,不是关于 OpenClaw 的。是关于一个更大的事情:AI 的范式已经变了。变的不是模型,是模型周围的一切。 而大部分人还没意识到这件事。
下一篇,我想聊聊这个范式变化对人的影响。组织怎么变、人才观怎么变、经济逻辑怎么变。罗福莉在访谈里说了一句话:「层级制度默认上面的人应该有超越所有人的智能,这个界定非常奇怪。」这句话的背后,是一整套我没想到的东西。


