罗福莉把它接进OpenClaw框架,结果让她意外dehaze

5/16/2026

罗福莉在小米负责大模型,手里有一个正在训练的3B端侧模型。

3B参数,极小,理论上根本不应该胜任复杂任务。

罗福莉把它接进OpenClaw框架,结果让她意外:

"发现它在这一套很复杂的Agent框架情况下,依然能做那些我自己认为不可能是一个非常小的模型能够做出来的事情。"

这不是一个产品功能的发现。

这是一个关于AI竞争本质的发现:

框架能补模型的短板

而且补的程度

超出所有人的预期

01 为什么框架比模型更重要

大多数人理解AI任务失败的方式是错的。

他们以为任务失败是因为模型不够聪明——参数不够多,训练不够久。所以解法是换更大的模型。

但如果你仔细观察一个Agent在失败时发生了什么,会发现一个规律:

绝大多数失败,不是模型在某个推理步骤上犯了错

而是模型在错误的时刻拿到了错误的信息,然后在没有恢复机制的情况下,把错误一路放大到任务结束。

具体来说,失败通常发生在这四个地方:

▎ 工具调用时机不对

模型不知道现在应该搜索还是继续推理,因为框架没有给它足够的状态信息。

▎ 上下文窗口爆掉

多步骤任务跑到一半,之前积累的中间状态把可用空间挤满,后续推理质量急剧下降。

▎ 出错后没有恢复

模型调用了一个工具,工具返回了错误,但框架没有设计错误捕获和重试机制,任务就此卡死。

▎ 跨会话失忆

前一次执行学到的东西,下一次对话开始时全部清空,模型重新从零开始犯同样的错误。

这四个失败模式有一个共同点:

它们全部是框架的问题

不是模型的问题

模型的参数在这些场景里没有任何不足。

是框架没有给模型提供它需要的信息,没有保护它的上下文,没有给它重试的机会,没有让它站在上次的经验上重新出发。

这就是罗福莉的3B实验真正揭示的东西。

3B参数的模型,理论上智力水平远低于1T。

但当它接进一个精心设计的框架——有分层记忆、有工具调度、有错误恢复、有跨会话状态——

它能完成的任务边界,就不再是参数量决定的,而是框架设计质量决定的。

这有一个深刻的推论:

模型能力的竞争是线性的

参数多10%,能力线性提升。

框架设计的竞争是非线性的

一个关键的架构创新——比如真正可用的跨会话记忆——可以让中等模型的实际完成率发生跳跃式提升,抹平和顶尖模型之间相当大的差距。

这也是为什么中国AI追赶的真实速度,比大多数人预估的更快。

模型参数上的代差是真实的

但框架上的代差

可以用工程速度弥补

而且框架是开源的

所有人都可以改

02 OpenClaw的精妙之处

要理解Hermes比OpenClaw强在哪,必须先理解OpenClaw的设计到底精妙在哪里。

OpenClaw的核心创新不是功能列表,是精细编排context这件事。

它做了几件以前没人做的事:

▎ 时间感知

每轮对话的context前面拼上当前时间戳——AI因此有了时间感知,会主动提醒你"已经很晚了,要不早点去睡觉"。

这不是模型的情商,是框架的设计。

▎ 三层身份结构

SOUL.md 定义Agent的身份和价值观

AGENTS.md 定义工作流规则

skills文件夹 存放可复用的执行单元

这三层把一个无状态的LLM,变成了一个有身份、有记忆、有行为规范的持续存在。

▎ 多channel接入

Agent可以在飞书、Telegram、微信同时运作,不绑定单一界面。

这些设计有一个共同的底层逻辑:

把人类告诉AI"怎么做事"的知识

结构化地存进框架

让每次对话都站在这些知识的肩膀上

Garry Tan把这套逻辑叫做 "Fat Skills, Thin Harness"——框架本身保持轻薄,技能文件尽量厚重。所有做事的方法论都沉淀在Skills里,框架只做路由和调度。

这套设计在2026年初横扫开发者社区,OpenClaw在GitHub上积累了 354,000颗星,是史上增长最快的开源项目之一。

但它有一个根本性的局限,罗福莉说得很准:

(open-loop)

Skills需要人写,记忆需要人管,框架本身不会进化。

你用它一年和用它一周,框架本身没有任何区别。每次重启,都是从零开始。

03 Hermes在架构上做了什么

Hermes Agent 是Nous Research在2026年2月开源的框架,两个月冲到 52,000颗星。

表面上看,它是OpenClaw的竞争对手。

深入看,它是一条完全不同的技术路线。

四个架构差异,从最重要的说起。

▎ 最关键:训练数据生成管道

这是Hermes最被低估、也最被忽视的设计。

Hermes在执行任务的同时,支持 batch trajectory generation——把执行过程中的成功路径结构化,自动输出为下一代tool-calling模型的训练数据。

这句话的含义远比它看起来的更深:

Hermes不只是在帮你完成任务

它在帮你训练

下一个更好的模型

框架和模型第一次形成了真正的共进化关系——

框架跑得越多,下一代模型就越好

模型越好,框架能完成的任务就越复杂

任务越复杂,生成的训练数据质量就越高

这是一个正在启动的飞轮。

OpenClaw没有这个设计。它的框架和模型是两个独立的系统,互不影响。

▎ 其次:闭环学习系统

OpenClaw是 open-loop:框架执行任务,任务结束,框架不变。Skills需要人写,写好之后放在那里,等着被调用。

Hermes是 closed-loop:

任务完成后,框架自动判断这次执行值不值得保留

如果一个工具调用成功超过5次,它把这个流程提炼成Skill文件存进记忆库

Scroll for more