Hermes凭什么抢了OpenClaw的风头?腾讯科技

4/15/2026

Hermes Agent爆火的核心不在功能碾压,而在“替用户做决定”的极致自动化:自动生成并进化Skill、主动高频记忆写入、全局用户建模,将复杂度从用户端转移到底层规则系统。同时引入 GEPA 算法实现技能自进化,配合硬编码安全与上下文管理,优先保证稳定性。尽管在复杂任务中仍易失控,但在高容错场景已形成明显体验优势,并率先占据“全自动 Agent”心智高地。

进入 2026 年 4 月,才火了两个月的 OpenClaw (俗称“龙虾”)就迎来了它的挑战者。Hermes Agent 连续数周占据 GitHub Trending 榜首,狂揽 22,000 颗星。

它火到什么程度呢?连 Anthropic 都要抄它的。4 月 10 日,Nous Research 的创始人 Teknium 跳出来吐槽,说 Anthropic 正在「复制」Hermes 自动判断任务完成、主动提醒用户的功能。社区叙事也因此非常统一,认为 Hermes 凭借自进化 Agent、自动记忆管理和用户建模系统,在技术上全面超越了前任王者 OpenClaw,重新定义了开源 Agent 的方向。

不过,如果抛开这些宏大叙事,真正把两边拆开对比,你会发现它们在功能上一模一样的地方,远比差异多得多。

比如定时调度,两边都有。Hermes 支持人类可读的格式和标准的 cron 表达式,每个任务都跑在隔离的会话(session)里。OpenClaw 也同样支持 at、every、cron 三种调度类型,任务直接持久化写进本地的 JSON 文件,重启也不会丢。

再比如子 Agent 委派,两边都有。Hermes 的 delegate_task 支持单任务和最多 3 个并行子任务,子 Agent 环境完全隔离,干完活只返回一个摘要。OpenClaw 的 sub-agent 机制也支持这种后台隔离执行和结果回传,甚至还能配置嵌套深度。

浏览器自动化、TTS(语音合成)、Vision 视觉能力、图像生成、语音交互,两边也全都有。Gateway 方面,Telegram、Discord、Slack、WhatsApp、Signal 等 20 多个平台的消息集成,两边也毫无悬念地全都有。

对着清单一项项打勾就会发现,两者的功能几乎完全重合。所谓功能表上的「绝对碾压」根本不存在。

那么问题来了,既然功能都一样,Hermes 凭什么火成这样?社区里被吹上天的「自进化」「自动记忆」「用户建模」,到底有多少是真正的底层结构差异?

01 会自己长大的 Skill

翻遍两边的默认配置,你能找到的唯一硬核差异就一个,即,Hermes 在 Skill(技能)上实现了自动进化的闭环。

Skill 算是 Agent 的工作流知识单元,说白了就是一个 Markdown 文件,专门告诉 Agent 遇到某类任务该按什么步骤干、中间调什么工具、搞砸了怎么救场。

Hermes 把技能的生命周期硬生生劈成了两截。一截是运行时的静默生成,另一截是离线的硬核进化。

先说生成。平时让 Agent 干活,只要它在中间调用了 5 次以上工具,或者出了错又自己把流程救回来了,再或者你作为用户直接纠正了它的输出,主仓库里一套写死的硬规则就会被触发。Agent 会默默把刚才那套跑通的工作流打个包,存成本地的 SKILL 文件。这一步完全静默,很多时候你根本不知道它又给自己写了个新技能。

等下次再遇到类似任务,它会自动去扫索引。这个加载过程分四层渐进,就像去图书馆找资料。它先看目录卡片(Tier 0),只把名称和描述塞进系统提示词里,大概占 3,000 个 token。方向对了,再逐层去书架拿书,把完整内容展开。

但真正让 Hermes 拉开身位的,是第二步的进化。

Hermes 内置了一套离线批量进化算法,还专门拉了一个独立仓库(hermes-agent-self-evolution)。引擎用的是 DSPy 框架,加上一套叫 GEPA 的核心算法。

GEPA 的全称是 Genetic-Pareto Prompt Evolution。这套体系并非 Hermes 自创,出自 Lakshya Agrawal 等人的一篇 ICLR 2026 Oral 论文,标题就叫《反思性提示词进化可以跑赢强化学习》。

现在的学术圈搞技能进化,大部分都在走 RL(强化学习)的路线。像 SkillRL 或者 SAGE 这些框架,连名字都带着 RL,指望用梯度更新来强化技能库。但 GEPA 走了一条完全对立的路,刻意抛弃了强化学习。GEPA 论文本身就是在证明一件事,哪怕没有梯度更新,靠大模型的反思能力加上进化算法,不仅能跑赢 RL,样本利用效率还更高。

它是怎么做的呢?这套算法有三个硬核的底座。

首先是反思性变异(Reflective mutation)。它不是瞎猜式的随机变异。大模型会去读之前的执行轨迹(trace),自己反思这次为什么做对了,为什么做错了,提示词到底该改哪几个字。

其次是帕累托前沿选择(Pareto frontier selection)。生成了一批变异的候选技能后,它不是一刀切只留全局均分最高的。只要某个候选在哪怕一个评估样本上表现最强,它就会被保留下来。这么做是为了保证技能探索的多样性和鲁棒性。

最后是自然语言反馈作为变异信号。传统 RL 靠数值 reward 引导参数更新,但数值信号颗粒度太粗,跑了一次得 0.6 分,你根本不知道是哪里对哪里错。GEPA 的每次变异用的都是具体的自然语言反馈,比如「这一步没检查边界条件」「应该先读配置再写缓存」。LLM 读得懂这种反馈并据此产生下一轮变体,比解读一个浮点数有效得多。

把它串成工作流就是这样。系统定期去读现有的 SKILL 文件,去历史会话里抽样(或者干脆自己合成)搞出一个评估集。然后 GEPA 介入,看执行轨迹,反思提意见,生成候选变体,跑一轮评估,最后用帕累托算法挑出赢家。

这套离线的进化闭环跑完,得出优化后的 Skill 后,它不会直接覆盖原文件,而是老老实实生成一个 PR(Pull Request),必须要等你作为人类审核员点头合并,这个进化的技能才会真正生效。系统永远不会进行直接提交。

这直接戳破了社区里那套「用户完全无需介入」的爽文神话。Hermes 的态度其实很明确,技能生成可以全自动且静默,但技能进化必须过人眼。

回过头看看 OpenClaw。它也不是没有 Skill 系统,但要命的是每一步都得靠你主动。你需要手动建文件、手动安装、再手动授权,三个条件凑齐了技能才会生效。搞了个新 Skill 还得重启它统一管理的 Gateway 网关进程,系统才能认得出。

而且它的加载极其简单粗暴,根本不做任务匹配,只要配了就全量塞进上下文里,除非你手动加个禁用标签把它踢出去。

两边都有 Skill。真正的区别就在于谁来按下启动键。Hermes 说「放着我来」,OpenClaw 说「你自己搞」。

02 谁在替谁记事

如果说 Skill 解释了 Hermes 为什么「越用越快」,那社区里传得神乎其神的另一半叙事「它懂我是谁」,就得归功于记忆系统了。

现在的三大主流开源 Agent(Claude Code、OpenClaw、Hermes)其实都有自动记忆。但只要稍微深挖就会发现,它们服务的对象、触发机制和记忆保质期完全是两码事。

先说 Claude Code。它的自动记忆(auto-memory)是默认开着的,平时干活时会自动把构建命令、调试经验、架构笔记甚至代码风格都记下来,而且每 24 小时就跑一次 Auto Dream 来整理,把过期或者自相矛盾的东西清掉。听起来很智能,但这套系统有着极其严格的项目隔离。

它的边界卡死在 git root(项目根目录)上,项目 A 里学到的血泪教训,绝对带不到项目 B 里。它不记你的个人偏好,不关心坐在屏幕对面的是谁,脑子里只有「这个项目该怎么跑」。

再说 OpenClaw,它的记忆系统就更偏长程。每次启动对话,它都会把包括 MEMORY.md 和 USER.md 在内的 8 个底层文件强制灌进自己的脑子里。这两个文件不仅跨项目共享,而且会自动写入。

那它是怎么写入的呢?它的写入机制极其被动,更像兜底。在每次对话的上下文(token)快要撑爆、系统准备做大压缩(compaction)之前,Agent 会悄悄跑一个 silent turn(隐藏轮次)。它会在这个轮次里,把当前聊过的重点随手记到当天的日记文件里,同时把关于你的偏好写进长期挂载的 MEMORY.md 或 USER.md。

所以你很久没用 OpenClaw,隔几天一打开发现它「居然还记得你是谁」,靠的就是这张被动结成的长期大网,那些偏好早就被塞进了几个启动必读的文件里。这确实能让人产生「这 AI 可以养」的实感。但本质上更像是一种求生本能,眼看脑子装不下了赶紧存一下档。至于那些老旧日记,如果不用外挂的语义向量数据库支持,它只能靠关键词生搜。

在这个维度上 Hermes 是另一套逻辑。在 v0.7 版本之前,Honcho 是 Hermes 里唯一写死的长期记忆后端,没有别的选项。

这个之前是默认选项的 Honcho 设计得很巧妙。绝大多数 Agent 的记忆系统(包括 Hermes 的默认内置记忆)本质上是一个被动的记录仪。你聊了什么,它切碎了转成向量塞进数据库,下次遇到相似的话题再通过计算距离(Embedding 余弦相似度)捞出来。

Honcho 不走这条路。它是一个「AI 原生」的记忆后端,主打的是异步的辩证推理(Dialectic reasoning)和深度实体建模。

你跟 Agent 聊完天,主会话结束了,但 Honcho 的活才刚开始。它会在后台拉起额外的模型调用,对刚聊完的历史进行分析,提炼出你话里的概念(Entity),提取底层偏好,甚至把你前后矛盾的话进行辩证和对齐。它把你随口说出的碎碎念,计算成结构化的「洞察(Insight)」。

听着非常先进,但它也非常费 token,容易把关键细节给洗掉。设成插件,更安全。

但就算没有 Honcho,Hermes 的记忆写入都比 OpenClaw 主动得多。Hermes 搞了个微调(nudge)机制,根本不等脑子撑爆,大概每聊 15 轮对话就会被硬性触发一次。这就是系统强制塞给 Agent 的一条反思指令,赶紧回顾一下刚才聊的,看看这人有什么习惯值得记一笔。这种高频的主动反思,让 Hermes 在同等时间里写进持久文件的信息量大得惊人。

不仅写入更积极,Hermes 找回记忆的手法也更硬。它在默认架构里内置了 SQLite FTS5 的全文检索能力。不用再去费劲配什么词向量服务,Agent 想翻旧账,直接就能去庞大的过往聊天记录里扫街。

把这三家摆在一起看,那条进化线就清晰了。OpenClaw 是一套被动触发的长期记忆体系。Claude Code 做到了主动记录和整理但底线是对事不对人。而 Hermes 把触发时机做得极其主动,记忆插件随意切,全局共享,还默认配齐了能翻遍所有历史的检索利器。

日常用起来的体感差异也就是这么拉开的。OpenClaw 是在快崩溃前才想起来认识你一下。Hermes 则是每隔一会儿就在暗中揣摩你的心思,并且能随时翻出你们俩说过的话。

03 把复杂度藏起来

无论是 Skill 的自生成,还是记忆的高频主动写入,背后指的其实都是同一件事,即,Hermes 只是替你把本该你做的决定都做了。

但是系统复杂度这种东西是守恒的。

你不用动手,不代表决策凭空消失了,它只是从你的手动操作转移到了底层硬编码的死规则里。

在搭这套 harness(Agent 外壳)的过程里,Hermes 的设计者领悟了一个道理,模型判断不可信,那就做成死规则。

这套 harness 远比 Anthropic 之类的要死。Agent 干活的时候并不是一个纯粹的大模型在裸跑思考,大模型外面严严实实地包着一层代码框架,这层框架里写满了条件判断。

Scroll for more