Hermes首度直播回应「抄袭」新智元
跑分最高未必能赢,但最懂Harness的可以。如今,被Hermes、OpenClaw等全球爆火开源Agent项目「钦定」为默认的MiniMax,在OpenRouter上的日均Token消耗已飙到3000亿。
昨晚B站,一个老外用四个字炸了弹幕区。
不熟,勿Cue。
说这话的人是Tommy Eastman,全球最火开源Agent项目Hermes Agent的业务负责人。
首次来中国就被弹幕逼问「你们是不是抄了EvoMap」。
他的回应原话是这样的:
Hermes Agent的代码仓库已经存在一年多了。直到那些推文出现,我才听说Evo Map。
Nous Research有长期产出前沿研究的记录,我们是理念驱动的团队,除了推动开源AI,不会做任何其他事情。
当然,也不会去抄别人的仓库然后据为己有。
和Tommy同框的,是MiniMax Agent首席架构师阿岛和研发工程师择因。
争议三分钟就翻篇了,但接下来两个多小时的技术对谈,触及了一个被忽视已久的问题。
当模型能力趋于收敛,AI的下一个竞争维度在哪里?
人类成了瓶颈
现在,阿岛的工作方式已经变了。
去年九十月份,他已经不怎么打开IDE了。日常工作状态是同时并发五六个本地Agent,云端可能还有十个在沙箱里跑。
然后我发现,人类成了瓶颈。
过去几年,AI行业习惯了谁的模型参数更多、跑分更高的叙事。
但2026年初,OpenClaw一夜爆火,连老黄都在摩根士丹利的论坛上感叹这可能是有史以来最重要的软件。
所有人突然意识到,模型再强,不会用工具、不能真正干活,就只是一个聊天机器人。
一夜之间,行业焦点转向了Harness。
Harness是Agent的运行框架,包括工具调用编排、记忆管理、Skills系统、沙箱环境等等。
在那篇全网疯转的博客「Harness Engineering」中,OpenAI给出了一个清晰的定义——人类掌舵,智能体执行。
对此,阿岛用高达做了个比喻。
模型是引擎,Harness就是那副机甲。但光有引擎造不出高达,还得有完整的外骨骼才能让引擎能力最大化。
Claude Code过去两个月的更新都在龙虾化。cron定时、连接IM、远程控制、memory文件夹……我1月初注意到OpenClaw时惊为天人,当时团队还不认同。后来证明方向是对的。
行业在收敛到同一个方向上。
而阿岛自己的感受比这更深一层。
我觉得我就是在被AI蒸馏。工程师构建Harness的过程,就是把自己的工作方式蒸馏成Skill和代码。
随后他补充道,「当然,这一切的目的是让人类去做真正热爱的事情。就像过去发明蒸汽机、发明电力一样。」
MiniMax在这波浪潮中动作密集。短短几周做了三件事,发布业界首个参与自我迭代的模型M2.7,推出全球首个云端沙箱MaxHermes,上线基于OpenClaw架构的云端AI助手MaxClaw。
三者构成了一个闭环。
M2.7从模型层为Harness持续优化底层能力,MaxHermes和MaxClaw从产品层验证真实场景需求,再反馈回模型训练。
MiniMax管这叫「Model + Harness」双向飞轮。
Model × Harness
不卷跑分,卷Token
竞争的维度正在发生根本性转变。过去比的是模型有多聪明,现在比的是同等Token能产出多少价值。
MiniMax的解法,是让模型专门为Harness而生。
M2.7是3月18日发布的最新编程模型,也是第一个在训练过程中深度参与迭代自己的商用大模型。
MiniMax构建了一套内部Agent Harness,让M2.7作为Agent在其中运行,包含短时记忆、自反馈、自优化三个核心模块。
这套自我进化体现在三个层次。
1. 模型能基于Harness完成任务,在MiniMax的强化学习团队已承担30%-50%的日常工作流。
2. 模型能主动迭代Harness本身,自主运行优化循环超过100轮,评测效果提升30%。
3. 模型还有能力迭代机器学习模型本身的效果,在MLE Lite的22道高难度竞赛中取得9金5银1铜,得牌率66.6%,仅次于Opus-4.6和GPT-5.4。
M2.7的核心优化方向始终瞄准Agent场景,工具调用准确度、复杂Skills遵循、Agent Harness适配。
在40个复杂Skills(每个超过2000 Token)的测试中,M2.7仍能保持97%的Skills遵循率。
而最先认可这套能力的,是海外开源圈。


