Meta-Harness让Haiku性能狂飙新智元

4/4/2026

如果未来的某天,AI智能体可以给自己调参数,修bug,会发生什么?

就在这两天,斯坦福IRIS Lab的博士生Yoonho Lee联合MIT、威斯康星大学的研究者放出一篇新论文,把AI智能体优化的逻辑翻了个个儿。

作者阵容十分豪华。导师是机器人学习明星学者Chelsea Finn,合作者里还有DSPy框架作者Omar Khattab。

曾经,大家卷模型本身的参数量、训练数据、RLHF。但Meta-Harness另辟蹊径:支撑模型运行的那层「脚手架」同样决定生死。

这些东西以前全靠人工调。现在,Meta-Harness让AI自己来干这活。

结果十分完美:Claude Haiku 4.5的成功率达到37.6%,登顶所有Haiku智能体榜首;Claude Opus 4.6更是达到76.4%,仅次于榜一ForgeCode。

模型是商品,Harness决定成败

harness指的是一整套基础设施:系统提示词、工具定义、重试逻辑、上下文管理、子代理协调、生命周期钩子。

模型本身只是个大脑,harness才是让这个大脑能干活的身体。

这个概念在2026年突然爆火,业界终于意识到,同一个模型,换个harness,性能差距可以大到离谱。

2月,工程师Can Bölük做了个实验。

他只改编辑格式,不动模型,15个LLM的编码性能提升了5到14个百分点,输出token还减少了约20%。

更夸张的是,GPT-4 Turbo仅仅换了一种编辑格式,准确率就从26%飙升到59%。

同样的模型,性能差了一倍多,唯一变量是harness。

Agent = Model + Harness,成了最热门的趋势

模型提供智能,harness让智能变得有用。

Claude Code、Codex在做同一件事:精心设计harness来弥补模型的短板。

那么问题来了,harness工程目前高度依赖人工。

工程师得手动写提示词、调工具接口、设计重试策略,然后跑测试、看日志、猜哪里出了问题、改代码、再跑测试。

这个循环费时费力,而且很多失败模式根本不是人能轻易诊断的。

Meta-Harness想做的,就是把这个循环自动化。

400倍信息量:AI自己「复盘+迭代」

Meta-Harness尝试着给优化器看更多东西。听起来简单,但这恰恰是过去所有方法的瓶颈。

论文这张对比表,列出了主流文本每一步能看到多少上下文:

Meta-Harness 与主流优化方法的上下文观察量对比。

Self-Refine只看最近一次输出加自我批评,大约1000 token;

OPRO看过去几轮的方案和分数,大约2000 token;

TextGrad、AlphaEvolve、GEPA这些更先进的方法,也就在8000到26000 token之间。

Meta-Harness呢?最高1000万token,差距是400倍。

为什么需要这么多?因为harness工程产生的失败模式,往往藏在执行轨迹的细节里。

一个任务跑失败了,原因可能是十步之前的某个工具调用返回了截断的输出,导致后续推理全歪。

如果优化器只能看到一个「失败」的标量分数,或者一段压缩过的摘要,它根本没法定位问题。

Meta-Harness的做法,是给proposer一个完整的文件系统。

这个文件系统里装着所有历史候选harness的源代码、每一轮的执行轨迹、命令日志、错误信息、超时行为、评分结果。

Proposer可以用grep、cat这些标准工具自己去翻,想看哪个文件就看哪个,想搜哪个关键词就搜哪个。

优化器不再是在固定prompt上做推理,而是一个会检索信息、浏览历史、编辑代码的代理。

proposer用的是Claude Code,它不需要被喂压缩过的信息,它有能力自己决定看什么、怎么看。

整个搜索循环很直白:

Proposer读取文件系统里的历史记录

分析哪些任务失败了、失败原因是什么

针对性地重写harness代码

新harness跑测试,结果写回文件系统

Meta-Harness 核心优化闭环示意图。Proposer 从“包含全部历史经验”的文件系统读取完整轨迹(①),提出新的 Harness 代码 → 结合 LLM 执行任务并评估(②)→ 将 Proposed Code、Reasoning Traces、Eval Score 等全部日志存回文件系统(③),实现自我迭代。

论文展示了一个19任务子集上的搜索过程。

从Terminus-KIRA基线的28.5%起步,到第7轮迭代就涨到了46.5%。

Meta-Harness 在 19 任务子集上的迭代优化过程。从 Terminus-KIRA 基线 28.5% 的成功率起步,第 7 轮迭代达到 46.5%,展示了通过完整执行轨迹诊断实现的高效 harness 优化。

每一轮都基于具体的执行轨迹做「反事实诊断」——如果我当时这样处理,结果会不会不一样?

举个例子,第7轮的改进是在第一次LLM调用之前先跑一条shell命令,把环境依赖信息注入到初始prompt里。

加一条命令,省掉无谓的试错。 这种程度的诊断精度,靠压缩摘要是做不到的。

89个任务,小模型登顶

Meta-Harness分了三个场景做了测试:文本分类、数学推理、代码代理。

代码代理用的基准是TerminalBench-2,它包含89个Docker化任务,覆盖代码翻译、分布式机器学习配置、系统编程、生物信息学、密码分析等领域。

Scroll for more