Agent学会自己「长」Skill了量子位

过去一年，Agent学会了两件事：会用工具、会调用Skill。

但它始终不会一件事：从自己的错误里变强。

但这些Skill大多来自外部：人手写、社区贡献、工程团队维护、用户手动安装和配置。这带来了三个问题：

第一，Skill增长依赖人类工程师。

第二，Skill质量参差不齐。

第三，Skill和Agent自身策略未必匹配。

现在，一篇ICML 2026接收论文提出了一个新的答案：EvolveR。

它试图让Agent不再只是被动安装别人写好的Skill，而是能够从自己的成功和失败轨迹中，自动蒸馏出可复用的“经验”，并在后续任务中检索、使用和强化这些经验。

△EvolveR与现有Agent学习范式对比

换句话说，EvolveR关注的是Agent的下一步：

从“会用Skill”，走向“会从经验中长出Skill”。

EvolveR：把交互轨迹蒸馏成Agent自己的“认知Skill”

EvolveR的核心思想是：

Agent每次完成任务后，不应该只留下日志；它应该从日志中提炼出下次还能用的经验。

在EvolveR中，Agent会经历一个闭环生命周期：

在线交互：Agent面对任务，调用外部知识库和内部经验库，生成完整执行轨迹；

离线自蒸馏：Agent冻结参数，回看自己的成功和失败轨迹，总结出简洁的经验策略；

经验库维护：系统对新经验做语义去重、合并、动态评分，保留真正有用的经验；

策略进化：再用强化学习训练模型，让它学会在合适时机检索和应用这些经验。

这些经验并不是传统意义上的工具插件，更像是Agent的“认知Skill”。

遇到比较类问题时，先分别收集两个对象的信息，再下结论；

判断人物关系时，不要只凭角色名猜测演员，需要查证角色描述；

如果搜索经验的结果不足，不要重复同一个查询词，而要改写查询角度。

这些经验不是外部教师灌进去的，而是Agent从自己的成败经历中总结出来的。

△EvolveR完整生命周期

可筛选、可评分、可进化的经验库

很多Agent记忆系统会直接保存原始轨迹或自然语言反思。

但EvolveR更强调经验的“维护”。

每条经验都会记录使用次数和成功次数，并根据历史表现计算一个动态分数，分值低于阈值的经验会被无情“剪枝”，语义重复的原则会被合并，确保 Agent 的大脑始终轻盈且高效。

这点在今天的Skill生态里尤其重要。

当Agent装了越来越多Skill、积累了越来越多记忆之后，真正的问题不再是“有没有经验”，而是：

哪些经验真的有效？

哪些经验过时了？

哪些经验彼此重复？

哪些经验会误导模型？

用强化学习让Agent学会“使用经验”

EvolveR与普通经验检索最大的区别在于：它不只是把经验放进上下文。

在线交互阶段，Agent可以通过动作主动检索经验库，再通过查询外部知识，最后给出答案。

随后，EvolveR使用GRPO强化学习对这些经验条件下的轨迹进行优化。

奖励函数不仅看最终答案是否正确，也看推理格式、经验检索、知识检索是否合理。如果只看最终答案对不对（稀疏奖励），Agent很难学会”如何善用经验”这种中间行为。

EvolveR设计了一套复合奖励函数，把”做事”和”会做事”区分开来打分：

结果奖励（Outcome Reward）：最终答案和标准答案做精确匹配。格式奖励（Format Reward）：

思考步数奖励：鼓励Agent进行适度的推理，但不鼓励无脑堆长度，防止Agent陷入”无限反思”的死循环，强制它学会想够了就该动手。

搜索多样性奖励：明确激励Agent同时调用内部经验和外部知识，而不是偏废其一。

因此，模型学到的不只是“答案是什么”，而是——

什么时候该查经验、查什么经验、如何把经验转化成有效行动。

这让EvolveR区别于传统RAG或简单Memory系统。RAG解决的是“缺知识”，EvolveR解决的是“缺经验”。

在多跳问答上超过Search-R1等强Agent基线

论文在7个复杂问答基准上验证了EvolveR，在Qwen2.5-3B和7B模型上，EvolveR都取得了最优平均表现。

相比CoT、RAG、SFT、Rejection Sampling以及Search-R1等方法，EvolveR整体表现更强，尤其在多跳推理和域外泛化任务上更稳定。

论文还发现了一个很关键的现象：当模型较小时，用外部教师模型（GPT-4o-mini）帮助总结经验效果更好；但当模型扩展到3B时，Agent自己总结出来的原则反而超过外部教师总结的原则。

这说明一个重要问题：

对Agent来说，最强的经验不一定来自最强教师，而可能来自与自身策略最匹配的“自我经验”。

作者将其解释为一种“认知对齐”：Agent自己蒸馏的原则，更符合自身能力边界和推理习惯，因此在实际任务中更容易被用好。

这个发现对当前Skill生态也有启发：未来的Agent Skill不一定都来自人类编写，可能会有一部分来自Agent自身的长期执行轨迹。

从“工具扩展”到“经验进化”

2026年的Agent浪潮已经证明：只要给大模型工具、权限和工作流，它就能完成越来越多真实任务。

但这也暴露了新的瓶颈：Agent的能力增长，不能永远依赖人类不断写Skill、装插件、修Prompt。

LangChain最近也指出，Agent持续学习并不只发生在模型权重层，还可以发生在harness和context层；而轨迹是这些学习流程的核心数据来源。

EvolveR给出了一个更自主的方向：让Agent把自己的成功和失败转化为可复用经验，再通过强化学习将“如何使用经验”内化到策略中。

从这个角度看，EvolveR不是一个普通的Agent记忆方法，而是面向后OpenClaw/Claude Code时代的一个问题：

当Agent拥有工具箱之后，它能不能开始自己积累经验？

EvolveR的答案是：可以。这可能是Agent从“会干活”走向“越干越会干”的关键一步。

本文来自于上海人工智能实验室KnowledgeXLab团队。

本文一作吴荣，是浙江大学与上海人工智能实验室联培博士，研究方向：大模型智能体自进化，持续学习。

本文的通信作者为上海人工智能实验室的青年科学家石博天。