Agent的苦涩觉醒：智能正从语言走向经验华尔街日报

2019年，AI“强化学习之父”理查德·萨顿写了一篇六页纸的文章，影响了后来的整个人工智能学界。

这篇名为《苦涩的教训》的文章，核心只有一句话：

人类花了几十年把领域知识硬塞进AI，结果每次都输给了"让机器自己去试错"。

国际象棋、围棋、语音识别、计算机视觉如此。那些精心设计的先验知识、人工特征、专家规则，最终全部被大规模计算加上自我博弈踩在脚下。

萨顿是强化学习领域公认的奠基者。他花了半辈子研究一件事：

智能不是被设计出来的，是被环境逼出来的。智能体与环境的持续交互，是通向更高智能上限的唯一可靠路径。

文章发表后，学界的反应几乎是两极分裂。一批在特征工程和专家系统上耕耘多年的研究者，被迫重新审视自己工作的长期意义。争议至今没有平息，然而萨顿的判断，在接下来的七年里一再被反复验证。

站在2026年初的Agent浪潮回头看这七年，这个判断正在AI产业里以一种出人意料的方式应验——只是大多数人还没有意识到。

讨论Agent，只聊了一半

从Claude引领的Skill热到Cowork协同再到如今遍地的“养虾热“，Agent已是今天AI界最热的词。

但热归热，面对能力与日俱增的Agent，行业正在高度聚焦的问题已不再停留在“能做什么”的工具之问，而是权限不断开放、插件生态日益丰富，它的应用范围可能有多广，又将如何重塑生产关系、驱动经济结构变化。

从每场发布会、每篇产品评测到每条行业推文，人们追问的核心正在成为：具备更强自主性与系统权限的 Agent，会在应用层带来怎样巨大的商业洗牌，而哪些行业与环节将会就此被Agent浪潮所摧毁？

业界甚至出现了更为尖锐的预警与预言：随着 Agent替代范围持续扩大、替代深度不断加深，大规模岗位消失、收入分化加剧、有效需求萎缩等风险正在累积，可能引发结构性就业问题和连锁式的经济风险。

这些叙事有价值，它们都在问同一类问题：Agent作为工具，它在应用层面对人类社会的重塑会走向何方？

但似乎少有人在追问另一个问题：

如今Agent加速的大规模普及，反过来会在模型层对AI本身带来哪些质的改变？

这个问题，才是萨顿视角下真正重要的那个。

Chatbot死胡同

在理解Agent的深层价值前，有必要先看清楚它的前身Chatbot走进了怎样的死胡同。

2023年初，ChatGPT用户数突破一亿，创下了消费互联网历史上增长最快的纪录。全世界的产品经理如梦初醒，疯狂地在自己的产品里塞入对话框。客服机器人、知识问答、写作助手、代码补全——所有东西都变成了一个"聊天界面"。

但到了2024年底，一个尴尬的事实浮出水面：大量用户在最初的新鲜感消退后，使用频率显著下滑。多家媒体和分析机构报道了ChatGPT用户活跃度增长放缓的趋势。

用户发现自己并不知道该拿这个对话框干什么，偶尔用它写个邮件、改个措辞、问个问题，但从未形成稳定的使用习惯。

原因很简单：Chatbot的交互模式是一问一答，而人类的真实工作流程是多步骤、多工具、多判断的。

让Chatbot帮你做市场调研，它会给你一篇看起来不错的文章。但不知道数据来源是否可靠，不知道它是否遗漏了关键竞争对手，不知道结论背后的推理链条是否经得起推敲。虽然拿到的是一个结果，但失去了整个过程。

更致命的是，Chatbot的每一次对话都是孤立的。它不记得上周的偏好，不知道项目的上下文，不理解组织的业务逻辑。每一次打开对话框，都在跟一个彬彬有礼的失忆者重新自我介绍。

这就是为什么从2024年下半年开始，整个行业集体转向Agent，因为Chatbot的天花板已经清晰地摆在那里。

但这里有一个几乎所有人都忽略的维度：Chatbot的天花板，不仅仅是产品形态的天花板，它同时也是模型进化的天花板。

实践交互是关键

萨顿的强化学习哲学，核心逻辑非常清晰：静态数据的上限，是已知世界的边界。

无论语料库多大，无论参数量多高，在固定数据集上训练的模型，能力边界就是那批数据所描绘的世界的边界。

到了24-25年，这条边界已经肉眼可见。

Epoch AI团队发表过一项被广泛引用的分析，预测按照当前的消耗速度，高质量的互联网文本数据将在未来几年内被基本耗尽。整个行业开始谈论"数据墙"，一堵由信息总量的物理极限砌成的墙。

Chatbot提供的答案是：从用户对话里来。但用户跟Chatbot的对话，信息密度极低。

"帮我把这封邮件改得更正式一点""用Python写一个快速排序""中国的GDP是多少"这些交互包含的，不过是人类需求的浅层映射。

模型从这些对话中能学到的东西，跟从互联网上抓取一批新文本学到的，本质上没有区别。都是语言模式的统计规律，都缺乏一样东西：因果结构。

Agent不同之处在于：完成任务的过程中，会产生一种静态语料永远无法提供的东西：标注了因果结构的决策轨迹。

例如包括：目标是什么，采取了什么行动，环境返回了什么反馈，哪里出错了，如何修正的。

用个具体例子来说明区别。一个用户对Chatbot说：“帮我安排下周三从北京去上海的出差行程。” Chatbot直接给出一段行程方案，交互就此结束。模型从中学到的东西微乎其微，它不知道这份安排是否合理，用户是否满意，也无法验证自己的回答是否真正解决了问题。

而如果让一个Agent 去完成同样的任务，它会走一整套完整的自主工作流：先理解用户的出差需求，查询用户过往偏好，调用航班接口时发现早班机因天气取消，自动切换备选航班，再根据公司差旅标准筛选合适酒店，生成初稿行程。当用户反馈 “酒店离会场太远”，Agent 会重新筛选步行可达的酒店，修正后输出最终方案。

每一步，都携带着明确的因果信号。调用接口失败告诉模型 “要预留备用方案”，用户的偏好告诉模型 “要记住使用习惯”，用户的修改反馈告诉模型 “要根据需求迭代优化”。

Chatbot只输出答案，而 Agent 是在真正自主完成任务，并在不断试错与修正中持续成长。

这类数据的信息密度，远超简单的网页抓取。它不是人类语言表达的映射，而是智能体与现实世界博弈的实录。

用这类数据训练出来的模型，获得的不是更多的知识，而是更强的推理能力和自我纠错能力，而这才是决定大模型能力上限的关键变量。

换言之，Agent是大模型从外部世界获取进化燃料的接口。

没有这个接口，模型的能力上限被死死锁在静态数据的边界里。

追上限，还是堆接口？

2024年底到2025年这段时间，头部大模型玩家的战略选择出现了一个耐人寻味的分叉。

OpenAI、Google等头部模型用最大压强猛攻同一堵墙：追逐模型能力的天花板。

2024年底，OpenAI发布了o3。在François Chollet设计的ARC-AGI基准测试上——这个被公认为衡量抽象推理能力的高难度测试——o3取得了令整个行业侧目的成绩。ARC-AGI的设计哲学恰恰是反蛮力的：Chollet一直坚持智能的核心是抽象推理和小样本泛化，而不是暴力搜索。但o3用大规模的推理时间计算，硬是在这个测试上刷出了远超此前所有系统的分数。

Chollet在公开回应中态度审慎。他没有否认o3的成绩，但指出了一个关键事实：这个系统在解题时消耗的计算量远超人类，高分不等于通用智能的突破。

Google DeepMind则在Gemini 2.0系列上持续推进多模态推理能力。

但Anthropic选择了另一条路。2024年10月，Anthropic为Claude推出了一个在当时看来不够性感的功能：Computer Use，它让Claude直接操作电脑屏幕。它能看到屏幕上的内容，移动鼠标，点击按钮，输入文字。

早期的用户体验谈不上惊艳。Claude操作电脑的速度很慢，经常花很长时间才能找到一个按钮，偶尔还会点错地方。科技媒体和社交平台上的评论普遍带着善意的嘲讽——"看AI用电脑，像看一个刚接触电脑的老人"。

但Anthropic的CEO Dario Amodei在多次访谈中反复强调一个判断：

大模型的下一个突破不仅仅在于参数量，更在于模型与世界交互的方式。

Amodei曾在OpenAI担任研究副总裁近五年，亲历了GPT-2到GPT-3的演化过程，2021年离开后创立Anthropic，带着的正是这个信念。

2024年末，Anthropic推出了Model Context Protocol（MCP）开放协议，让AI模型可以标准化地连接外部工具和数据源。