Agent的苦涩觉醒:智能正从语言走向经验华尔街日报

3/2/2026

2019年,AI“强化学习之父”理查德·萨顿写了一篇六页纸的文章,影响了后来的整个人工智能学界。

这篇名为《苦涩的教训》的文章,核心只有一句话:

人类花了几十年把领域知识硬塞进AI,结果每次都输给了"让机器自己去试错"。

国际象棋、围棋、语音识别、计算机视觉如此。那些精心设计的先验知识、人工特征、专家规则,最终全部被大规模计算加上自我博弈踩在脚下。

萨顿是强化学习领域公认的奠基者。他花了半辈子研究一件事:

智能不是被设计出来的,是被环境逼出来的。智能体与环境的持续交互,是通向更高智能上限的唯一可靠路径。

文章发表后,学界的反应几乎是两极分裂。一批在特征工程和专家系统上耕耘多年的研究者,被迫重新审视自己工作的长期意义。争议至今没有平息,然而萨顿的判断,在接下来的七年里一再被反复验证。

站在2026年初的Agent浪潮回头看这七年,这个判断正在AI产业里以一种出人意料的方式应验——只是大多数人还没有意识到。

讨论Agent,只聊了一半

从Claude引领的Skill热到Cowork协同再到如今遍地的“养虾热“,Agent已是今天AI界最热的词。

但热归热,面对能力与日俱增的Agent,行业正在高度聚焦的问题已不再停留在“能做什么”的工具之问,而是权限不断开放、插件生态日益丰富,它的应用范围可能有多广,又将如何重塑生产关系、驱动经济结构变化。

从每场发布会、每篇产品评测到每条行业推文,人们追问的核心正在成为:具备更强自主性与系统权限的 Agent,会在应用层带来怎样巨大的商业洗牌,而哪些行业与环节将会就此被Agent浪潮所摧毁?

业界甚至出现了更为尖锐的预警与预言:随着 Agent替代范围持续扩大、替代深度不断加深,大规模岗位消失、收入分化加剧、有效需求萎缩等风险正在累积,可能引发结构性就业问题和连锁式的经济风险。

这些叙事有价值,它们都在问同一类问题:Agent作为工具,它在应用层面对人类社会的重塑会走向何方?

但似乎少有人在追问另一个问题:

如今Agent加速的大规模普及,反过来会在模型层对AI本身带来哪些质的改变?

这个问题,才是萨顿视角下真正重要的那个。

Chatbot死胡同

在理解Agent的深层价值前,有必要先看清楚它的前身Chatbot走进了怎样的死胡同。

2023年初,ChatGPT用户数突破一亿,创下了消费互联网历史上增长最快的纪录。全世界的产品经理如梦初醒,疯狂地在自己的产品里塞入对话框。客服机器人、知识问答、写作助手、代码补全——所有东西都变成了一个"聊天界面"。

但到了2024年底,一个尴尬的事实浮出水面:大量用户在最初的新鲜感消退后,使用频率显著下滑。多家媒体和分析机构报道了ChatGPT用户活跃度增长放缓的趋势。

用户发现自己并不知道该拿这个对话框干什么,偶尔用它写个邮件、改个措辞、问个问题,但从未形成稳定的使用习惯。

原因很简单:Chatbot的交互模式是一问一答,而人类的真实工作流程是多步骤、多工具、多判断的。

让Chatbot帮你做市场调研,它会给你一篇看起来不错的文章。但不知道数据来源是否可靠,不知道它是否遗漏了关键竞争对手,不知道结论背后的推理链条是否经得起推敲。虽然拿到的是一个结果,但失去了整个过程。

更致命的是,Chatbot的每一次对话都是孤立的。它不记得上周的偏好,不知道项目的上下文,不理解组织的业务逻辑。每一次打开对话框,都在跟一个彬彬有礼的失忆者重新自我介绍。

这就是为什么从2024年下半年开始,整个行业集体转向Agent,因为Chatbot的天花板已经清晰地摆在那里。

但这里有一个几乎所有人都忽略的维度:Chatbot的天花板,不仅仅是产品形态的天花板,它同时也是模型进化的天花板。

实践交互是关键

萨顿的强化学习哲学,核心逻辑非常清晰:静态数据的上限,是已知世界的边界。

无论语料库多大,无论参数量多高,在固定数据集上训练的模型,能力边界就是那批数据所描绘的世界的边界。

到了24-25年,这条边界已经肉眼可见。

Epoch AI团队发表过一项被广泛引用的分析,预测按照当前的消耗速度,高质量的互联网文本数据将在未来几年内被基本耗尽。整个行业开始谈论"数据墙",一堵由信息总量的物理极限砌成的墙。

Chatbot提供的答案是:从用户对话里来。但用户跟Chatbot的对话,信息密度极低。

"帮我把这封邮件改得更正式一点""用Python写一个快速排序""中国的GDP是多少"这些交互包含的,不过是人类需求的浅层映射。

模型从这些对话中能学到的东西,跟从互联网上抓取一批新文本学到的,本质上没有区别。都是语言模式的统计规律,都缺乏一样东西:因果结构。

Agent不同之处在于:完成任务的过程中,会产生一种静态语料永远无法提供的东西:标注了因果结构的决策轨迹 。

例如包括:目标是什么,采取了什么行动,环境返回了什么反馈,哪里出错了,如何修正的。

用个具体例子来说明区别。一个用户对Chatbot说:“帮我安排下周三从北京去上海的出差行程。” Chatbot直接给出一段行程方案,交互就此结束。模型从中学到的东西微乎其微 ,它不知道这份安排是否合理,用户是否满意,也无法验证自己的回答是否真正解决了问题。

而如果让一个Agent 去完成同样的任务,它会走一整套完整的自主工作流:先理解用户的出差需求,查询用户过往偏好,调用航班接口时发现早班机因天气取消,自动切换备选航班,再根据公司差旅标准筛选合适酒店,生成初稿行程。当用户反馈 “酒店离会场太远”,Agent 会重新筛选步行可达的酒店,修正后输出最终方案。

每一步,都携带着明确的因果信号。调用接口失败告诉模型 “要预留备用方案”,用户的偏好告诉模型 “要记住使用习惯”,用户的修改反馈告诉模型 “要根据需求迭代优化”。

Chatbot只输出答案,而 Agent 是在真正自主完成任务,并在不断试错与修正中持续成长。

这类数据的信息密度,远超简单的网页抓取。它不是人类语言表达的映射,而是智能体与现实世界博弈的实录。

用这类数据训练出来的模型,获得的不是更多的知识,而是更强的推理能力和自我纠错能力,而这才是决定大模型能力上限的关键变量。

换言之,Agent是大模型从外部世界获取进化燃料的接口。

没有这个接口,模型的能力上限被死死锁在静态数据的边界里。

追上限,还是堆接口?

2024年底到2025年这段时间,头部大模型玩家的战略选择出现了一个耐人寻味的分叉。

OpenAI、Google等头部模型用最大压强猛攻同一堵墙:追逐模型能力的天花板。

2024年底,OpenAI发布了o3。在François Chollet设计的ARC-AGI基准测试上——这个被公认为衡量抽象推理能力的高难度测试——o3取得了令整个行业侧目的成绩。ARC-AGI的设计哲学恰恰是反蛮力的:Chollet一直坚持智能的核心是抽象推理和小样本泛化,而不是暴力搜索。但o3用大规模的推理时间计算,硬是在这个测试上刷出了远超此前所有系统的分数。

Chollet在公开回应中态度审慎。他没有否认o3的成绩,但指出了一个关键事实:这个系统在解题时消耗的计算量远超人类,高分不等于通用智能的突破。

Google DeepMind则在Gemini 2.0系列上持续推进多模态推理能力。

但Anthropic选择了另一条路。2024年10月,Anthropic为Claude推出了一个在当时看来不够性感的功能:Computer Use,它让Claude直接操作电脑屏幕。它能看到屏幕上的内容,移动鼠标,点击按钮,输入文字。

早期的用户体验谈不上惊艳。Claude操作电脑的速度很慢,经常花很长时间才能找到一个按钮,偶尔还会点错地方。科技媒体和社交平台上的评论普遍带着善意的嘲讽——"看AI用电脑,像看一个刚接触电脑的老人"。

但Anthropic的CEO Dario Amodei在多次访谈中反复强调一个判断:

大模型的下一个突破不仅仅在于参数量,更在于模型与世界交互的方式。

Amodei曾在OpenAI担任研究副总裁近五年,亲历了GPT-2到GPT-3的演化过程,2021年离开后创立Anthropic,带着的正是这个信念。

2024年末,Anthropic推出了Model Context Protocol(MCP)开放协议,让AI模型可以标准化地连接外部工具和数据源。

Scroll for more