姚顺雨在PHD论文答辩中的几个问题猿人码头
出乎意料的是上期写张小珺对话季逸超这种冷饭访谈还有那多流量,可见和我一样后知后觉的人还是好多的。访谈中季逸超提到他几乎全部赞同顺雨的观点时,我想还是要找个时间看看顺雨大佬到底说了啥!
这期内容大概是2024年5月份,姚顺雨的博士毕业论文答辩,Language Agents: From Next-Token Prediction to Digital Automation。注意个时间点,DeepSeek是2025年1月推出的。
姚顺雨的核心观点是:将大型语言模型(LLM)与行动和推理机制相结合,可以创造出一种新型的“语言智能体”。这种智能体不仅能像人类一样思考、计划和利用工具,还能在复杂、开放的真实世界数字环境中进行推理和解决问题,弥补了传统人工智能在通用性和泛化能力上的不足。
为此,他开展了两个实验项目:
Webshop项目:建立了一个模拟购物网站的基准测试,要求智能体在真实网络环境中搜索、浏览、定制并购买商品。这要求智能体具备理解自然语言指令、处理视觉信息和长跨度决策的能力。
SWE-bench项目:关注代码自动化,要求智能体解决真实的GitHub Issue。研究发现,传统的序列到序列(Seq2Seq)模型在面对复杂代码库时表现极差,必须引入分解问题和执行反馈机制。
现在是2026年年初,你看现在的Manus、clawdbot、cursor、codex、antigravity,估计就是从那时候就开始往这个方向搞的。说不定就是看了他这个博士论文。
什么是ReAct,推理与行动的结合
核心机制:提出“推理(Reasoning)”是一种特殊的“内部行动”。智能体通过产生“思考(Thought)”来更新内部上下文,再基于此采取“行动(Action)”获取外部“观察(Observation)”。
零样本能力:React可以通过Prompt直接控制LLM在未知领域采取行动,而无需大量数据训练。
什么是思维树模型Tree of Thoughts (ToT): deliberate 推理
ToT框架:借鉴人类“慢思考”(System 2)模式,在推理的中间步骤中进行树状搜索、评估和选择,极大提高了解决复杂逻辑问题的成功率。
解决LLM缺陷:指出纯粹的自回归预测在面对需要提前规划或回溯的复杂问题(如数学游戏)时表现不佳。
就是对模型全能性的一个解答,我理解的那个一直存在的整体目标函数,用思维树结构的表达精确多了,往上生长不断分支,剪枝,直到能work。
答辩中有几个问题:
1、koala 框架的瓶颈
提问:将 LLM 放入 Koala 框架的大图景中,您认为瓶颈在哪里?是计算速度(CPU/GPU)还是上下文管理?
回答:从经验上看,瓶颈在于长期记忆(Long-term Memory)和决策制定(Decision-making)。我们需要超越单纯将所有东西塞进上下文窗口的“上下文管理”方式。决策也是瓶颈,特别是行动空间非常大时,模型很难在内部模拟所有可能情况并进行自我评估。
2. 端到端智能体是否会取代现有的复杂结构
提问:类比自动驾驶,未来是否会有一个“端到端”的智能体系统,替代现在这些复杂的、分组件的系统?
回答:这是一个大问题。简短的回答是:神经网络越强大,我们需要的显式代码结构就越少。Koala 框架致力于提出一个围绕神经网络的最小化必要组件。虽然随着神经网络能力的提升,我们需要的分层结构可能会越来越少,但在通往通用人工智能的道路上,显式地建模这些组件对于理解智能的本质(如认知科学)依然非常重要。
简单说,模型训练依然重要。
3. 瓶颈与最大挑战的总结
提问:在 Koala 框架(记忆、行动空间、决策)中,瓶颈在哪里?未来几年智能体最可能在哪个领域失败或表现不及预期?
回答:最大的领域机会可能是数字化自动化(在计算机、互联网上代替人类办公)。瓶颈依然是长期记忆和决策,具体表现为模型如何检索记忆、如何进行自我评估和自我模拟。
你看,数字化程度最高的场景,编程是妥妥的第一战场。
4. 思考量级(ReAct vs ToT)的权衡
提问:ReAct 是一步思考一步行动,ToT 是大量思考。如何决定一个智能体需要多少“思考量”?
回答:这是一个未解决的问题。目前是针对特定任务人为设计思考模式。如果追求通用性,模型需要具备“元认知能力”——自行决定需要思考多少。
5. 语言在推理中的特殊性
提问:语言不仅仅是一个表示,它还是一种思考媒介。除了语言,是否有其他形式的推理?
回答:语言具有双重特殊性:1. 它是通用表示,能将网页浏览、机器人操控等所有领域转化为“文本游戏”。2. 它是人类的思考和交流媒介,支持自我沟通式推理。然而,语言无法解决所有问题,多模态推理是必须的。未来可以利用如 Sora 这样的模型进行物理模拟,例如内部渲染球体被踢出的物理结果来进行决策。
6. 成本与计算效率
提问:ReAct 需要调用 LLM API,还要调用工具(如 Google 搜索)。推理成本与行动成本的比例如何?
回答:大部分成本都在推理部分(即调用 LLM 生成思考)。系统性问题在于,API 通常是无状态的,每一步行动都需要把前面的上下文重新计算一遍。这是系统层面需要解决的难题。
7. 多智能体协作
提问:是否能想象一个 ReAct 智能体由另一个专门的推理智能体协助?如何看待多智能体协作?
回答:有类似 Reflection 的后续工作。但在“多智能体”之前,我们必须明确单智能体到底是什么。目前很多所谓多智能体只是“多提示词(multi-prompt)”。真正的智能体应该像人一样拥有记忆和决策机制。单智能体能力不足时,增加数量只会带来混乱。
8. 智能体安全性问题
提问:您提到需要制定明确的行动空间,这如何与安全性挂钩?
回答:安全性对智能体至关重要,因为它们可以操作真实代码、访问真实网页甚至操作机器人。基于模块化的 Koala 框架,我们可以定义严格的访问控制。定义清晰的行动空间能让我们预估最坏情况。建立信任将是一个渐进的过程,不应立即部署完全自主的智能体。
9. LLM 智能体的持续学习
提问:如何看待 LLM 智能体的持续学习,即如何适应不同领域或随时间变化的动态领域?
回答:我认为有两条路径:一是通过梯度下降更新神经网络权重;二是通过记忆模块添加文本信息。两者相辅相成。对于模式重复的任务,梯度下降更好。但对于类似做 PhD 研究这种开放式、一次性的任务,更需要像人类一样将经验转化为高层级的文本记忆,以便随时检索。这是目前智能体比较欠缺的。
10. 关于“教模型如何做智能体”的趋势
提问:关于训练模型自身直接做智能体(而不是依赖提示词),用模型自己的输出作为值评估器进行“反思”的趋势怎么看?是否可以通过“行动序列”的分配来替代通过“思考步骤”进行回溯?
回答:这是一个非常有前景的方向。人们正尝试结合 ReAct 和 ToT(思维树),不仅在思考空间搜索,也在行动空间搜索。目前的瓶颈在于模型本身的自我评估能力不足。这正是需要训练专门针对“智能体任务”的模型的原因,用高质量数据进行微调,这是一种浅层但高效的强化学习方式。


