姚顺雨在PHD论文答辩中的几个问题猿人码头

出乎意料的是上期写张小珺对话季逸超这种冷饭访谈还有那多流量，可见和我一样后知后觉的人还是好多的。访谈中季逸超提到他几乎全部赞同顺雨的观点时，我想还是要找个时间看看顺雨大佬到底说了啥！

这期内容大概是2024年5月份，姚顺雨的博士毕业论文答辩，Language Agents: From Next-Token Prediction to Digital Automation。注意个时间点，DeepSeek是2025年1月推出的。

姚顺雨的核心观点是：将大型语言模型（LLM）与行动和推理机制相结合，可以创造出一种新型的“语言智能体”。这种智能体不仅能像人类一样思考、计划和利用工具，还能在复杂、开放的真实世界数字环境中进行推理和解决问题，弥补了传统人工智能在通用性和泛化能力上的不足。

为此，他开展了两个实验项目：

Webshop项目：建立了一个模拟购物网站的基准测试，要求智能体在真实网络环境中搜索、浏览、定制并购买商品。这要求智能体具备理解自然语言指令、处理视觉信息和长跨度决策的能力。

SWE-bench项目：关注代码自动化，要求智能体解决真实的GitHub Issue。研究发现，传统的序列到序列（Seq2Seq）模型在面对复杂代码库时表现极差，必须引入分解问题和执行反馈机制。

现在是2026年年初，你看现在的Manus、clawdbot、cursor、codex、antigravity，估计就是从那时候就开始往这个方向搞的。说不定就是看了他这个博士论文。

什么是ReAct，推理与行动的结合

核心机制：提出“推理（Reasoning）”是一种特殊的“内部行动”。智能体通过产生“思考（Thought）”来更新内部上下文，再基于此采取“行动（Action）”获取外部“观察（Observation）”。

零样本能力：React可以通过Prompt直接控制LLM在未知领域采取行动，而无需大量数据训练。

什么是思维树模型Tree of Thoughts (ToT)： deliberate 推理

ToT框架：借鉴人类“慢思考”（System 2）模式，在推理的中间步骤中进行树状搜索、评估和选择，极大提高了解决复杂逻辑问题的成功率。

解决LLM缺陷：指出纯粹的自回归预测在面对需要提前规划或回溯的复杂问题（如数学游戏）时表现不佳。

就是对模型全能性的一个解答，我理解的那个一直存在的整体目标函数，用思维树结构的表达精确多了，往上生长不断分支，剪枝，直到能work。

答辩中有几个问题：

1、koala 框架的瓶颈

提问：将 LLM 放入 Koala 框架的大图景中，您认为瓶颈在哪里？是计算速度（CPU/GPU）还是上下文管理？

回答：从经验上看，瓶颈在于长期记忆（Long-term Memory）和决策制定（Decision-making）。我们需要超越单纯将所有东西塞进上下文窗口的“上下文管理”方式。决策也是瓶颈，特别是行动空间非常大时，模型很难在内部模拟所有可能情况并进行自我评估。

2. 端到端智能体是否会取代现有的复杂结构

提问：类比自动驾驶，未来是否会有一个“端到端”的智能体系统，替代现在这些复杂的、分组件的系统？

回答：这是一个大问题。简短的回答是：神经网络越强大，我们需要的显式代码结构就越少。Koala 框架致力于提出一个围绕神经网络的最小化必要组件。虽然随着神经网络能力的提升，我们需要的分层结构可能会越来越少，但在通往通用人工智能的道路上，显式地建模这些组件对于理解智能的本质（如认知科学）依然非常重要。

简单说，模型训练依然重要。

3. 瓶颈与最大挑战的总结

提问：在 Koala 框架（记忆、行动空间、决策）中，瓶颈在哪里？未来几年智能体最可能在哪个领域失败或表现不及预期？

回答：最大的领域机会可能是数字化自动化（在计算机、互联网上代替人类办公）。瓶颈依然是长期记忆和决策，具体表现为模型如何检索记忆、如何进行自我评估和自我模拟。

你看，数字化程度最高的场景，编程是妥妥的第一战场。

4. 思考量级（ReAct vs ToT）的权衡

提问：ReAct 是一步思考一步行动，ToT 是大量思考。如何决定一个智能体需要多少“思考量”？

回答：这是一个未解决的问题。目前是针对特定任务人为设计思考模式。如果追求通用性，模型需要具备“元认知能力”——自行决定需要思考多少。

5. 语言在推理中的特殊性

提问：语言不仅仅是一个表示，它还是一种思考媒介。除了语言，是否有其他形式的推理？

回答：语言具有双重特殊性：1. 它是通用表示，能将网页浏览、机器人操控等所有领域转化为“文本游戏”。2. 它是人类的思考和交流媒介，支持自我沟通式推理。然而，语言无法解决所有问题，多模态推理是必须的。未来可以利用如 Sora 这样的模型进行物理模拟，例如内部渲染球体被踢出的物理结果来进行决策。

6. 成本与计算效率

提问：ReAct 需要调用 LLM API，还要调用工具（如 Google 搜索）。推理成本与行动成本的比例如何？

回答：大部分成本都在推理部分（即调用 LLM 生成思考）。系统性问题在于，API 通常是无状态的，每一步行动都需要把前面的上下文重新计算一遍。这是系统层面需要解决的难题。

7. 多智能体协作

提问：是否能想象一个 ReAct 智能体由另一个专门的推理智能体协助？如何看待多智能体协作？

回答：有类似 Reflection 的后续工作。但在“多智能体”之前，我们必须明确单智能体到底是什么。目前很多所谓多智能体只是“多提示词（multi-prompt）”。真正的智能体应该像人一样拥有记忆和决策机制。单智能体能力不足时，增加数量只会带来混乱。

8. 智能体安全性问题

提问：您提到需要制定明确的行动空间，这如何与安全性挂钩？

回答：安全性对智能体至关重要，因为它们可以操作真实代码、访问真实网页甚至操作机器人。基于模块化的 Koala 框架，我们可以定义严格的访问控制。定义清晰的行动空间能让我们预估最坏情况。建立信任将是一个渐进的过程，不应立即部署完全自主的智能体。

9. LLM 智能体的持续学习

提问：如何看待 LLM 智能体的持续学习，即如何适应不同领域或随时间变化的动态领域？

回答：我认为有两条路径：一是通过梯度下降更新神经网络权重；二是通过记忆模块添加文本信息。两者相辅相成。对于模式重复的任务，梯度下降更好。但对于类似做 PhD 研究这种开放式、一次性的任务，更需要像人类一样将经验转化为高层级的文本记忆，以便随时检索。这是目前智能体比较欠缺的。

10. 关于“教模型如何做智能体”的趋势

提问：关于训练模型自身直接做智能体（而不是依赖提示词），用模型自己的输出作为值评估器进行“反思”的趋势怎么看？是否可以通过“行动序列”的分配来替代通过“思考步骤”进行回溯？

回答：这是一个非常有前景的方向。人们正尝试结合 ReAct 和 ToT（思维树），不仅在思考空间搜索，也在行动空间搜索。目前的瓶颈在于模型本身的自我评估能力不足。这正是需要训练专门针对“智能体任务”的模型的原因，用高质量数据进行微调，这是一种浅层但高效的强化学习方式。