未来软件的第一客户是AgentAI科技大本营

“skill 在我看来，本质上就是一种「如何教 agent 去教人」的脚本。”

如果今天还有谁能同时代表深度学习研究、自动驾驶落地、LLM 工程直觉，以及 AI 教育这几条线，Andrew Karpathy 仍然是少数几个名字之一。

他是 OpenAI 早期的创始成员，做过 Tesla AI 和 Autopilot，也是在斯坦福把 CS231n 这门课真正讲成一代人入门教材的人。后面他成为了推特 AI 圈上的“顶流网红”，提出了氛围编程（Vibe Coding）这个 2025 年度热词。

今年年初这段时间，他又把注意力压到了一个更前沿、也更让人不安的问题上：当 coding agent、持续运行的“龙虾”以及 AutoResearch 这种自动闭环系统开始成形，人到底还该留在 loop 的哪个位置？

在 No Priors 最新的这期播客里，Karpathy 和主持人 Sarah Guo 讨论了 coding agent、AutoResearch、开放与闭源模型、机器人、教育和就业市场。但如果把整场对话往深处听，会发现它真正围绕的是同一个问题：当 agent 已经不再只是“帮你补代码”，而开始接管实验、拉长任务时间、连接真实世界，并尝试把人从 loop 里移出去，软件、研究、教育甚至工作的基本组织方式会被改写到什么程度？

下面按对话原有推进顺序，整理 Andrew Karpathy 和 Sarah Guo 的核心讨论。

过去几个月 AI 能力像是突然飞跃了一次 - 到底发生了什么？

Andrew Karpathy：我现在经常处在一种“AI psychosis（AI 式癫狂）”状态里，因为个人能力的上限突然被整个抬高了一截。

以前你的瓶颈还是打字速度，是你自己一行行写代码的速度。但有了这些 agent 之后，情况完全变了。我会说，真正的变化大概是在去年 12 月发生的。那时候像是有个开关被拨了一下：我原来大概还是 80% 自己写代码、20% 委托给 agent，后来几乎变成了 20% 对 80%。

而到了现在，可能都不只是 20/80 了。我大概从去年 12 月开始，就几乎没再亲手敲过几行代码。

这是一个非常巨大的变化。但我觉得，大多数普通人其实并没有意识到这件事已经发生了，也没有意识到它有多剧烈。今天如果你随机走到一个软件工程师工位前，看他在怎么做软件，默认工作流其实已经和几个月前完全不同了。

所以我现在整个人都处在一种持续追问“这些东西到底还能做到什么”的状态里。我能不能不只开一个 Claude Code 或 Codex session，而是同时跑多个？怎么更合理地去做这件事？这些“龙虾”到底是什么？它们能怎么用？

我想站在这一波变化的最前面。但也正因为这件事还处在真正的无人区，你会一直觉得焦躁：别人又试了什么新玩法，我是不是还没跟上？所以整件事让我进入一种不断追问“到底还可能做到什么”的状态。

如果个人能力被突然放大了这么多，那你现在真正的瓶颈是什么？

Andrew Karpathy：我觉得现在很多事情即便没做成，你也会本能地觉得那不是能力不够，而是 skill issue。

不是说这些 agent 天生做不到，而是你还没有找到一种足够好的方式把现有能力串起来。也许是你没有给出足够好的指令，也许是 agent 的说明文档没写好，也许是记忆系统还不够完善。

总之，当事情跑不起来的时候，现在很容易觉得：问题更多在于你不会用，而不是能力根本不存在。

你会开始想，怎么把它们并行起来？怎么让多个 agent 同时工作？怎么把整个软件仓库按更大的“宏动作”来操作？

我看到有人已经开始在一个屏幕上同时平铺很多个 Codex agent。每个 agent 被分配一块独立工作，大概二十分钟后回来交作业。一个在写功能，一个在做研究，一个在规划实现方案，一个在改另一个 repo。你不再是在写某一行代码，而是在给不同 agent 分发互不冲突的大任务，然后做审核、整合和调度。软件仓库开始被以“宏动作”的方式操作。

Sarah Guo：如果大家都这样练一年，会什么样？

Andrew Karpathy：所有人都在往更高一层走。

下一步显然不会只是“一个人配一个 agent”。真正的问题会变成：多个 agent 怎么协作？它们怎么组成团队？它们之间如何分工？

另一个特别值得注意的方向，就是我说的“龙虾”。它代表的是一种比普通 agent 更持久的存在：它不是一轮对话结束就消失；它可以在你不盯着的时候继续循环运行；它有自己的沙盒、自己的记忆和自己的持续性；它可以替你处理一些本来需要人时刻盯着的任务。

在我看来，这些“龙虾”把持续性推到了一个新层级。它不只是一个坐在聊天框里等你发问的模型，而更像一个在后台长期存在、替你跑事情的实体。

你觉得 OpenClaw 为什么会比很多别的 agent 更打动人？

Andrew Karpathy：关键点是，它不只是做了“能干活的 agent”，而是把几件往往被忽视的东西同时做对了。

第一，是人格感。

很多 agent 在这件事上其实做得并不好。相比之下，好的 agent 会让你感觉它像个队友。它会理解你在做什么，会和你站在一边，甚至会让你觉得它对你们正在一起做的东西是有感受的。

我拿 Claude 和 Codex 做过一个对比：在我看来，Claude 的人格感调得相当好；Codex 则明显更干、更冷，像是完成任务就走，不太在意你们到底在一起造什么。

第二，是记忆。

第三，是把所有自动化入口统一到一个单一通道里，比如 WhatsApp。

而这几件事一旦被揉在一起，agent 给人的感觉就不再只是“一个工具”，而更像一个真正存在于你数字生活里的角色。

Sarah Guo：除了写代码，你自己有没有用这些“龙虾”做过更有意思的事？

Andrew Karpathy：有。我一度进入过一种“龙虾癫狂”状态。

我给自己家里造了一个管家型“龙虾”，名字叫 Dobby。

这个 Dobby 会自己去扫描家里的局域网，识别 Sonos、灯光、空调、窗帘、泳池和安防系统，自己摸索 API、反向理解这些系统怎么工作，然后把所有控制入口收拢成一个统一面板。最后，我可以直接用自然语言给它发消息。

以前光是管理家里的这些系统，就要来回切换六个完全不同的 App；现在则变成了通过 WhatsApp 和一个“龙虾”说话。

比如我说一句“该睡觉了”，Dobby 就会去把灯、空调、窗帘等一系列事情一起处理掉。门外如果有 FedEx 卡车停下，它还会通过视觉模型识别变化，主动发消息提醒。

所以这个例子最有意思的地方不只是“智能家居更方便了”，而是它指向了一种更大的趋势：未来很多软件也许根本不该以 App 的形式存在。

这是不是意味着，未来软件行业要按“Agent First”重构？

Andrew Karpathy：我觉得很大程度上是这样。

今天这些智能家居 App、跑步机 App，很多都只是因为还没有更好的调用方式，才被迫以独立软件形态存在。可一旦 agent 足够成熟，它完全可以直接调用底层接口，把这些零散的软件外壳折叠掉。

换句话说，未来很多产品不再是“给人直接点的 UI”，而是“暴露足够好的 API，然后由 agent 去做编排”。

这意味着行业会发生一种深层重构：软件的第一客户，也许不再是人，而是代表人行动的 agent。

当然，我也承认，现在距离“普通人完全不需要懂技术就能这样用”还有距离。今天这件事依然需要一些 coding、一些判断和一些设计。但我觉得，这个门槛会迅速往下掉。到一两年、两三年之后，很多现在看起来还像黑客玩法的东西，很可能会变成 table stakes（基础门槛）。

Sarah Guo：那为什么你没有把“龙虾”推得更远？

Andrew Karpathy：一部分确实是因为注意力总被新东西拉走，另一部分则是安全与隐私上的保守。

我还没有把邮箱、日历这些真正深入个人数字生活的系统完全交给 agent，因为我依然觉得这套东西还很新、还很粗糙，边缘上还有很多不稳定的地方。

所以一部分限制来自安全、隐私和谨慎本身。我不想太早把整个数字生活毫无保留地交出去。

你为什么会开始做 AutoResearch？

Andrew Karpathy：因为如果你真的想把今天这些工具榨到极致，就必须把自己从瓶颈里拿出去。

很多人也许口头上接受“agent 可以做更多事”，但还没有真正把它推演到底。对我来说，AutoResearch 就是这件事的一个具体后果：如果研究任务本身有相对清晰的目标、指标和边界，那研究者就不该继续成为 loop 中间那个必须按“下一步”按钮的人。

人的存在，反而会拖慢整个系统的 token throughput（token 吞吐）。

所以 AutoResearch 的核心不是“让 AI 帮研究员省点力”，而是更激进的一件事：把研究流程尽量改造成一种你设定一次目标和约束之后，就可以自动往前跑的系统。

在我的理想形态里，这件事非常简单：给定目标，给定指标，给定边界，然后放手让 agent 去实验、训练、优化，而不是每一步都等着研究员看结果、给指令、再继续。

Sarah Guo：AutoResearch 的效果让你意外吗？

Andrew Karpathy：是，非常意外。

很多人可能不理解我为什么总拿训练 GPT-2 级别的小模型做实验。但在我看来，那并不是因为我对“小模型”本身有什么执念，而是因为这相当于一个可以反复试验的游乐场：我真正关心的是，LLM 到底能在多大程度上改进 LLM。

这才是我眼里更大的命题：递归式自我改进到底能走多远？

我已经用非常传统、也非常熟练的方式把一个小模型调得相当不错了——这是我做了二十年研究之后积累出来的直觉、经验和手感。但即便如此，AutoResearch 跑一晚上之后，还是找出了我没注意到的调参组合，比如 weight decay、Adam betas 这些彼此联动的小问题。

这对我是很强的信号。

因为如果一个已经被熟练研究者手动调过很多轮的小系统，仍然能被自动研究流程继续挖出增益，那把这个范式放大到真正的 frontier labs，就很容易想象会发生什么。

Sarah Guo：那再往上走一步，program.md 这种东西是不是也会被自动优化？

Andrew Karpathy：当然会。

program.md 本质上就是我写给 AutoResearch 的一套粗糙说明：先做什么，再做什么，可以去看哪些方向，比如架构、优化器等等。

但如果一个研究组织本质上可以被写成 markdown 文件，那它当然也可以被优化。