未来软件的第一客户是AgentAI科技大本营
“skill 在我看来,本质上就是一种「如何教 agent 去教人」的脚本。”
如果今天还有谁能同时代表深度学习研究、自动驾驶落地、LLM 工程直觉,以及 AI 教育这几条线,Andrew Karpathy 仍然是少数几个名字之一。
他是 OpenAI 早期的创始成员,做过 Tesla AI 和 Autopilot,也是在斯坦福把 CS231n 这门课真正讲成一代人入门教材的人。后面他成为了推特 AI 圈上的“顶流网红”,提出了氛围编程(Vibe Coding)这个 2025 年度热词。
今年年初这段时间,他又把注意力压到了一个更前沿、也更让人不安的问题上:当 coding agent、持续运行的“龙虾”以及 AutoResearch 这种自动闭环系统开始成形,人到底还该留在 loop 的哪个位置?
在 No Priors 最新的这期播客里,Karpathy 和主持人 Sarah Guo 讨论了 coding agent、AutoResearch、开放与闭源模型、机器人、教育和就业市场。但如果把整场对话往深处听,会发现它真正围绕的是同一个问题:当 agent 已经不再只是“帮你补代码”,而开始接管实验、拉长任务时间、连接真实世界,并尝试把人从 loop 里移出去,软件、研究、教育甚至工作的基本组织方式会被改写到什么程度?
下面按对话原有推进顺序,整理 Andrew Karpathy 和 Sarah Guo 的核心讨论。
过去几个月 AI 能力像是突然飞跃了一次 - 到底发生了什么?
Andrew Karpathy:我现在经常处在一种“AI psychosis(AI 式癫狂)”状态里,因为个人能力的上限突然被整个抬高了一截。
以前你的瓶颈还是打字速度,是你自己一行行写代码的速度。但有了这些 agent 之后,情况完全变了。我会说,真正的变化大概是在去年 12 月发生的。那时候像是有个开关被拨了一下:我原来大概还是 80% 自己写代码、20% 委托给 agent,后来几乎变成了 20% 对 80%。
而到了现在,可能都不只是 20/80 了。我大概从去年 12 月开始,就几乎没再亲手敲过几行代码。
这是一个非常巨大的变化。但我觉得,大多数普通人其实并没有意识到这件事已经发生了,也没有意识到它有多剧烈。今天如果你随机走到一个软件工程师工位前,看他在怎么做软件,默认工作流其实已经和几个月前完全不同了。
所以我现在整个人都处在一种持续追问“这些东西到底还能做到什么”的状态里。我能不能不只开一个 Claude Code 或 Codex session,而是同时跑多个?怎么更合理地去做这件事?这些“龙虾”到底是什么?它们能怎么用?
我想站在这一波变化的最前面。但也正因为这件事还处在真正的无人区,你会一直觉得焦躁:别人又试了什么新玩法,我是不是还没跟上?所以整件事让我进入一种不断追问“到底还可能做到什么”的状态。
如果个人能力被突然放大了这么多,那你现在真正的瓶颈是什么?
Andrew Karpathy:我觉得现在很多事情即便没做成,你也会本能地觉得那不是能力不够,而是 skill issue。
不是说这些 agent 天生做不到,而是你还没有找到一种足够好的方式把现有能力串起来。也许是你没有给出足够好的指令,也许是 agent 的说明文档没写好,也许是记忆系统还不够完善。
总之,当事情跑不起来的时候,现在很容易觉得:问题更多在于你不会用,而不是能力根本不存在。
你会开始想,怎么把它们并行起来?怎么让多个 agent 同时工作?怎么把整个软件仓库按更大的“宏动作”来操作?
我看到有人已经开始在一个屏幕上同时平铺很多个 Codex agent。每个 agent 被分配一块独立工作,大概二十分钟后回来交作业。一个在写功能,一个在做研究,一个在规划实现方案,一个在改另一个 repo。你不再是在写某一行代码,而是在给不同 agent 分发互不冲突的大任务,然后做审核、整合和调度。软件仓库开始被以“宏动作”的方式操作。
Sarah Guo:如果大家都这样练一年,会什么样?
Andrew Karpathy: 所有人都在往更高一层走。
下一步显然不会只是“一个人配一个 agent”。真正的问题会变成:多个 agent 怎么协作?它们怎么组成团队?它们之间如何分工?
另一个特别值得注意的方向,就是我说的“龙虾”。它代表的是一种比普通 agent 更持久的存在:它不是一轮对话结束就消失;它可以在你不盯着的时候继续循环运行;它有自己的沙盒、自己的记忆和自己的持续性;它可以替你处理一些本来需要人时刻盯着的任务。
在我看来,这些“龙虾”把持续性推到了一个新层级。它不只是一个坐在聊天框里等你发问的模型,而更像一个在后台长期存在、替你跑事情的实体。
你觉得 OpenClaw 为什么会比很多别的 agent 更打动人?
Andrew Karpathy: 关键点是,它不只是做了“能干活的 agent”,而是把几件往往被忽视的东西同时做对了。
第一,是人格感。
很多 agent 在这件事上其实做得并不好。相比之下,好的 agent 会让你感觉它像个队友。它会理解你在做什么,会和你站在一边,甚至会让你觉得它对你们正在一起做的东西是有感受的。
我拿 Claude 和 Codex 做过一个对比:在我看来,Claude 的人格感调得相当好;Codex 则明显更干、更冷,像是完成任务就走,不太在意你们到底在一起造什么。
第二,是记忆。
第三,是把所有自动化入口统一到一个单一通道里,比如 WhatsApp。
而这几件事一旦被揉在一起,agent 给人的感觉就不再只是“一个工具”,而更像一个真正存在于你数字生活里的角色。
Sarah Guo:除了写代码,你自己有没有用这些“龙虾”做过更有意思的事?
Andrew Karpathy: 有。我一度进入过一种“龙虾癫狂”状态。
我给自己家里造了一个管家型“龙虾”,名字叫 Dobby。
这个 Dobby 会自己去扫描家里的局域网,识别 Sonos、灯光、空调、窗帘、泳池和安防系统,自己摸索 API、反向理解这些系统怎么工作,然后把所有控制入口收拢成一个统一面板。最后,我可以直接用自然语言给它发消息。
以前光是管理家里的这些系统,就要来回切换六个完全不同的 App;现在则变成了通过 WhatsApp 和一个“龙虾”说话。
比如我说一句“该睡觉了”,Dobby 就会去把灯、空调、窗帘等一系列事情一起处理掉。门外如果有 FedEx 卡车停下,它还会通过视觉模型识别变化,主动发消息提醒。
所以这个例子最有意思的地方不只是“智能家居更方便了”,而是它指向了一种更大的趋势:未来很多软件也许根本不该以 App 的形式存在。
这是不是意味着,未来软件行业要按“Agent First”重构?
Andrew Karpathy:我觉得很大程度上是这样。
今天这些智能家居 App、跑步机 App,很多都只是因为还没有更好的调用方式,才被迫以独立软件形态存在。可一旦 agent 足够成熟,它完全可以直接调用底层接口,把这些零散的软件外壳折叠掉。
换句话说,未来很多产品不再是“给人直接点的 UI”,而是“暴露足够好的 API,然后由 agent 去做编排”。
这意味着行业会发生一种深层重构:软件的第一客户,也许不再是人,而是代表人行动的 agent。
当然,我也承认,现在距离“普通人完全不需要懂技术就能这样用”还有距离。今天这件事依然需要一些 coding、一些判断和一些设计。但我觉得,这个门槛会迅速往下掉。到一两年、两三年之后,很多现在看起来还像黑客玩法的东西,很可能会变成 table stakes(基础门槛)。
Sarah Guo:那为什么你没有把“龙虾”推得更远?
Andrew Karpathy: 一部分确实是因为注意力总被新东西拉走,另一部分则是安全与隐私上的保守。
我还没有把邮箱、日历这些真正深入个人数字生活的系统完全交给 agent,因为我依然觉得这套东西还很新、还很粗糙,边缘上还有很多不稳定的地方。
所以一部分限制来自安全、隐私和谨慎本身。我不想太早把整个数字生活毫无保留地交出去。
你为什么会开始做 AutoResearch?
Andrew Karpathy: 因为如果你真的想把今天这些工具榨到极致,就必须把自己从瓶颈里拿出去。
很多人也许口头上接受“agent 可以做更多事”,但还没有真正把它推演到底。对我来说,AutoResearch 就是这件事的一个具体后果:如果研究任务本身有相对清晰的目标、指标和边界,那研究者就不该继续成为 loop 中间那个必须按“下一步”按钮的人。
人的存在,反而会拖慢整个系统的 token throughput(token 吞吐)。
所以 AutoResearch 的核心不是“让 AI 帮研究员省点力”,而是更激进的一件事:把研究流程尽量改造成一种你设定一次目标和约束之后,就可以自动往前跑的系统。
在我的理想形态里,这件事非常简单:给定目标,给定指标,给定边界,然后放手让 agent 去实验、训练、优化,而不是每一步都等着研究员看结果、给指令、再继续。
Sarah Guo:AutoResearch 的效果让你意外吗?
Andrew Karpathy: 是,非常意外。
很多人可能不理解我为什么总拿训练 GPT-2 级别的小模型做实验。但在我看来,那并不是因为我对“小模型”本身有什么执念,而是因为这相当于一个可以反复试验的游乐场:我真正关心的是,LLM 到底能在多大程度上改进 LLM。
这才是我眼里更大的命题:递归式自我改进到底能走多远?
我已经用非常传统、也非常熟练的方式把一个小模型调得相当不错了——这是我做了二十年研究之后积累出来的直觉、经验和手感。但即便如此,AutoResearch 跑一晚上之后,还是找出了我没注意到的调参组合,比如 weight decay、Adam betas 这些彼此联动的小问题。
这对我是很强的信号。
因为如果一个已经被熟练研究者手动调过很多轮的小系统,仍然能被自动研究流程继续挖出增益,那把这个范式放大到真正的 frontier labs,就很容易想象会发生什么。
Sarah Guo:那再往上走一步,program.md 这种东西是不是也会被自动优化?
Andrew Karpathy: 当然会。
program.md 本质上就是我写给 AutoResearch 的一套粗糙说明:先做什么,再做什么,可以去看哪些方向,比如架构、优化器等等。
但如果一个研究组织本质上可以被写成 markdown 文件,那它当然也可以被优化。


