Karpathy：所有可验证领域，终将属于机器AI寒武纪

当AI智能体可以自主设计实验、运行代码、优化模型——甚至在你睡觉时不停工作——人类工程师的角色正在发生什么？一切不可验证的领域，都还是人类的；而一切可验证的领域，要么已经属于机器，要么很快就会属于。

这是Karpathy在播客《No Priors》与主持人Sarah Guo的最新的对话，整个对话持续超过1小时，信息密度极其高。

Andrej Karpathy在这次深度对话中，坦承了他的「AI精神病态」，详细披露了足以让前沿实验室汗颜的AutoResearch项目，承认OpenAI的研究员们正在积极地把自己自动化掉，首次描绘了一个类似区块链的分布式AI研究网络，有朝一日或许能在某些领域超越拥有数万块GPU的前沿实验室，并为这个正在重写一切规则的时代提供了最诚实的一份认知地图。

以下是详细内容：

「AI精神病态」——一场从2025年12月开始的翻转

这场对话是从一种坦诚的迷失感开始的。

Sarah Guo回忆起某天走进办公室，看到Karpathy高度专注地盯着屏幕的场景。她问他在忙什么，他抬起头说了一句让她久久难忘的话：「'代码'这个词都不对了，我现在是在向我的智能体'传达意志'，而且要连续十六个小时。」

这不是一句科技演讲里的修辞。这是他对自己当下状态最准确的描述。

「我感觉自己一直处于一种持续的AI精神病态之中，」Karpathy说，语气里有一种难以分辨是兴奋还是焦虑的东西，「因为作为一个个体，你所能达成的事情有了巨大的解锁。」

他将这种变化的起点精确地定位在了去年十二月。在那之前，他写代码与委托智能体的比例大约是80/20；十二月之后，这个比例彻底倒转，变成了20/80——而且他认为就连这个20也已经过于保守。

「我想我自十二月以来大概没有自己打过一行代码，」他说，「这是一个极其巨大的变化。我跟我父母说起这件事，但我觉得一个普通人根本无法意识到这究竟发生了什么，或者说它有多么剧烈。」

「如果你现在随机找一个软件工程师，看看他们坐在办公桌前在做什么，他们构建软件的默认工作流，基本上从十二月开始就已经彻底不同了。」

Sarah Guo提到，她所在的投资机构Conviction也有一支工程师团队，已经没有人手写代码了。每个人都戴着麦克风，整天对着自己的智能体低声耳语。「我当初以为他们疯了，」她说，「现在我完全接受了——我只是后知后觉：哦，这才是正确的方式，你们只是提前到了。」

Karpathy把这种困境形容得更加生动：「你对着Cursor或者Codex这些智能体框架思考，不是一个会话，而是很多个。你怎么同时管理它们？怎么给它们分配工作？这些智能体工具，这些'爪子'，它们又是什么？」

他在X上看见很多人在做各种各样的事，每一件都像是个好主意，他焦虑自己没有站在最前沿。「我就是处于这种精神病态里，因为这片领域，从根本上来说，是未被探索过的。」

天花板在哪里？「都是技能问题」

Sarah Guo问出了一个很多人心里都有的问题：现在，你的极限在哪里？

Karpathy的回答出人意料地乐观，又带着一种令人不安的压迫感：「我觉得是所有地方。即使某些事情没有成功，我也觉得这在很大程度上是技能问题——不是能力不够，而是你还没找到把现有工具串联起来的方式。」

他举了Peter（OpenClaw项目作者Peter Steinberg）的例子。Peter的成名照片上，他坐在一块被十几个Codex智能体会话占满的显示器前。每个会话被正确地提示之后，大约需要二十分钟才能完成任务。于是Peter的工作方式变成了：他同时启动十几个代码仓库，在它们之间来回穿梭，不断分配新任务，「检阅它们的工作」，酌情取舍。

「这不再是'这是一行代码，这是一个新函数'，而是'这是一个新功能，把它委托给智能体一号；这是另一个不会互相干扰的功能，交给二号'，」Karpathy说，「你在以宏观动作操纵你的软件仓库。」

驱动这一切的底层逻辑，是一种他称之为「token吞吐量」的新执念。

「当智能体在工作而你在等待的时候，显而易见的事情就是：我可以做更多工作。如果我能获取更多token，我就应该在旁边并行地添加更多任务，」他说，「如果你感觉不到被自己能花费的钱约束，那你就是系统中能力最大化的瓶颈本身。」

他将这种感觉追溯到自己读博士时的体验：当时他们会因为GPU没有跑满而感到不安，因为那意味着算力被浪费了。「但现在，不是算力的问题，而是token。你控制着多少token吞吐量？」

Sarah Guo笑着说，她认识的工程师里已经有人开始「尽量不在订阅额度有剩余的情况下睡觉」了。

这种焦虑本身，正是能力跃迁的最好注脚。

精通编程智能体是什么样的？

如果你用一整年，每天十六个小时练习使用编程智能体，「精通」会是什么样子？

Karpathy的回答从单会话出发，逐步向上扩展：「我觉得大家的兴趣都在'往上走'。所以不是一个单独的会话，而是多个智能体如何协作、如何组成团队，人们都在试图弄清楚这个看起来是什么样子的。」

在这个语境下，他提到了一类他称为「爪子」（Claws）的实体，以OpenClaw为代表——这是一种把持久性提升到全新层次的东西：它会一直循环，它有自己的小沙盒和自己的内存系统，它能在你没有盯着它的情况下，代表你做各种事情。

他对OpenClaw作者Peter Steinberg的赞美是具体而深思熟虑的：「他在大约五个不同的方向上同时创新，并把它们整合在一起。」其中包括：那份被称为「灵魂文件」（soul document）的文档，Peter真正精心构建了一种引人入胜的人格；比起同类工具更复杂的记忆系统；还有连接所有自动化功能的WhatsApp单一入口。

「我实际上认为Claude有一个相当好的性格，感觉像一个队友，它和你一起兴奋，」他说，「而Codex则非常干，非常机械。它实现了某个功能，但它看起来并不在乎你在构建什么，就好像，'哦，我实现了，好了'——这是个问题。」

他还提到了Claude在「心理拿捏」上的精准：「当我给它一个不太成熟的想法，它不会特别热烈地回应；但当它是一个真正好的想法，它似乎会给予更多奖励。所以我发现自己在努力赢得它的赞美，这真的很奇怪，但我认为个性确实很重要。」

而他自己最得意的「爪子」实验，则是为自家建造了一套完整的智能家居系统——他给这个系统起名叫「Dobby小精灵爪子」（Dobby the elf claw）。

过程是这样的：他告诉智能体，他家里装了Sonos音箱，让它去找找看。智能体随即对局域网进行了IP扫描，定位到了Sonos系统，发现没有密码保护，于是直接登录，做了一些网络搜索，找到了API端点，然后问：「你想试试吗？」

「我说，好，你能在书房放点音乐吗？然后音乐就响起来了，我当时简直不敢相信，」Karpathy说，声音里难掩孩子气的惊喜，「我只打了三个提示词！我只是输入了'你能找到我的Sonos吗'，然后突然它就在播放音乐了。」

Dobby后来拿下了整栋房子：灯光、暖通空调、泳池、水疗，甚至安保系统——当有人靠近时，它会通过WhatsApp发来一条消息，附上外部摄像头的图片，说「一辆联邦快递卡车刚刚开进来了，你可能想去看看，你有邮件。」

「我以前要用六个完全不同的App来管理这些，」他说，「现在我不需要那些App了。Dobby用自然语言控制一切，这太美妙了。」

软件的第二序效应——App将消亡，API将接管

家庭自动化的例子，在Karpathy眼里，是一个更大故事的缩影。

Sarah Guo问：这是否意味着，人们其实不需要那么多软件？Karpathy直接地回答：「是的，这些智能家居设备的App其实都不应该存在。它们应该就是API，智能体应该直接调用这些API。」

他的逻辑是：LLM可以驱动工具，可以进行非常复杂的工具调用，可以做任何单个App都无法完成的组合操作。「所以从某种意义上，这指向了一种可能性，就是有大量定制化的专属App，其实是不应该存在的，因为智能体会把它们揉碎，把所有东西都变成公开的API端点，而智能体是那个调用所有这些部件的智能胶水。」

他举了跑步机的例子：跑步机有个App，他想记录自己的有氧训练，但他不想打开一个网页界面，走完整个流程。「所有这些都应该只是开放API，而这正是走向'智能体优先'的趋势。」

关键的转变在于：软件的用户不再是人类，而是代表人类行动的智能体。

当然，有人会反驳：现在还需要「氛围编程」（vibe coding）才能做到这一切，普通人做不到。Karpathy对此的态度是：是的，现在需要，但这只是暂时的。

「我觉得我刚才讲的这些，在一两三年后应该是免费的，根本不需要任何编程，」他说，「这将会是如此微不足道，是如此理所当然，就连开源模型都可以做到这些。你应该能够非常容易地把一个技术水平较低的人的意图翻译成这些。」他停顿了一下，补充道：「今天这需要一些努力，还不是很多人会做，但这个门槛将会降下来。」

AutoResearch——把人类研究员踢出循环

如果说家庭自动化只是Karpathy的一个小玩具，那么AutoResearch才是他这段时间真正痴迷的核心项目——一个试图用AI来改进AI、并把人类从研究循环中彻底移除的系统。

「我在某条推文里说过，要从现有工具中获得最大收益，你必须把自己这个瓶颈移除掉，」他解释道，「你不能总是在那里等待提示下一件事。你需要把自己放到外面。你必须把事情安排好，让它们完全自主地运转，最大化你的token吞吐量，不要在循环里。这是目标。」

他的出发点是他的开源项目——一个用于训练GPT-2规模模型的小型训练框架。他花了大量时间用传统方式调优这个模型，凭借自己二十年的研究直觉，做超参数搜索，做消融实验，一遍又一遍。

「我是一个研究员，我做了大概二十年，我对'哦，我已经训练了这个模型几千次'这件事有相当的底气，」他说，「我做了一堆实验，做了超参数调优，做了所有的事情，我认为它已经相当好地被调优了。」

然后，他让AutoResearch运行了一个晚上。

第二天早上，AutoResearch带回来的调整结果让他惊讶：它发现了他遗漏的值嵌入（value embedding）权重衰减，以及没有充分调优的Adam优化器beta参数——而这两件事之间还存在相互作用，调了一个，另一个也需要跟着变。

「我不应该是那个做这些超参数搜索的人，」他说，「这里有客观的评判标准，你只需要安排好，让它永远跑下去。」

这只是「单线程」AutoResearch。而真正让他兴奋的，是把这件事想到更大的规模：那些拥有数万块GPU的前沿实验室，现在做的事情，本质上跟这个没什么两样——只是规模更大，且（在他看来）仍然有太多人在干预。

「最有趣的项目，也可能是前沿实验室正在做的，是在小模型上做实验，把它做得尽可能自主，把研究员从循环中移除，」他说，「他们对这件事有太多——怎么说——过于自信了，不，不是自信，是多余的干预。他们不应该动这些，整件事应该被重写。」

他描绘了一幅理想图景：一个来自所有arXiv论文和GitHub仓库的想法队列；一个自动科学家，基于这些信息提出想法，并把它们输入队列；研究员也可以贡献想法，但它们也只是进入同一个队列；然后有一批工作者不断从队列里取出任务，尝试它们，有效的就放进特性分支，偶尔有人来监控，把它合并到主分支。

「尽可能把人类从所有流程中移除，自动化一切，获取尽可能高的token吞吐量——这需要重新思考所有的抽象，所有的东西都需要重新洗牌。」

然后Sarah Guo问了一个让整个对话格外递归的问题：「那么，这个程序MD（他用来描述AutoResearch如何工作的配置文档），什么时候由模型来写，比你写得更好？」