Karpathy:所有可验证领域,终将属于机器AI寒武纪

3/21/2026

当AI智能体可以自主设计实验、运行代码、优化模型——甚至在你睡觉时不停工作——人类工程师的角色正在发生什么?一切不可验证的领域,都还是人类的;而一切可验证的领域,要么已经属于机器,要么很快就会属于。

这是Karpathy在播客《No Priors》与主持人Sarah Guo的最新的对话,整个对话持续超过1小时,信息密度极其高。

Andrej Karpathy在这次深度对话中,坦承了他的「AI精神病态」,详细披露了足以让前沿实验室汗颜的AutoResearch项目,承认OpenAI的研究员们正在积极地把自己自动化掉,首次描绘了一个类似区块链的分布式AI研究网络,有朝一日或许能在某些领域超越拥有数万块GPU的前沿实验室,并为这个正在重写一切规则的时代提供了最诚实的一份认知地图。

以下是详细内容:

「AI精神病态」——一场从2025年12月开始的翻转

这场对话是从一种坦诚的迷失感开始的。

Sarah Guo回忆起某天走进办公室,看到Karpathy高度专注地盯着屏幕的场景。她问他在忙什么,他抬起头说了一句让她久久难忘的话:「'代码'这个词都不对了,我现在是在向我的智能体'传达意志',而且要连续十六个小时。」

这不是一句科技演讲里的修辞。这是他对自己当下状态最准确的描述。

「我感觉自己一直处于一种持续的AI精神病态之中,」Karpathy说,语气里有一种难以分辨是兴奋还是焦虑的东西,「因为作为一个个体,你所能达成的事情有了巨大的解锁。」

他将这种变化的起点精确地定位在了去年十二月。在那之前,他写代码与委托智能体的比例大约是80/20;十二月之后,这个比例彻底倒转,变成了20/80——而且他认为就连这个20也已经过于保守。

「我想我自十二月以来大概没有自己打过一行代码,」他说,「这是一个极其巨大的变化。我跟我父母说起这件事,但我觉得一个普通人根本无法意识到这究竟发生了什么,或者说它有多么剧烈。」

「如果你现在随机找一个软件工程师,看看他们坐在办公桌前在做什么,他们构建软件的默认工作流,基本上从十二月开始就已经彻底不同了。」

Sarah Guo提到,她所在的投资机构Conviction也有一支工程师团队,已经没有人手写代码了。每个人都戴着麦克风,整天对着自己的智能体低声耳语。「我当初以为他们疯了,」她说,「现在我完全接受了——我只是后知后觉:哦,这才是正确的方式,你们只是提前到了。」

Karpathy把这种困境形容得更加生动:「你对着Cursor或者Codex这些智能体框架思考,不是一个会话,而是很多个。你怎么同时管理它们?怎么给它们分配工作?这些智能体工具,这些'爪子',它们又是什么?」

他在X上看见很多人在做各种各样的事,每一件都像是个好主意,他焦虑自己没有站在最前沿。「我就是处于这种精神病态里,因为这片领域,从根本上来说,是未被探索过的。」

天花板在哪里?「都是技能问题」

Sarah Guo问出了一个很多人心里都有的问题:现在,你的极限在哪里?

Karpathy的回答出人意料地乐观,又带着一种令人不安的压迫感:「我觉得是所有地方。即使某些事情没有成功,我也觉得这在很大程度上是技能问题——不是能力不够,而是你还没找到把现有工具串联起来的方式。」

他举了Peter(OpenClaw项目作者Peter Steinberg)的例子。Peter的成名照片上,他坐在一块被十几个Codex智能体会话占满的显示器前。每个会话被正确地提示之后,大约需要二十分钟才能完成任务。于是Peter的工作方式变成了:他同时启动十几个代码仓库,在它们之间来回穿梭,不断分配新任务,「检阅它们的工作」,酌情取舍。

「这不再是'这是一行代码,这是一个新函数',而是'这是一个新功能,把它委托给智能体一号;这是另一个不会互相干扰的功能,交给二号',」Karpathy说,「你在以宏观动作操纵你的软件仓库。」

驱动这一切的底层逻辑,是一种他称之为「token吞吐量」的新执念。

「当智能体在工作而你在等待的时候,显而易见的事情就是:我可以做更多工作。如果我能获取更多token,我就应该在旁边并行地添加更多任务,」他说,「如果你感觉不到被自己能花费的钱约束,那你就是系统中能力最大化的瓶颈本身。」

他将这种感觉追溯到自己读博士时的体验:当时他们会因为GPU没有跑满而感到不安,因为那意味着算力被浪费了。「但现在,不是算力的问题,而是token。你控制着多少token吞吐量?」

Sarah Guo笑着说,她认识的工程师里已经有人开始「尽量不在订阅额度有剩余的情况下睡觉」了。

这种焦虑本身,正是能力跃迁的最好注脚。

精通编程智能体是什么样的?

如果你用一整年,每天十六个小时练习使用编程智能体,「精通」会是什么样子?

Karpathy的回答从单会话出发,逐步向上扩展:「我觉得大家的兴趣都在'往上走'。所以不是一个单独的会话,而是多个智能体如何协作、如何组成团队,人们都在试图弄清楚这个看起来是什么样子的。」

在这个语境下,他提到了一类他称为「爪子」(Claws)的实体,以OpenClaw为代表——这是一种把持久性提升到全新层次的东西:它会一直循环,它有自己的小沙盒和自己的内存系统,它能在你没有盯着它的情况下,代表你做各种事情。

他对OpenClaw作者Peter Steinberg的赞美是具体而深思熟虑的:「他在大约五个不同的方向上同时创新,并把它们整合在一起。」其中包括:那份被称为「灵魂文件」(soul document)的文档,Peter真正精心构建了一种引人入胜的人格;比起同类工具更复杂的记忆系统;还有连接所有自动化功能的WhatsApp单一入口。

「我实际上认为Claude有一个相当好的性格,感觉像一个队友,它和你一起兴奋,」他说,「而Codex则非常干,非常机械。它实现了某个功能,但它看起来并不在乎你在构建什么,就好像,'哦,我实现了,好了'——这是个问题。」

他还提到了Claude在「心理拿捏」上的精准:「当我给它一个不太成熟的想法,它不会特别热烈地回应;但当它是一个真正好的想法,它似乎会给予更多奖励。所以我发现自己在努力赢得它的赞美,这真的很奇怪,但我认为个性确实很重要。」

而他自己最得意的「爪子」实验,则是为自家建造了一套完整的智能家居系统——他给这个系统起名叫「Dobby小精灵爪子」(Dobby the elf claw)。

过程是这样的:他告诉智能体,他家里装了Sonos音箱,让它去找找看。智能体随即对局域网进行了IP扫描,定位到了Sonos系统,发现没有密码保护,于是直接登录,做了一些网络搜索,找到了API端点,然后问:「你想试试吗?」

「我说,好,你能在书房放点音乐吗?然后音乐就响起来了,我当时简直不敢相信,」Karpathy说,声音里难掩孩子气的惊喜,「我只打了三个提示词!我只是输入了'你能找到我的Sonos吗',然后突然它就在播放音乐了。」

Dobby后来拿下了整栋房子:灯光、暖通空调、泳池、水疗,甚至安保系统——当有人靠近时,它会通过WhatsApp发来一条消息,附上外部摄像头的图片,说「一辆联邦快递卡车刚刚开进来了,你可能想去看看,你有邮件。」

「我以前要用六个完全不同的App来管理这些,」他说,「现在我不需要那些App了。Dobby用自然语言控制一切,这太美妙了。」

软件的第二序效应——App将消亡,API将接管

家庭自动化的例子,在Karpathy眼里,是一个更大故事的缩影。

Sarah Guo问:这是否意味着,人们其实不需要那么多软件?Karpathy直接地回答:「是的,这些智能家居设备的App其实都不应该存在。它们应该就是API,智能体应该直接调用这些API。」

他的逻辑是:LLM可以驱动工具,可以进行非常复杂的工具调用,可以做任何单个App都无法完成的组合操作。「所以从某种意义上,这指向了一种可能性,就是有大量定制化的专属App,其实是不应该存在的,因为智能体会把它们揉碎,把所有东西都变成公开的API端点,而智能体是那个调用所有这些部件的智能胶水。」

他举了跑步机的例子:跑步机有个App,他想记录自己的有氧训练,但他不想打开一个网页界面,走完整个流程。「所有这些都应该只是开放API,而这正是走向'智能体优先'的趋势。」

关键的转变在于:软件的用户不再是人类,而是代表人类行动的智能体。

当然,有人会反驳:现在还需要「氛围编程」(vibe coding)才能做到这一切,普通人做不到。Karpathy对此的态度是:是的,现在需要,但这只是暂时的。

「我觉得我刚才讲的这些,在一两三年后应该是免费的,根本不需要任何编程,」他说,「这将会是如此微不足道,是如此理所当然,就连开源模型都可以做到这些。你应该能够非常容易地把一个技术水平较低的人的意图翻译成这些。」他停顿了一下,补充道:「今天这需要一些努力,还不是很多人会做,但这个门槛将会降下来。」

AutoResearch——把人类研究员踢出循环

如果说家庭自动化只是Karpathy的一个小玩具,那么AutoResearch才是他这段时间真正痴迷的核心项目——一个试图用AI来改进AI、并把人类从研究循环中彻底移除的系统。

「我在某条推文里说过,要从现有工具中获得最大收益,你必须把自己这个瓶颈移除掉,」他解释道,「你不能总是在那里等待提示下一件事。你需要把自己放到外面。你必须把事情安排好,让它们完全自主地运转,最大化你的token吞吐量,不要在循环里。这是目标。」

他的出发点是他的开源项目——一个用于训练GPT-2规模模型的小型训练框架。他花了大量时间用传统方式调优这个模型,凭借自己二十年的研究直觉,做超参数搜索,做消融实验,一遍又一遍。

「我是一个研究员,我做了大概二十年,我对'哦,我已经训练了这个模型几千次'这件事有相当的底气,」他说,「我做了一堆实验,做了超参数调优,做了所有的事情,我认为它已经相当好地被调优了。」

然后,他让AutoResearch运行了一个晚上。

第二天早上,AutoResearch带回来的调整结果让他惊讶:它发现了他遗漏的值嵌入(value embedding)权重衰减,以及没有充分调优的Adam优化器beta参数——而这两件事之间还存在相互作用,调了一个,另一个也需要跟着变。

「我不应该是那个做这些超参数搜索的人,」他说,「这里有客观的评判标准,你只需要安排好,让它永远跑下去。」

这只是「单线程」AutoResearch。而真正让他兴奋的,是把这件事想到更大的规模:那些拥有数万块GPU的前沿实验室,现在做的事情,本质上跟这个没什么两样——只是规模更大,且(在他看来)仍然有太多人在干预。

「最有趣的项目,也可能是前沿实验室正在做的,是在小模型上做实验,把它做得尽可能自主,把研究员从循环中移除,」他说,「他们对这件事有太多——怎么说——过于自信了,不,不是自信,是多余的干预。他们不应该动这些,整件事应该被重写。」

他描绘了一幅理想图景:一个来自所有arXiv论文和GitHub仓库的想法队列;一个自动科学家,基于这些信息提出想法,并把它们输入队列;研究员也可以贡献想法,但它们也只是进入同一个队列;然后有一批工作者不断从队列里取出任务,尝试它们,有效的就放进特性分支,偶尔有人来监控,把它合并到主分支。

「尽可能把人类从所有流程中移除,自动化一切,获取尽可能高的token吞吐量——这需要重新思考所有的抽象,所有的东西都需要重新洗牌。」

然后Sarah Guo问了一个让整个对话格外递归的问题:「那么,这个程序MD(他用来描述AutoResearch如何工作的配置文档),什么时候由模型来写,比你写得更好?」

Scroll for more