Karpathy：10倍程序员已成过去式华尔街日报

OpenAI联合创始人Andrej Karpathy指出，去年12月是AI范式转变的关键节点，以代理为核心的"软件3.0"时代已实质到来。他区分"氛围编程"与"代理工程"两个概念，强调后者能实现远超10倍的生产力提升。面对高度自动化未来，人类核心价值将回归审美、判断力与深层理解，"你可以外包思考，但无法外包理解"。

OpenAI联合创始人Andrej Karpathy在最新访谈中指出，大语言模型正作为“新型计算机”全面重塑计算架构。

4月29日，曾一手主导特斯拉Autopilot开发、并在OpenAI具有举足轻重地位的AI领军人物Andrej Karpathy，在由AI Sent主办的活动上，就当前AI代理的技术跃迁及其对软硬件生态的深远影响进行了深度拆解。

Karpathy表示，自去年12月起，他开始意识到以代理为核心的工作流已真正可用，这一转变标志着Software 3.0时代的实质到来。他说：

很多人去年对AI的印象还停留在ChatGPT，但你必须重新审视，尤其是从12月开始——事情已经发生了根本性变化。

他同时提出了"代理工程"（agentic engineering）这一新概念，以区别于去年他所命名的"氛围编程"（vibe coding），前者指的是专业软件开发中质量标准的延续与加速。

他直言，大量现有代码和应用程序在新范式下"不应该存在"，而当前多数组织的招聘流程、开发工具和基础设施，仍在为人类而非代理而设计。

软件3.0的黎明：底层计算架构的权力交接

科技产业正站在一个从量变到质变的十字路口。

去年12月是一个关键的转折点，Karpathy坦言，面对最新的AI模型，他经历了深刻的震撼：

系统生成的代码块越来越完美，我甚至记不清上一次修改它是什么时候。我只是越来越信任这个系统......（这让我）从未感觉自己作为一名程序员如此落后。

这种冲击是计算范式的彻底颠覆。在Karpathy看来，市场目前低估了这一变化的深度。

他指出，我们正在告别“软件1.0（写代码）”和“软件2.0（整理数据集训练神经网络）”，正式迈入“软件3.0”时代。

在这个新纪元里，大语言模型本身就是一台“新型计算机”。他说：

你现在的编程变成了写提示词，而在上下文窗口中的内容，就是你操控那个作为解释器的大语言模型的杠杆，让它在数字信息空间中执行计算。

更令市场瞩目的，是他对未来底层硬件架构演进的大胆预测。目前，神经网络仍以虚拟化的形式运行在现有的计算机上，但他认为未来这种主客关系将会反转：

你可以想象，神经网络将成为主进程，而CPU则变成了某种协处理器。神经网络将承担绝大部分的繁重工作。

这意味着，主导全市场资本开支的“智能算力”，其战略核心地位将在未来进一步固化。

下一代基建：重构“代理原生”生态

当执行和编码被机器接管，人类的核心价值和未来的基建形态将走向何方？

Karpathy直言：所有的东西都必须被重写。

目前互联网的各种框架和库的说明文档仍是“为人类编写的”，这让他感到无比烦恼。Karpathy抱怨道：

为什么还要告诉我怎么做？我什么都不想做。我应该复制粘贴什么文本给我的AI代理？

未来的市场大机会在于构建“代理优先”的基础设施。

在这个世界里，系统被拆解为感知世界的“传感器”和改造世界的“执行器”，数据结构要让大语言模型高度可读，机器代理代表个人和机构在云端进行交互。

在如此高度自动化的未来，人类的核心稀缺性将回归到审美、判断力以及最深层的商业理解上。

Karpathy引用了一句令他反复咀嚼的话作为总结：

你可以外包你的思考，但你无法外包你的理解。

代理工程：远超“10倍工程师”的产能大爆发

在提升生产力这一市场最关心的维度上，Karpathy区分了两个核心概念：“氛围编程（Vibe coding）”与“代理工程（Agentic engineering）”。

他指出，“氛围编程”抬高了全员开发软件的下限，而“代理工程”则旨在维持专业软件的质量上限。

“代理工程”不仅仅是提速，它要求开发者协调那些“有些易错、带有随机性但极其强大”的AI代理，在不牺牲质量的前提下全速前进。

这也将极大拓宽企业产出的想象空间。Karpathy指出:

人们以前常谈论‘10倍工程师’，10倍已经不足以形容你所获得的提速了。在我看来，那些在这个领域表现出色的人，其产出峰值远超10倍。

面对这种生产力爆发，企业的组织架构和人才筛选逻辑必须重构。

他建议企业抛弃传统的算法解题面试，转而考察候选人如何利用多个AI代理协同构建大型项目，并能抵御其他AI代理的攻击。

AI商业落地的发力点

对于当前急于寻找AI应用落地场景的创业者和投资者，Karpathy提供了一个极具实操性的评估框架：可验证性。

目前AI的能力呈现出一种极其怪异的“锯齿状”。他举例表示：

最先进的模型今天能同时重构10万行的代码库或寻找零日漏洞，然而却告诉我应该步行去50米外的洗车店洗车，这简直疯了。

产生这种割裂的原因在于，前沿实验室（如OpenAI等）将海量强化学习资源倾注在了“数学”和“代码”等结果易于验证的领域。

因此，只要置身于结果可验证的商业场景中，AI就能发挥巨大威力。

Karpathy暗示，市场上仍存在大量高价值，但尚未被头部实验室重点关注的可验证强化学习环境，这正是创业公司进行微调（Fine-tuning）和商业变现的巨大蓝海。

以下为播客全文，AI辅助翻译：

我们非常荣幸迎来第一位特别嘉宾。他参与构建了现代人工智能，继而致力于解释现代人工智能，偶尔也会给它重新命名。他是OpenAI的联合创始人之一，正是在这间办公室里创立了这家公司；当年也正是他让特斯拉的自动驾驶系统真正跑了起来。他有一种罕见的天赋——能够让最复杂的技术变革听起来既通俗易懂，又顺理成章。大家都知道，他去年创造了"氛围编程（vibe coding）"这个词。但就在过去几个月里，他说了一句更令人震惊的话：他从未像现在这样觉得自己作为一名程序员已经落伍了。今天的对话就从这里开始。Andre，感谢你的到来。

Andrej Karpathy

你好，很高兴来这里为大家开个头。

就在几个月前，你说你从未像现在这样觉得自己作为程序员已经落伍了。从你口中听到这句话，着实令人吃惊。能跟我们聊聊这背后的感受吗？是兴奋，还是不安？

Andrej Karpathy

两者都有。首先，我想像很多人一样，在过去大约一年里，我一直在使用一些智能体工具，比如Claude Code之类的东西。它在处理代码片段方面表现很好，虽然有时会出错，需要手动修改，但总体上还是很有帮助的。

然后，去年十二月是一个明显的转折点。我当时在休假，有更多的时间，我想很多人也有类似的体验。我开始注意到，用最新的模型，输出的代码片段直接就是对的，我不断提更多要求，也依然是对的。我都记不清上次修正它是什么时候了。我越来越信任这个系统，然后就进入了"氛围编程"的状态。

我觉得那真的是一个非常鲜明的转变。我尝试在Twitter（也就是X）上强调这一点，因为很多人去年接触AI的方式还停留在使用ChatGPT这个层面，但你真的需要重新审视，尤其是以十二月为节点，因为事情已经发生了根本性的变化——尤其是在智能体工作流这个维度上，那时它才真正开始好用。从那以后，我就一头扎进了兔子洞，我的副业项目文件夹里塞满了各种稀奇古怪的东西，我就是一直在用AI写代码。大概是这么回事，十二月发生的。自那以后，我就一直在观察和思考这件事的影响。

你谈了很多关于"LLM是一台新型计算机"的理念——它不只是更好的软件，而是一种全新的计算范式。软件1.0是明确的规则，软件2.0是习得的权重，软件3.0就是现在这个阶段。如果这个框架是对的，那么一个团队在真正相信这件事的那一天，会有什么不同的做法？

Andrej Karpathy

对，确实如此。软件1.0阶段，我在写代码；软件2.0阶段，我实际上是通过构建数据集和训练神经网络来编程，编程的方式变成了整理数据集、设计目标函数和神经网络架构。

接下来发生的事情是：当你在足够大量的任务上训练这些GPT模型或大语言模型时，由于是在整个互联网上进行训练，模型必须同时完成数据集中所有任务，这使它在某种意义上成为了一台可编程的计算机。

软件3.0阶段，你的"编程"变成了"提示词工程"，而上下文窗口中的内容就是你操控解释器的杠杆——这里的解释器就是LLM，它解释你的上下文并在数字信息空间中执行计算。这大概就是这个转变的本质。

有几个例子让我对此有了更深切的体会，也许值得分享一下。

当OpenClaw发布时，你要安装它，通常会期望这是一个shell脚本——运行脚本来完成安装。但为了兼容众多不同的平台和不同类型的计算机，这类shell脚本往往会变得极其臃肿复杂。而OpenClaw的安装方式，实际上是复制一段文本交给你的智能体，由它来完成安装。这种方式强大得多，因为你工作在软件3.0的范式之下，不需要精确地逐一说明所有配置细节。智能体有自己的智能，它会理解指令，观察你的运行环境，采取智能行动让一切运转起来，并在循环中自主调试。这强大太多了。

还有一个更极端的例子，来自我构建MenuGen的经历。MenuGen的想法是：你去餐厅，他们递给你菜单，但通常没有图片，所以你根本不知道那些菜长什么样。我想做的是：拍一张菜单的照片，然后获取每道菜大概的样子。于是我用"氛围编程"构建了一个应用，可以上传照片，做一系列处理，部署在Vercel上，对菜单重新渲染，列出所有菜品，并调用图像生成模型对每个菜品名称进行OCR识别，再生成对应的图片呈现给用户。

后来我看到了这件事的软件3.0版本，彻底震惊了我：只需把照片交给Gemini，然后说"用Nana Banana把这些内容叠加到菜单上"。Nana Banana直接返回了一张图片——就是我拍的那张菜单的照片——但它在像素层面上直接把菜单上各道菜的图片渲染了出来。这让我大受震撼，因为我的整个MenuGen其实是多余的——它工作在旧范式里，那个应用根本不该存在。软件3.0范式要原始得多，神经网络承担了越来越多的工作，你输入的是图片，输出的也是图片，中间根本不需要任何应用层。

所以我认为，人们需要重新审视自己的思维框架，不要局限于现有的范式，不要只把它看作是现有事物的加速版。真正发生的是：有些全新的东西现在成为可能了。回到你说的编程问题，我认为这个问题本身也反映了一种旧有的思维方式——因为这不只是关于编程变得更快，而是更广泛意义上的信息处理现在都可以被自动化了，它不只关乎代码。

过去的代码是在结构化数据上运行的，你在结构化数据上编写代码。但比如我的"LLM知识库"项目，基本上是让LLM为你的组织或个人生成wiki——这不是一个程序，是过去不可能存在的东西，因为没有代码能够基于一堆事实凭空生成一个知识库。但现在你可以把这些文档输入进去，以不同的方式重新编译、重新排序，从而创造出新的、有价值的内容——这是对数据的一种重新诠释。这些都是以前不可能实现的新事物。所以我一直想回归这样一个问题：不只是什么事情现在可以做得更快了，还有什么是以前根本不可能实现的新机会。我甚至觉得后者更令人兴奋。

我非常喜欢你描绘的MenuGen进化路径和那种对比，我相信很多人也关注了你从去年十月到今年一二月的编程历程。如果继续推演下去，对标九十年代构建网站、二十年代构建移动应用、上一个云时代构建SaaS的历史节点，什么是今天大部分还未被构建、但事后回望会觉得理所当然的东西？

Andrej Karpathy

顺着MenuGen的例子说下去，很多代码其实都不应该存在，神经网络承担了绝大部分的工作。我确实觉得这条外推曲线会变得非常奇异。

可以想象，在某种意义上，完全的神经计算机是可能的——想象一种设备，它接收原始视频和音频，输入到本质上是神经网络的系统中，通过扩散模型渲染出一个界面，那个界面在某种意义上是为那个独特的时刻量身定制的。

在计算机诞生的早期，人们对计算机究竟会长成什么样子其实是困惑的——是像计算器，还是像神经网络？在五六十年代，这并不显而易见。当然，我们走了计算器这条路，建立了经典计算体系，而神经网络目前是虚拟运行在现有计算机之上的。但可以设想，未来这一切会翻转——神经网络成为宿主进程，CPU成为协处理器。我们已经看到那张图表了，神经网络的算力需求将会超越并成为浮点运算消耗的主导。

所以你可以想象一个非常陌生、非常异类的未来形态：神经网络承担绝大多数重活，工具调用只是作为某些确定性任务的历史遗留附件。真正在主导一切的，是以某种方式相互联结的神经网络群。这个外推的终点可能会极其陌生，但我想我们大概率是一步一步走到那里的。这条路怎么走，尚待观察。

我想聊聊"可验证性"这个概念——AI会在输出结果可以被验证的领域更快、更容易地实现自动化。如果这个框架是对的，什么工作将会以人们意想不到的速度发生变化？有哪些职业，人们觉得是安全的，但实际上高度可验证？