Karpathy:10倍程序员已成过去式华尔街日报
OpenAI联合创始人Andrej Karpathy指出,去年12月是AI范式转变的关键节点,以代理为核心的"软件3.0"时代已实质到来。他区分"氛围编程"与"代理工程"两个概念,强调后者能实现远超10倍的生产力提升。面对高度自动化未来,人类核心价值将回归审美、判断力与深层理解,"你可以外包思考,但无法外包理解"。
OpenAI联合创始人Andrej Karpathy在最新访谈中指出,大语言模型正作为“新型计算机”全面重塑计算架构。
4月29日,曾一手主导特斯拉Autopilot开发、并在OpenAI具有举足轻重地位的AI领军人物Andrej Karpathy,在由AI Sent主办的活动上,就当前AI代理的技术跃迁及其对软硬件生态的深远影响进行了深度拆解。
Karpathy表示,自去年12月起,他开始意识到以代理为核心的工作流已真正可用,这一转变标志着Software 3.0时代的实质到来。他说:
很多人去年对AI的印象还停留在ChatGPT,但你必须重新审视,尤其是从12月开始——事情已经发生了根本性变化。
他同时提出了"代理工程"(agentic engineering)这一新概念,以区别于去年他所命名的"氛围编程"(vibe coding),前者指的是专业软件开发中质量标准的延续与加速。
他直言,大量现有代码和应用程序在新范式下"不应该存在",而当前多数组织的招聘流程、开发工具和基础设施,仍在为人类而非代理而设计。
软件3.0的黎明:底层计算架构的权力交接
科技产业正站在一个从量变到质变的十字路口。
去年12月是一个关键的转折点,Karpathy坦言,面对最新的AI模型,他经历了深刻的震撼:
系统生成的代码块越来越完美,我甚至记不清上一次修改它是什么时候。我只是越来越信任这个系统......(这让我)从未感觉自己作为一名程序员如此落后。
这种冲击是计算范式的彻底颠覆。在Karpathy看来,市场目前低估了这一变化的深度。
他指出,我们正在告别“软件1.0(写代码)”和“软件2.0(整理数据集训练神经网络)”,正式迈入“软件3.0”时代。
在这个新纪元里,大语言模型本身就是一台“新型计算机”。他说:
你现在的编程变成了写提示词,而在上下文窗口中的内容,就是你操控那个作为解释器的大语言模型的杠杆,让它在数字信息空间中执行计算。
更令市场瞩目的,是他对未来底层硬件架构演进的大胆预测。目前,神经网络仍以虚拟化的形式运行在现有的计算机上,但他认为未来这种主客关系将会反转:
你可以想象,神经网络将成为主进程,而CPU则变成了某种协处理器。神经网络将承担绝大部分的繁重工作。
这意味着,主导全市场资本开支的“智能算力”,其战略核心地位将在未来进一步固化。
下一代基建:重构“代理原生”生态
当执行和编码被机器接管,人类的核心价值和未来的基建形态将走向何方?
Karpathy直言:所有的东西都必须被重写。
目前互联网的各种框架和库的说明文档仍是“为人类编写的”,这让他感到无比烦恼。Karpathy抱怨道:
为什么还要告诉我怎么做?我什么都不想做。我应该复制粘贴什么文本给我的AI代理?
未来的市场大机会在于构建“代理优先”的基础设施。
在这个世界里,系统被拆解为感知世界的“传感器”和改造世界的“执行器”,数据结构要让大语言模型高度可读,机器代理代表个人和机构在云端进行交互。
在如此高度自动化的未来,人类的核心稀缺性将回归到审美、判断力以及最深层的商业理解上。
Karpathy引用了一句令他反复咀嚼的话作为总结:
你可以外包你的思考,但你无法外包你的理解。
代理工程:远超“10倍工程师”的产能大爆发
在提升生产力这一市场最关心的维度上,Karpathy区分了两个核心概念:“氛围编程(Vibe coding)”与“代理工程(Agentic engineering)”。
他指出,“氛围编程”抬高了全员开发软件的下限,而“代理工程”则旨在维持专业软件的质量上限。
“代理工程”不仅仅是提速,它要求开发者协调那些“有些易错、带有随机性但极其强大”的AI代理,在不牺牲质量的前提下全速前进。
这也将极大拓宽企业产出的想象空间。Karpathy指出:
人们以前常谈论‘10倍工程师’,10倍已经不足以形容你所获得的提速了。在我看来,那些在这个领域表现出色的人,其产出峰值远超10倍。
面对这种生产力爆发,企业的组织架构和人才筛选逻辑必须重构。
他建议企业抛弃传统的算法解题面试,转而考察候选人如何利用多个AI代理协同构建大型项目,并能抵御其他AI代理的攻击。
AI商业落地的发力点
对于当前急于寻找AI应用落地场景的创业者和投资者,Karpathy提供了一个极具实操性的评估框架:可验证性。
目前AI的能力呈现出一种极其怪异的“锯齿状”。他举例表示:
最先进的模型今天能同时重构10万行的代码库或寻找零日漏洞,然而却告诉我应该步行去50米外的洗车店洗车,这简直疯了。
产生这种割裂的原因在于,前沿实验室(如OpenAI等)将海量强化学习资源倾注在了“数学”和“代码”等结果易于验证的领域。
因此,只要置身于结果可验证的商业场景中,AI就能发挥巨大威力。
Karpathy暗示,市场上仍存在大量高价值,但尚未被头部实验室重点关注的可验证强化学习环境,这正是创业公司进行微调(Fine-tuning)和商业变现的巨大蓝海。
以下为播客全文,AI辅助翻译:
我们非常荣幸迎来第一位特别嘉宾。他参与构建了现代人工智能,继而致力于解释现代人工智能,偶尔也会给它重新命名。他是OpenAI的联合创始人之一,正是在这间办公室里创立了这家公司;当年也正是他让特斯拉的自动驾驶系统真正跑了起来。他有一种罕见的天赋——能够让最复杂的技术变革听起来既通俗易懂,又顺理成章。大家都知道,他去年创造了"氛围编程(vibe coding)"这个词。但就在过去几个月里,他说了一句更令人震惊的话:他从未像现在这样觉得自己作为一名程序员已经落伍了。今天的对话就从这里开始。Andre,感谢你的到来。
Andrej Karpathy
你好,很高兴来这里为大家开个头。
就在几个月前,你说你从未像现在这样觉得自己作为程序员已经落伍了。从你口中听到这句话,着实令人吃惊。能跟我们聊聊这背后的感受吗?是兴奋,还是不安?
Andrej Karpathy
两者都有。首先,我想像很多人一样,在过去大约一年里,我一直在使用一些智能体工具,比如Claude Code之类的东西。它在处理代码片段方面表现很好,虽然有时会出错,需要手动修改,但总体上还是很有帮助的。
然后,去年十二月是一个明显的转折点。我当时在休假,有更多的时间,我想很多人也有类似的体验。我开始注意到,用最新的模型,输出的代码片段直接就是对的,我不断提更多要求,也依然是对的。我都记不清上次修正它是什么时候了。我越来越信任这个系统,然后就进入了"氛围编程"的状态。
我觉得那真的是一个非常鲜明的转变。我尝试在Twitter(也就是X)上强调这一点,因为很多人去年接触AI的方式还停留在使用ChatGPT这个层面,但你真的需要重新审视,尤其是以十二月为节点,因为事情已经发生了根本性的变化——尤其是在智能体工作流这个维度上,那时它才真正开始好用。从那以后,我就一头扎进了兔子洞,我的副业项目文件夹里塞满了各种稀奇古怪的东西,我就是一直在用AI写代码。大概是这么回事,十二月发生的。自那以后,我就一直在观察和思考这件事的影响。
你谈了很多关于"LLM是一台新型计算机"的理念——它不只是更好的软件,而是一种全新的计算范式。软件1.0是明确的规则,软件2.0是习得的权重,软件3.0就是现在这个阶段。如果这个框架是对的,那么一个团队在真正相信这件事的那一天,会有什么不同的做法?
Andrej Karpathy
对,确实如此。软件1.0阶段,我在写代码;软件2.0阶段,我实际上是通过构建数据集和训练神经网络来编程,编程的方式变成了整理数据集、设计目标函数和神经网络架构。
接下来发生的事情是:当你在足够大量的任务上训练这些GPT模型或大语言模型时,由于是在整个互联网上进行训练,模型必须同时完成数据集中所有任务,这使它在某种意义上成为了一台可编程的计算机。
软件3.0阶段,你的"编程"变成了"提示词工程",而上下文窗口中的内容就是你操控解释器的杠杆——这里的解释器就是LLM,它解释你的上下文并在数字信息空间中执行计算。这大概就是这个转变的本质。
有几个例子让我对此有了更深切的体会,也许值得分享一下。
当OpenClaw发布时,你要安装它,通常会期望这是一个shell脚本——运行脚本来完成安装。但为了兼容众多不同的平台和不同类型的计算机,这类shell脚本往往会变得极其臃肿复杂。而OpenClaw的安装方式,实际上是复制一段文本交给你的智能体,由它来完成安装。这种方式强大得多,因为你工作在软件3.0的范式之下,不需要精确地逐一说明所有配置细节。智能体有自己的智能,它会理解指令,观察你的运行环境,采取智能行动让一切运转起来,并在循环中自主调试。这强大太多了。
还有一个更极端的例子,来自我构建MenuGen的经历。MenuGen的想法是:你去餐厅,他们递给你菜单,但通常没有图片,所以你根本不知道那些菜长什么样。我想做的是:拍一张菜单的照片,然后获取每道菜大概的样子。于是我用"氛围编程"构建了一个应用,可以上传照片,做一系列处理,部署在Vercel上,对菜单重新渲染,列出所有菜品,并调用图像生成模型对每个菜品名称进行OCR识别,再生成对应的图片呈现给用户。
后来我看到了这件事的软件3.0版本,彻底震惊了我:只需把照片交给Gemini,然后说"用Nana Banana把这些内容叠加到菜单上"。Nana Banana直接返回了一张图片——就是我拍的那张菜单的照片——但它在像素层面上直接把菜单上各道菜的图片渲染了出来。这让我大受震撼,因为我的整个MenuGen其实是多余的——它工作在旧范式里,那个应用根本不该存在。软件3.0范式要原始得多,神经网络承担了越来越多的工作,你输入的是图片,输出的也是图片,中间根本不需要任何应用层。
所以我认为,人们需要重新审视自己的思维框架,不要局限于现有的范式,不要只把它看作是现有事物的加速版。真正发生的是:有些全新的东西现在成为可能了。回到你说的编程问题,我认为这个问题本身也反映了一种旧有的思维方式——因为这不只是关于编程变得更快,而是更广泛意义上的信息处理现在都可以被自动化了,它不只关乎代码。
过去的代码是在结构化数据上运行的,你在结构化数据上编写代码。但比如我的"LLM知识库"项目,基本上是让LLM为你的组织或个人生成wiki——这不是一个程序,是过去不可能存在的东西,因为没有代码能够基于一堆事实凭空生成一个知识库。但现在你可以把这些文档输入进去,以不同的方式重新编译、重新排序,从而创造出新的、有价值的内容——这是对数据的一种重新诠释。这些都是以前不可能实现的新事物。所以我一直想回归这样一个问题:不只是什么事情现在可以做得更快了,还有什么是以前根本不可能实现的新机会。我甚至觉得后者更令人兴奋。
我非常喜欢你描绘的MenuGen进化路径和那种对比,我相信很多人也关注了你从去年十月到今年一二月的编程历程。如果继续推演下去,对标九十年代构建网站、二十年代构建移动应用、上一个云时代构建SaaS的历史节点,什么是今天大部分还未被构建、但事后回望会觉得理所当然的东西?
Andrej Karpathy
顺着MenuGen的例子说下去,很多代码其实都不应该存在,神经网络承担了绝大部分的工作。我确实觉得这条外推曲线会变得非常奇异。
可以想象,在某种意义上,完全的神经计算机是可能的——想象一种设备,它接收原始视频和音频,输入到本质上是神经网络的系统中,通过扩散模型渲染出一个界面,那个界面在某种意义上是为那个独特的时刻量身定制的。
在计算机诞生的早期,人们对计算机究竟会长成什么样子其实是困惑的——是像计算器,还是像神经网络?在五六十年代,这并不显而易见。当然,我们走了计算器这条路,建立了经典计算体系,而神经网络目前是虚拟运行在现有计算机之上的。但可以设想,未来这一切会翻转——神经网络成为宿主进程,CPU成为协处理器。我们已经看到那张图表了,神经网络的算力需求将会超越并成为浮点运算消耗的主导。
所以你可以想象一个非常陌生、非常异类的未来形态:神经网络承担绝大多数重活,工具调用只是作为某些确定性任务的历史遗留附件。真正在主导一切的,是以某种方式相互联结的神经网络群。这个外推的终点可能会极其陌生,但我想我们大概率是一步一步走到那里的。这条路怎么走,尚待观察。
我想聊聊"可验证性"这个概念——AI会在输出结果可以被验证的领域更快、更容易地实现自动化。如果这个框架是对的,什么工作将会以人们意想不到的速度发生变化?有哪些职业,人们觉得是安全的,但实际上高度可验证?


