AI能改10万行代码,却让你走路去洗车新智元
能重构10万行代码的顶尖模型,却会建议你走路去洗车店洗车?最近,Karpathy把这件怪事讲透了:AI能力是锯齿状的,背后是一门经济学。他还提到Vibe Coding抬高了编程的地板,但专业开发者还需要智能体工程。智能体时代,你可以外包思考,却不能外包理解。
今天最先进的大模型,可以一口气重构一个10万行的代码库,也会在你想要洗车的时候,建议你走路去50米外的洗车店。
为什么同一个模型,一会儿它表现得像一位超级工程师,一会儿却又像一个刚毕业的实习生?
这是Karpathy近日在Sequoia AI Ascent 2026炉边谈话中抛出的一个画面,他用锯齿状智能(jaggedness)来概括这种能力分布。
2026年4月29日,Karpathy在Sequoia AI Ascent 2026炉边谈话现场
谈话结束后,他在X上发帖复盘整场对话的亮点。
他想讲的第一件事是,大模型根本不只是在加速已有的东西,它还在打开几条全新的地平线:有些事第一次变得可能,有些事开始显得不必要。
第二件事,就是锯齿状智能。为什么模型一边能干超人的活,一边在常识题上翻车?Karpathy把锯齿状能力解释为可验证性与经济激励共同影响的结果。
第三件事,一个面向原生智能体(agent-native)的新经济正在长出来。所有今天为人类写的软件、文档、流程,都要被重写为「为agent写」。
这三件事共同指向同一个判断:AI已经不是「写代码更快」那么简单。它在重写软件本身,也在重写人类在系统里的位置。
Karpathy自己就是最鲜明的例子。
这位OpenAI创始成员、前Tesla AI负责人、Vibe Coding词语的发明者,前不久还公开撂下一句话:「我从未感觉作为程序员这么落后过。」
Sequoia的主持人正是把这句话拎出来,作为炉边谈的开场白。
这并不是谦虚。
一年前发明「氛围编程」(vibe coding)的人,亲口承认自己跟不上AI时代的浪潮,只能说明一点:AI发展的速度实在太快了。
01能改10万行代码却让你走路去洗车
「太离谱了。」
Karpathy在Sequoia现场讲了这个洗车的段子:最先进的模型,可以重构10万行代码库,也会建议你走路去50米外的洗车店洗车。
10万行代码已经足以构成一个相当复杂的软件项目,而「走路去洗车店」呢?这是一个三岁孩子都能搞清楚的常识题。
你想洗的是车,车不能走路,所以人走路去洗车店是一个毫无意义的建议。一个能改10万行代码的模型,就在这种小学生级别的常识题上崩了。
Karpathy用这个例子来说明大模型的锯齿状智能,他认为AI的能力并非均匀进步的,而是参差不齐,就像一块凹凸不平的锯齿板。
因此今天理解AI最危险的事,就是用「它行/它不行」二分法去判断。
02新地平线当软件可以「直接做到」
Karpathy在炉边谈里讲了一个让他自己有点尴尬的故事。
他写过一个App,叫MenuGen。在餐厅拍下看不懂的菜单,App帮你把每道菜画出来。OCR加图像生成,这是一个标准的软件1.0项目。
然后有一天他看到了一个软件3.0的版本。
那个版本只有一句话:把菜单照片发给Gemini,然后说「用Nanobanana把菜品贴到菜单上」。
Gemini直接吐出一张图。还是那张菜单,但每一道菜旁边都贴上了图。
那一刻,Karpathy感觉到自己写的MenuGen是多余的,因为它还活在旧范式里。
这是Karpathy想说的第一个新地平线,不只是把旧软件做得更快,而是把许多原本要靠一整个工程才能完成的事,压缩成模型的一次输出。
第二个地平线,是.md而不是.sh。
过去你装一个软件,用bash脚本,写得密密麻麻,环境一变就崩。Karpathy提到OpenClaw的安装方式:不是脚本,是一段Markdown文字,写着「把这段复制粘贴给你的agent」。
Agent查看你的环境、debug并完成调试。Markdown不再是给人看的说明书,而是给agent看的指令。
第三个地平线,是LLM Wiki。
这是Karpathy 2026年4月在GitHub Gist上发布的一个新理念。普通RAG(检索增强生成)是你每问一次,模型就从零开始重新拆解一次文档,知识不累积。
LLM Wiki不一样,它让模型在一个Markdown文件夹里持续维护知识库,你用Obsidian浏览:新文档进来,模型自动更新已有条目、修订摘要、补足链接、标记矛盾。
在那份Gist里,Karpathy用了一个比喻:Obsidian是IDE(集成开发环境),LLM是程序员,wiki是代码库。
在LLM Wiki里,知识被进一步组织成一个像代码库一样可积累、可维护、可版本控制的工程产物。
三个例子,指向同一件事:软件1.0你写代码,软件2.0你训权重,软件3.0你写提示词(prompt)、控上下文窗口(context window)、调智能体。
03锯齿状的背后可验证性和经济学
讲了新范式,Karpathy详细解释了那个让全场最困惑的问题:为什么模型智能有时会表现得这么「锯齿」?
他认为这主要不是一个技术问题,而是一个经济学问题。
是收入和市场规模(revenue/TAM),决定了前沿实验室在强化学习阶段把什么打包进训练数据分布。
Karpathy在解释锯齿状能力时,特别强调了强化学习( RL )环境的作用。
强化学习要奖励信号(reward),奖励信号要可验证。一个领域只要可以被验证(代码能不能跑、数学题答案对不对、漏洞能不能复现),就可以构建强化学习环境,模型就在这个领域飞速进化。
但「可验证」还不够,还要有钱赚。
OpenAI、Anthropic、Google选什么进训练分布,背后是收入和市场规模的考量。
市场大、付费意愿强、能形成商业闭环的领域,会被打包进RL;反之就没人投入。
Karpathy给了一个画面感很强的比喻:在RL的轨道上,你在飞;离开数据分布,你拿着砍刀进丛林。
所以今天看到的所谓锯齿状,不是缺陷,是结构。是「可验证 + 有钱赚」这两条线把模型能力雕成的形状。
这件事对创业者特别重要。
Karpathy在炉边谈里直接给了建议:如果你想做AI创业,找一个可验证、但前沿实验室还没顾上的领域,自己去构建RL环境,自己去微调(fine-tune)模型。这是当下最有可能跑出护城河的方向。
换句话说,下一波AI-native公司,可能会是验证环境本身。谁能定义可验证任务、构建奖励循环(reward loop)、积累边缘案例(edge cases),谁就握有底牌。
Karpathy在炉边谈话中,将神秘的AI锯齿状智能,还原成一个可以被分析的工程经济问题。
04Vibe Coding的发明人又造出新词
2025年2月,Karpathy在X上发明了一个词:Vibe Coding,以此形容一种高度依赖AI、几乎不亲手写代码的开发方式。
这个词后来火到被Collins字典选为2025年度词汇。Cursor、Lovable、Replit这一批公司估值飙到几十亿美金,背后都是这股风。
一年后,在这次对话中,Karpathy给这个词又升了级,叫智能体工程(Agentic Engineering)。
他对这两个词的看法是:Vibe Coding是「把地板抬高」(raising the floor),让所有人都能写软件。


