全员Token-maxxing:无底算力军备竞赛晚点LatePost

4/26/2026

我们去硅谷考察了一圈,发现连造浪的人,都快被浪淹没了。

2026 年 3 月 24 日早上,我坐在 YC W26 batch Demo Day 的观众席里,听到第五家公司上台路演的时候,决定不再做笔记了。

不是不重要,而是我意识到,自己记下来的这些东西,可能下个月就过时了。

这一届一百多家公司,做的事情其实高度集中:大约 80% 都是垂直 agent,比如帮律师整理文件、帮客服分发工单、帮 HR 筛选简历。

如果是在去年 10 月看到这些项目,我大概率会觉得 “挺有想法”。但问题是,这五个月,世界变了。

Claude Code 从一个更偏开发者的工具,变成了几乎任何人都能直接使用的界面。Opus 4.6 出来之后,整个 vibe coding 的门槛被压到了地板上。

那些垂直 agent,在没有形成业务壁垒之前,今天一个普通工程师,甚至我自己,花一个周末就能做出来,他们已经失去了投资价值。

YC 一届项目周期是三个月,这批 12 月入营,加上前期筛选,等于是 5 个月前被选出来的 “好公司”。而 5 个月,在现在的 AI 迭代速度里,已经足够发生几轮范式转换。

2012 年我第一次创业,拿到 YC 的 Fly Out(实地面试邀请)的时候,那时候 YC 在加速器这个赛道上,几乎一枝独秀,选出来的公司往往代表着 “下一个方向”。但竞争格局在变,YC 这几年感觉反过来了,逐渐变成了一个 lagging indicator(滞后指标)。

YC 的 batch 制度,从申请、筛选、入营、打磨、路演,在移动互联网时代运转了十几年,非常成功。但这套节奏是按一个更慢的世界设计的。

回到风险投资行业的这一年半,我大概每个季度都会来一次硅谷,上一次是去年 10 月。以前每次来,都会觉得变化很快,但这种 “快” 大多是按月来感知的。

这一次,得按 “周”。

有一天晚饭的时候,一个做 post-training(后训练) 的朋友随口说了一句:

“我发现,硅谷自己都开始跟不上自己了。”

全员 token-maxxing:一场没人敢停的军备竞赛

半年前如果有人跟我说,Meta 几万名工程师,全在用竞争对手的产品写代码,我会以为他在开玩笑。

但这是真的。整个 Meta,全员都在用 Claude Code。这不是创业公司,不是某个实验性团队,而是一家市值万亿级别的公司。

代码安全不要了,token 预算炸了,排行榜卷起来了,整个硅谷都在不计成本的往 AI 里砸钱。但砸完之后呢?

先说代码安全。放在半年前,这件事完全不可想象,因为代码是公司的核心资产,你怎么能让外面一家公司的 API 去碰它?Meta 一开始也是这么想的,他们内部做过一个叫 myclaw 的东西,试图解决这个问题。一个 Meta 的朋友告诉我,他们做出来了 coding 产品,但 “不好用,没人用”。没人用之后,公司不得不放宽了:只要不涉及客户数据,爱用 Claude Code 就用。

然后各部门开始开那种 “怎么变成 AI native 组织” 的内部会议,做培训,搞考核。代码安全、使用安全,这些过去天经地义的红线,统统被排到了后面,先把效率赶上来再说。

出于安全考虑,Google 禁止大多数员工使用 Claude Code 或 Codex 等竞争对手的工具,但 DeepMind 是个例外,负责 Gemini 模型和内部应用的几个团队,都在用 Claude Code。

谷歌自己也不是没有努力:他们推出了内部编码工具 Antigravity,今年 2 月还宣称公司约 50% 的新代码,已经由 AI 编写。

但即便如此,DeepMind 的人还是在用 Claude Code。DeepMind 敢这么做,一个重要原因是 Anthropic 给他们做了私有化部署,毕竟 Anthropic 的推理和训练,本来就大头跑在谷歌云的 TPU 上,双方有这个信任基础。但 Meta 和其他科技巨头可没有这层关系,他们是真的把代码安全扔到一边了。所有人都在赌同一件事:先把速度冲上去。

代码安全只是第一面倒下的旗,第二面是 token 预算。

在 Palo Alto 聊的几家 AI-native 创业公司里,一个工程师一年的 token 预算,大概在二十多万美元。这个数字本身不稀奇,稀奇的是它意味着一个顶级工程师消耗的 AI 成本,已经接近于一个工程师的工资了。看起来公司在用 AI 裁人省钱,实际上总成本可能根本没降,只是把人的成本换成了 token 成本。

Meta 在这件事上又是最极端的。他们搞了一个内部 token 消耗排行榜:谁用得多谁上榜,末尾的可能被裁员,所以 Meta 员工甚至在卷一个叫 “token legend” 的非官方头衔。

但与此同时,Meta 今年接连两轮裁员,规模加起来上万人。一边全员用 Claude Code 冲 token 量,一边大规模裁人。

这两件事不是矛盾的,它们是同一件事的两面。

我去看了一家 C 轮公司,技术负责人把 Slack 打开给我看,全是 agent 在跑,十几个 Cursor agent 后台并行,再开一个 Claude Code 窗口调度。现在程序员圈最流行的焦虑是:如果睡觉之前,不知道我那十几个 agent 要干什么就很慌。

但生产力真的同等涨了那么多吗?从去年年底开始,有很多顶尖推理引擎、数据库公司的 CTO,很兴奋地跟我讲 “百倍工程师”“ 十倍效率提升”,以前 60 个人需要 1 年做的事,现在 2 个人加上 Claude Code 一周就能搞出来。

我开始也跟他们一起兴奋,但后来我冷静了下来,就会问一个问题:好,效率提升了 100 倍,那公司的营收增长了 100 倍吗?或者产品线扩张了 100 倍?总不能 “100 倍” 的提升,最后就是优化掉多少人吧?

我没有得到正面回答。事实是,100 倍的效率提升,落到公司的营收增长上,只体现了 50% 或者 1 倍。

差距在哪?现在还没人能说清楚。

“用了这么多 token,公司应该基因突变成另外一种公司才对。但到底变成什么,我也不知道。”

有一个做 toB 销售出身的创始人告诉我,他团队 16 个人,两个销售,在 12 个月内从零做到三千万美金 ARR,这是全靠 AI coding 搭出来的。这种案例你确实偶尔能看到。但大多数时候,我看到的是创业公司搭出了更多东西,但这些东西也没有 product-market fit(PMF,产品市场匹配)。

硅谷现在很流行用 vibe coding 去尝试 100 种做法,看看哪一种能行得通,而不是只试 10 种。但谁能抓住下一个发展趋势?还很难说。

让我印象最深的一个反例来自 Anthropic 内部。我问一个 Anthropic 的朋友,你们自己用 agent 最痛苦的场景是什么?他说是 oncall(即时响应)。

Oncall 任务的一个典型场景是:如果 Claude 的 API 突然响应变慢、某个模型推理节点挂了、用户反馈某类 prompt 输出异常,oncall 工程师需要快速定位问题根源,判断是代码 bug、算力分配问题还是模型本身的异常,然后决定怎么修。

Anthropic 自己就是全世界做 Coding agent 最强的公司,这个场景离他们的核心能力近得不能再近了,结果他们内部的 oncall agent 还是不好用。

这就是 2026 年 4 月的真实状态:蒸汽机已经被发明了出来,但它有时候跑得还没有马车快。关键是所有人都知道蒸汽机终将跑得更快,所以都在疯狂砸钱:代码安全也不管了,token 预算爆了,排行榜卷起来了。至于到底什么时候蒸汽机能真的跑过马车?没人知道,但没有人敢停下来等那一天。

因为停下来的代价,可能比烧错 token 更大。

而且 token 消耗量,大概率不是线性增长的。这让我想到我以前做自动驾驶的经历:2021 年我们在上海,首次实现了连续 5 小时无接管的自动驾驶。当时觉得是一个重大突破,在那之前,测试车队可能是 10 台、15 台、20 台慢慢增加;但过了那个拐点之后,很快就到了 100 台、1000 台。今天的 Coding agent 正处在类似的阶段。

2021 年在上海,滴滴自动驾驶首次实现连续 5 小时无接管连续行驶,这是国内自动驾驶的一个里程碑事件。图为时任滴滴自动驾驶公司 COO 孟醒,与谷歌 “无人车之父”Sebastian Thrun 的对话,2021。

METR 是加州一家专门评估 AI 编码能力的研究机构。他们去年提出了一个指标:衡量 AI agent 能以 50% 成功率完成多长的任务(按人类专家的完成时间算)。2025 年 3 月首次发布时,Claude 3.7 Sonnet 的这个数字还是 50 分钟;到了 2025 年底,Claude Opus 4.6 已经做到了 14.5 小时。过去两年,这个指标的翻倍周期,从 7 个月压缩到了 4 个月。一旦 agent 的可靠性再上一个台阶,token 消耗就不是每年加 50% 的问题,而是一夜之间上一个数量级。

有一个获得朋友们共识的预测,到今年年底,不少公司(包括科技大厂),实际上只需要 20% 的人。

xAI 团队雪崩之后,造火箭的人开始造模型了

在 Mountain View 一家牛排馆,晚上九点多,一位曾经跟马斯克工作了很久的朋友,坐到了我对面。聊了三个多小时,我后来回想,整个过程里他似乎没有说过一句马斯克的好话。

一个细节:我问他,你在 xAI 干了三年,每天的节奏是怎么样的?他说三年来基本都住在公司,所以家里都没怎么布置,甚至连床都没有买。在公司睡的是那种 sleeping pod(睡眠仓),跟青年旅馆差不多。我说你现在拿着巨额股权,也都离职出来了,好歹买个床吧。他笑了笑。

xAI 的工作强度在硅谷是出了名的,但如今早期团队大概已经走了 90%。他们有一个离职群,天天在加人。

导火索是 Tony Wu 被开掉,然后连锁反应,用一位内部人的话说,“别的公司可能需要酝酿半年的高管团队出走,xAI 只需要一个月”。有些人在去年 10 月,就感知到马斯克的不满意了,但没想到这么快全部清洗。

现在马斯克开始从 SpaceX 和特斯拉调人过来接管 xAI,“造火箭的人开始造模型了”。

马斯克的不满,来自于他砸了无数资金和算力,结果 Grok 一直没能进入一线,但为什么?这是我遇到每个 xAI 出来的人,都会问的问题。答案其实比我想象的简单,一位朋友说得很直接:团队的战斗力非常强,工作也极其拼命,但制造业的管理方式,可能不适合大模型公司。

我做了八年自动驾驶,对这件事有一些自己的感受。马斯克过去做 SpaceX、做特斯拉,本质上做的是系统工程:链路很长,涉及软件、硬件、供应链,每一块都有创新空间,但最终是一个端到端的工程问题。

他擅长的是在这种长链条里,识别出关键杠杆点,然后极限压缩时间线来攻克。火箭发动机级联、复用着陆,都是这种思维的产物。

但在 xAI,他做的不像是系统工程。他现在做了三件事:先砸一个全球最大的 GPU 集群(甚至今天大家调侃说,xAI 本来是个 neo lab,现在更像是个 neo cloud 了,变成给 Cursor 提供算力了),然后给团队定脉冲式的 deadline,再亲自拍一些产品特征。这是在抓几个点,不是在做完整的规划。

做自动驾驶的人都知道,一到后期,软件团队、infra 团队、硬件团队之间 “谁领导谁” 就变成核心矛盾。三个方向都需要 CTO 级别的人来做决策,但没有一个人同时懂这三个领域。好的做法是,创始人虽然每块都不全懂,但知道怎么平衡资源、确定阶段性优先级,这段时间软件优先,下一阶段推给 infra。这叫有全局规划。

xAI 的问题是没有这个全局规划,只有冲刺。如果压力不那么大,聪明人之间其实能自修复,给他们时间,各个方向会自己找到协作的节奏。但马斯克的超高压管理,加上不充分的全局规划,一压就散了。每个方向的负责人都在保自己的优先级,没有人在做全局的统筹。

SpaceX 和特斯拉之所以如此成功,一个被忽略的原因是,在这两个行业里,马斯克基本没有遇到过同等量级的竞争对手,他是跟自己卷的。但 AI 不一样,AI 是连 OpenAI 都可能被 Anthropic 偷家的惨烈竞争程度。

Scroll for more