华人天才出走xAI:30美元解锁AI自进化新智元

2/28/2026

2026年2月,Grok的核心成员Jiayi Pan和Toby Pohlen相继离开xAI。这似乎是某种预示,或许通往AGI的路不是算力规模,而是方法的突破。

2月26日,xAI Grok 4团队核心成员Jiayi Pan宣布离职

在离职声明中,他感谢了团队所有成员,给马斯克留足了面子。

几乎同一时间,Grok团队的另一位核心研究员Toby Pohlen也宣布离职。

他在X上阴阳Grok的工作机制,称「没有人能比你们更能熬夜」,然后@官方,公开叫板。

两人都是grok团队的重要贡献者,却在48小时内相继离开,这让外界对xAI内部状况产生了更多猜测。

4年,Jiayi Pan从一个初学者成长为Grok 4的核心贡献者,又选择了一条与巨头算力竞赛截然不同的技术路径。

从AlphaGo迷弟到Grok 4贡献者

Jiayi Pan的AI之路始于2019年。

他本科就读于密歇根大学,获得计算机科学与电子计算机工程双学位,2023年毕业。

那时,Jiayi Pan对RL还一无所知。据他自己回忆,当导师提到RL时,他下意识想到的还只是AlphaGo。

2023年,他进入加州大学伯克利分校攻读博士,研究语言模型与视觉/机器人学的结合。

在Berkeley的早期项目中,他开发了SWE-Gym,这是一个将RL引入软件工程领域的环境。

代码传送门:https://github.com/SWE-Gym/SWE-Gym

该项目基于SWE-bench数据集的2294个真实GitHub Issue,要求AI不仅能读懂代码,还要生成可通过测试的Patch。

这为他后续的TinyZero研究——让AI学会修正自己,奠定了基础。

2025年5月,Pan加入xAI的Reasoning团队,4开发的核心成员之一。

在xAI的9个月里,他参与了强化学习模块的优化,推动模型从简单预测向自我验证演进。

也正是在这段时间,他启动了TinyZero项目。

30美元的颠覆

TinyZero「羞辱」巨头

2025年,Jiayi Pan在X上宣布开源TinyZero。

这是一个仅需30美元训练成本的3B参数模型,通过纯强化学习实现了自我验证和推理能力。

代码传送门:https://github.com/Jiayi-Pan/TinyZero

TinyZero基于Qwen2.5-3B基础模型,使用veRL框架在Countdown和Multiplication等任务上训练。

实验结果显示,基础模型在Countdown任务上的准确率从0%提升到RL训练后的80%以上。

这验证了一个假设:DeepSeek R1-Zero展现的自我推理能力,不是靠海量参数堆出来的,而是可以通过纯强化学习在小模型上复现的。

通往高级推理能力的路径,可能不需要5000亿美元的基础设施投资。

同一时期,Sam Altman宣布Stargate计划,计划在4年内投资数千亿美元建设AI基础设施,与Microsoft和Oracle合作。

但据报道,该项目因三方利益冲突而陷入停滞,到2025年底,一个数据中心都没建成。

相比之下,TinyZero的性价比拉满。

无需海量数据,无需庞大资金注入,纯靠RL,在极低的算力下完成了关键突破。

这或许也解释了为什么Pan等核心成员相继离职。

当你已经验证了一条不依赖巨头资源的技术路径,留在算力军备竞赛中还有意义吗?

Scroll for more