xAI再失华人大将量子位
刚刚,xAI 再失一名华人大将。
就在今天,预训练负责人庄钧堂官宣了自己已经离职的消息。
此前,庄钧堂已经在 xAI 工作了两年。这期间,他主导了从 Grok 多个版本模型的预训练,同时负责预训练 Grok 在 X 和 Tesla 上的语音模型及 xAI 企业 API 模型。虽然他在官宣前两个月就已离开,但这波刚好赶上 xAI 不再独立运营后的新一轮离职潮。仅今天一天,就有多名员工相继宣布离职。如此高密度的人员离职,让人不禁感叹,xAI 到底是怎么了?
谁是庄钧堂?
2024 年,庄钧堂加入 xAI。此后两年,Grok 多代模型的预训练都由他主导。Grok 在 X 和 Tesla 上的语音模型,xAI 对外的企业 API 模型,也都由他牵头预训练。在此之前,他在 OpenAI 工作了两年。这期间,他是 GPT-4 技术报告的联合作者,还参与了 GPT-4o 和 DALL-E 3 的核心开发,提出了 GPT4-Turbo 128k 算法,并作为第一贡献者搭建了 OpenAI 的 Embedding 模型。这几件事,分别对应着 OpenAI 在语言模型、多模态、图像生成和向量检索等方向上的关键节点产品。
他的学术背景,和这份工作履历放在一起,有一定的反差。庄钧堂本科就读于清华大学,但读的专业并非计算机,而是工程物理,还辅修了法律。他的硕博生涯是在耶鲁度过的,硕士读的是统计学,博士则是生物医学工程。读博期间,庄钧堂的研究课题是判断自闭症患者的脑连接组中哪些连接异常与自闭症的诊断相关。在这个课题中,他使用的工具是神经网络。
在博士期间,他提出了 AdaBelief 优化器,其核心思路是根据模型对当前梯度的置信程度来自适应地调整步长。如果当前观测到的梯度方向与模型的预期偏差很大,说明此刻的观测不可信,应该迈小步;如果梯度方向与预期接近,说明信号可靠,可以迈大步。这个设计触及了深度学习训练中一个长期存在的痛点 —— 现有优化器对噪声梯度的处理过于粗糙。这篇论文在 NeurIPS 2020 拿到了 Spotlight,随后被 PyTorch、TensorFlow、Google Flax、DeepMind Optax 等主流框架相继收录,成为研究者工具箱里的常备选项。
马斯克留不住人
就在庄钧堂宣布离职的同一天,xAI 还有多名员工相继发出了同样的消息。三天前,马斯克刚刚宣布 xAI 不再作为独立公司运营,并入 SpaceX,统一更名为 “SpaceXAI”。这个消息发出后没多久,离职的消息就接连来了。
与此同时,另一批人正在进场 ——Cursor 的员工开始出现在 xAI 的办公室里,由 xAI 现任研究负责人 Aman Madaan 主持联合会议。
Cursor 的到来,目的之一就是解决马斯克一直以来 “留不住人” 的困境。从 2024 年中开始,xAI 的联创就在陆续离开,SpaceX 完成收购后密集爆发,到今年 3 月底,11 位联创全部清零。Fast Company 统计,过去一年内 xAI 可查证的离职员工已超过 80 人。马斯克也在试图解决人事危机,但专门挖来的人也是说走就走。今年 3 月,马斯克把 Mistral AI 和 Thinking Machines Lab 联创 Devendra Chaplot 请来,直接向他汇报,但 Debendra 入职才一个月,便离职了。马斯克承认,xAI“没有建立在正确的基础上,正在从头重建”。今年 4 月,他转向外部,与 Cursor 达成合作,于是便有了 Cursor 员工进驻 xAI 办公室的一幕。
Grok 正常更新
尽管马斯克在人事问题上屡遭滑铁卢,但 xAI 的主要产品 Grok,也刚刚宣布了一波更新。新版增加了连接器功能,支持接入邮件、日历、Notion 等工具,帮助用户提取邮件、整理日程。
同时马斯克还下场驳斥了 “Grok 将死” 的传闻。毕竟一边是团队不再独立运行,另一边又刚刚把 Colossus 集群租给了 Anthropic,让人很难不遐想。
但马斯克表示,新的 Grok 模型正在 Colossus 2 集群上正常训练中,也算是解开了 Colossus 出租的疑云。
那就等着看看,马斯克还能交出怎样的模型吧。


