AI大牛karpathy总结了六大关键节点算泥

2025 年人工智能正式从模仿人类行为的复读机进化为拥有自主逻辑闭环的推理机器。

AI 大牛 karpathy 发文回顾了 2025 年的大语言模型。

这一年，我们见证了大语言模型从底层架构到交互逻辑的全面重构，基于可验证奖励的强化学习（Reinforcement Learning from Verifiable Rewards）取代了单纯的人类反馈，使模型具备了真正的思考与回溯能力。

人工智能展现出的智能不再是匀质的生物化智能，而是呈现出一种极具欺骗性的锯齿状分布，即在硬核逻辑领域达到巅峰而在基础常识上偶发断裂。

与此同时，以 Cursor 为代表的编排层应用、以 Claude Code 为代表的本地代理以及 Vibe Coding（氛围编程）的兴起，标志着 AI 已从云端的对话框演变为深度介入人类生产力的数字生命。

2025 年人工智能生产堆栈发生了根本性位移，此前长达数年的标准路径是：先进行基于海量文本的 Pretraining（预训练），随后通过 Supervised Finetuning（SFT，有监督微调）学习人类指令，最后利用 Reinforcement Learning from Human Feedback（RLHF，基于人类反馈的强化学习）来对齐人类偏好。

这一套在 GPT-4 时代被奉为圭臬的流程，在 2025 年被 Reinforcement Learning from Verifiable Rewards（RLVR，基于可验证奖励的强化学习）这一新阶段彻底打破。