DeepSeek登顶Nature，Meta却成最大输家？新智元

2025年，AI从幻想到现实，AGI祛魅而ASI初现端倪。科技巨头们竞相追逐超级智能，世界正被撕裂成两个平行宇宙：AI拥抱者与旁观者。投资热潮涌动，模型能力跃升……这不仅仅是技术革命，更是人类命运的转折点。

2025年，全球AI领域风起云涌。

通用人工智能（Artificial general intelligence，AGI）开始祛魅，超级人工智能（Artificial Super Intelligence，ASI）开始登上舞台。

Anthropic高管Jack Clark警告：巨变在即，而AI将把世界撕裂为两个平行宇宙。

这一切都是一个长期发展过程的产物，是AI技术、资本、就业和生活交织变革在一起的产物。

AI模型能力跃升，但距离AGI仍有争议：研究显示，2025年AI模型在推理、多模态处理和智能体上取得显著进步。

投资热潮推动基础设施扩张：全球AI投资激增，生成AI吸引339亿美元资金，科技巨头资本支出达4000亿美元，引发了泡沫担忧和能源消耗讨论。

劳动力变革加速，机遇与挑战并存：AI正重塑职场，使用AI工具可能成为求职关键。

应用扩展到日常生活，却未彻底颠覆：AI智能体和机器人进入生产、医疗等领域，似乎提升了效率，但许多人感受到变化有限。

通用人工智能不是终点，超级智能才是起点。

当真正的AI竞赛始于通用人工智能之后！

AI一年，人类千年

至今，自然界的一切智能都是生物智能，都是碳基智能。

但今年的LLM可能是人类有史以来第一次创造出的全新智能形态。

在2025年度回顾中，Karpathy直言：

2025年是我（以及我认为整个行业）首次开始以更直观的方式内化理解LLM智能的‘形态’。

在推理、多模态处理和智能体上，2025年AI模型取得了显著进步，如OpenAI的o3系列和Google的Gemini 3。

虽在实际应用中仍存局限性，但AGI曙光现已成为今年行业的共识。

在一系列技术任务中，从ChatGPT到Gemini，许多世界领先的AI模型正超越人类基准线。

据斯坦福大学《2025年AI指数报告》，AI已在7项测试中超越人类基准线，这些测试衡量的任务包括：

中等阅读理解

英语语言理解

多任务语言理解

博士级科学问题

目前，AI系统唯一尚未赶上人类的领域是多模态理解与推理。这项任务涉及跨多种格式和学科（如图像、图表、图解）进行处理和推理。

然而，这一差距正在迅速缩小。

MMMU基准测试，评估模型在需要大学学科知识的跨学科任务上的表现。

MMMU数据集的四大特性：（1）全面性：涵盖六个广泛学科领域与30个大学科目，包含1.15万个大学难度级别的问题；（2）图像类型高度异质：包含极其多样化的图像类型；（3）图文并茂：文本与图像交错混合，需要跨模态理解；（4）专家级感知与推理：要求具备扎根于深厚学科知识的专家级感知与推理能力。

此基准测试日益饱和：

在2023年底，谷歌Gemini的得分仅为59.4%。

到2024年，OpenAI的o1模型取得了78.2%的分数。

今年，Gemini 3 Pro在增强版MMMU-Pro上取得了89.8%的得分。

斯坦福AI指数报告显示，生成AI投资达339亿美元，同比增长18.7%。

前沿实验室每8-12周发布新模型，OpenAI的o3系列（包括o3-mini）以‘先思考后回答’的推理机制脱颖而出，使用10倍token提升智能，但成本也相应增加。

谷歌的Gemini 3被誉为多模态巅峰，能处理文本、图像、视频和音频，实现深度推理。

在Reddit上，年初，关于前沿AI模型开放获取的讨论十分热烈。

DeepSeek-R1及其开源蒸馏版本主导了相关话题。不过，用户指出本地可运行的版本是蒸馏模型（8B或32B参数）而非完整的671B版本，其性能大致相当于GPT-3.5水平。

更深层的讨论焦点在于DeepSeek的开源决策——尽管据报道其实现了45倍的训练效率提升。

随后，有研究者在3B参数模型上以低于30美元的成本复现了DeepSeek-R1-Zero的强化学习训练方案。

通用人工智能测试基准ARC-AGI-1，最佳成绩超过近90%；ARC-AGI-2上，AI超过了人类平均水平。

但Yann LeCun指出，自回归LLM有局限，需更多感官数据。

总体，2025年AI从‘聊天机器人’转向‘智能体’，如Agentic AI，能自主规划和执行任务。