DeepSeek登顶Nature,Meta却成最大输家?新智元

12/28/2025

2025年,AI从幻想到现实,AGI祛魅而ASI初现端倪。科技巨头们竞相追逐超级智能,世界正被撕裂成两个平行宇宙:AI拥抱者与旁观者。投资热潮涌动,模型能力跃升……这不仅仅是技术革命,更是人类命运的转折点。

2025年,全球AI领域风起云涌。

通用人工智能(Artificial general intelligence,AGI)开始祛魅,超级人工智能(Artificial Super Intelligence,ASI)开始登上舞台。

Anthropic高管Jack Clark警告:巨变在即,而AI将把世界撕裂为两个平行宇宙。

这一切都是一个长期发展过程的产物,是AI技术、资本、就业和生活交织变革在一起的产物。

AI模型能力跃升,但距离AGI仍有争议:研究显示,2025年AI模型在推理、多模态处理和智能体上取得显著进步。

投资热潮推动基础设施扩张:全球AI投资激增,生成AI吸引339亿美元资金,科技巨头资本支出达4000亿美元,引发了泡沫担忧和能源消耗讨论。

劳动力变革加速,机遇与挑战并存:AI正重塑职场,使用AI工具可能成为求职关键。

应用扩展到日常生活,却未彻底颠覆:AI智能体和机器人进入生产、医疗等领域,似乎提升了效率,但许多人感受到变化有限。

通用人工智能不是终点,超级智能才是起点。

当真正的AI竞赛始于通用人工智能之后!

AI一年,人类千年

至今,自然界的一切智能都是生物智能,都是碳基智能。

但今年的LLM可能是人类有史以来第一次创造出的全新智能形态。

在2025年度回顾中,Karpathy直言:

2025年是我(以及我认为整个行业)首次开始以更直观的方式内化理解LLM智能的‘形态’。

在推理、多模态处理和智能体上,2025年AI模型取得了显著进步,如OpenAI的o3系列和Google的Gemini 3。

虽在实际应用中仍存局限性,但AGI曙光现已成为今年行业的共识。

在一系列技术任务中,从ChatGPT到Gemini,许多世界领先的AI模型正超越人类基准线。

据斯坦福大学《2025年AI指数报告》,AI已在7项测试中超越人类基准线,这些测试衡量的任务包括:

中等阅读理解

英语语言理解

多任务语言理解

博士级科学问题

目前,AI系统唯一尚未赶上人类的领域是多模态理解与推理。这项任务涉及跨多种格式和学科(如图像、图表、图解)进行处理和推理。

然而,这一差距正在迅速缩小。

MMMU基准测试,评估模型在需要大学学科知识的跨学科任务上的表现。

MMMU数据集的四大特性:(1)全面性:涵盖六个广泛学科领域与30个大学科目,包含1.15万个大学难度级别的问题;(2)图像类型高度异质:包含极其多样化的图像类型;(3)图文并茂:文本与图像交错混合,需要跨模态理解;(4)专家级感知与推理:要求具备扎根于深厚学科知识的专家级感知与推理能力。

此基准测试日益饱和:

在2023年底,谷歌Gemini的得分仅为59.4%。

到2024年,OpenAI的o1模型取得了78.2%的分数。

今年,Gemini 3 Pro在增强版MMMU-Pro上取得了89.8%的得分。

斯坦福AI指数报告显示,生成AI投资达339亿美元,同比增长18.7%。

前沿实验室每8-12周发布新模型,OpenAI的o3系列(包括o3-mini)以‘先思考后回答’的推理机制脱颖而出,使用10倍token提升智能,但成本也相应增加。

谷歌的Gemini 3被誉为多模态巅峰,能处理文本、图像、视频和音频,实现深度推理。

在Reddit上,年初,关于前沿AI模型开放获取的讨论十分热烈。

DeepSeek-R1及其开源蒸馏版本主导了相关话题。不过,用户指出本地可运行的版本是蒸馏模型(8B或32B参数)而非完整的671B版本,其性能大致相当于GPT-3.5水平。

更深层的讨论焦点在于DeepSeek的开源决策——尽管据报道其实现了45倍的训练效率提升。

随后,有研究者在3B参数模型上以低于30美元的成本复现了DeepSeek-R1-Zero的强化学习训练方案。

通用人工智能测试基准ARC-AGI-1,最佳成绩超过近90%;ARC-AGI-2上,AI超过了人类平均水平。

但Yann LeCun指出,自回归LLM有局限,需更多感官数据。

总体,2025年AI从‘聊天机器人’转向‘智能体’,如Agentic AI,能自主规划和执行任务。

Scroll for more