DeepSeek登顶Nature,Meta却成最大输家?新智元
2025年,AI从幻想到现实,AGI祛魅而ASI初现端倪。科技巨头们竞相追逐超级智能,世界正被撕裂成两个平行宇宙:AI拥抱者与旁观者。投资热潮涌动,模型能力跃升……这不仅仅是技术革命,更是人类命运的转折点。
2025年,全球AI领域风起云涌。
通用人工智能(Artificial general intelligence,AGI)开始祛魅,超级人工智能(Artificial Super Intelligence,ASI)开始登上舞台。
Anthropic高管Jack Clark警告:巨变在即,而AI将把世界撕裂为两个平行宇宙。
这一切都是一个长期发展过程的产物,是AI技术、资本、就业和生活交织变革在一起的产物。
AI模型能力跃升,但距离AGI仍有争议:研究显示,2025年AI模型在推理、多模态处理和智能体上取得显著进步。
投资热潮推动基础设施扩张:全球AI投资激增,生成AI吸引339亿美元资金,科技巨头资本支出达4000亿美元,引发了泡沫担忧和能源消耗讨论。
劳动力变革加速,机遇与挑战并存:AI正重塑职场,使用AI工具可能成为求职关键。
应用扩展到日常生活,却未彻底颠覆:AI智能体和机器人进入生产、医疗等领域,似乎提升了效率,但许多人感受到变化有限。
通用人工智能不是终点,超级智能才是起点。
当真正的AI竞赛始于通用人工智能之后!
AI一年,人类千年
至今,自然界的一切智能都是生物智能,都是碳基智能。
但今年的LLM可能是人类有史以来第一次创造出的全新智能形态。
在2025年度回顾中,Karpathy直言:
2025年是我(以及我认为整个行业)首次开始以更直观的方式内化理解LLM智能的‘形态’。
在推理、多模态处理和智能体上,2025年AI模型取得了显著进步,如OpenAI的o3系列和Google的Gemini 3。
虽在实际应用中仍存局限性,但AGI曙光现已成为今年行业的共识。
在一系列技术任务中,从ChatGPT到Gemini,许多世界领先的AI模型正超越人类基准线。
据斯坦福大学《2025年AI指数报告》,AI已在7项测试中超越人类基准线,这些测试衡量的任务包括:
中等阅读理解
英语语言理解
多任务语言理解
博士级科学问题
目前,AI系统唯一尚未赶上人类的领域是多模态理解与推理。这项任务涉及跨多种格式和学科(如图像、图表、图解)进行处理和推理。
然而,这一差距正在迅速缩小。
MMMU基准测试,评估模型在需要大学学科知识的跨学科任务上的表现。
MMMU数据集的四大特性:(1)全面性:涵盖六个广泛学科领域与30个大学科目,包含1.15万个大学难度级别的问题;(2)图像类型高度异质:包含极其多样化的图像类型;(3)图文并茂:文本与图像交错混合,需要跨模态理解;(4)专家级感知与推理:要求具备扎根于深厚学科知识的专家级感知与推理能力。
此基准测试日益饱和:
在2023年底,谷歌Gemini的得分仅为59.4%。
到2024年,OpenAI的o1模型取得了78.2%的分数。
今年,Gemini 3 Pro在增强版MMMU-Pro上取得了89.8%的得分。
斯坦福AI指数报告显示,生成AI投资达339亿美元,同比增长18.7%。
前沿实验室每8-12周发布新模型,OpenAI的o3系列(包括o3-mini)以‘先思考后回答’的推理机制脱颖而出,使用10倍token提升智能,但成本也相应增加。
谷歌的Gemini 3被誉为多模态巅峰,能处理文本、图像、视频和音频,实现深度推理。
在Reddit上,年初,关于前沿AI模型开放获取的讨论十分热烈。
DeepSeek-R1及其开源蒸馏版本主导了相关话题。不过,用户指出本地可运行的版本是蒸馏模型(8B或32B参数)而非完整的671B版本,其性能大致相当于GPT-3.5水平。
更深层的讨论焦点在于DeepSeek的开源决策——尽管据报道其实现了45倍的训练效率提升。
随后,有研究者在3B参数模型上以低于30美元的成本复现了DeepSeek-R1-Zero的强化学习训练方案。
通用人工智能测试基准ARC-AGI-1,最佳成绩超过近90%;ARC-AGI-2上,AI超过了人类平均水平。
但Yann LeCun指出,自回归LLM有局限,需更多感官数据。
总体,2025年AI从‘聊天机器人’转向‘智能体’,如Agentic AI,能自主规划和执行任务。


