谷歌DeepMind首发AGI终极考纲新智元
AGI,究竟如何评判?刚刚,谷歌DeepMind发出重磅论文,直接从认知科学「借」了一套度量衡——把通用智能拆成10大认知能力,配一套三阶段评估协议,还联合Kaggle砸了20万美金,向全球研究者悬赏:谁能测出真正的AGI?
如今的AGI,究竟到达哪一站了?
就在刚刚,谷歌DeepMind给出了AGI的终极度量衡!
这篇名为《Measuring Progress Toward AGI: A Cognitive Framework》的论文,核心主张只有一句话:别再争AGI是什么了,先把怎么测这件事搞清楚。
论文地址:https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/measuring-progress-toward-agi/measuring-progress-toward-agi-a-cognitive-framework.pdf
具体来说,AGI的评估被细化为10个关键的认知领域,包括感知、生成、注意力、学习、记忆、推理、元认知、执行功能、问题解决以及社会认知。
同时,谷歌DeepMind还想全球开发者,发起一场20万美元的Kaggle黑客松。
黑客松则是把出题权直接交给全球研究者——框架我搭好了,你们来帮忙造考卷。
从「AGI分级」到「AGI体检」
这不是DeepMind第一次尝试给AGI画路线图。
2023年,同一个团队发表了著名的「Levels of AGI」框架,把通往AGI的路拆成了5个性能等级。
从「新手」(Emerging)到「超人」(Superhuman),同时定义了6个自主性等级,从「纯工具」到「完全自主」。
那篇论文的影响力很大,它给了整个行业一套共同语言,就像自动驾驶领域的L1到L5一样,让大家至少能在同一个坐标系里对话。
但它留下了一个巨大的空白:台阶画好了,怎么测每一级?
新论文就是来补这个缺口的。
10大认知能力:给通用智能画一张地图
它的核心,是一套把通用智能拆解为10种关键认知能力的「认知分类法」(Cognitive Taxonomy)。
具体来说,要想评估AI和人类认知能力之间到底差多少,第一步就是要搞清楚:人类的认知都包括哪些关键过程。
过去很多年里,心理学、神经科学和认知科学通过做实验、脑成像、研究病例、以及建立模型等方式,已经积累了大量相关成果。
正是基于这些研究,团队整理出了一套认知分类体系,用来描述实现AGI所需要的核心能力。
先看8种基础能力。
1. 感知(Perception)
从环境中提取和处理感官信息。包括视觉感知(从低级的边缘检测到高级的场景理解)、听觉感知(从音高辨别到语音理解)、以及AI独有的文本感知。
LLM通过token化直接处理文本,本质上是一种人类不具备的独特感知模态。这种「超能力」绕过了视觉,径直抵达语言。
2. 生成(Generation)
产生文本、语音、动作(机器人控制、计算机操作)等输出。
其中最耐人寻味的是「思维生成」,也就是产生内部思考来指导决策。
DeepMind把这一项和OpenAI的o1式推理能力挂钩,并指出由于思维本质上是「内部的」,评估起来可能极其困难。
3. 注意力(Attention)
在信息过载时,就需要把认知资源集中到关键事物上。
这里有个微妙的平衡:既要专注于当前目标不被干扰,又要对环境中的意外变化保持警觉。太专注会错过危险信号,太分散又做不成事。
4. 学习(Learning)
通过经验获取新知识和技能。
包括概念形成、联想学习、强化学习、观察学习、程序性学习、语言学习六大类。
关键在于,真正的AGI应该能在部署后持续学习并保留新知识,而不仅仅是在训练阶段或上下文窗口内「临时抱佛脚」。
5. 记忆(Memory)
存储和检索信息的能力。
包括语义记忆(世界知识)、情景记忆(特定事件)、程序性记忆(技能)、前瞻性记忆(记住未来某个时刻该做的事),以及一个容易被忽视的能力——遗忘。


