辛顿:Agent为何会自发涌现“求生本能”?数字开物

3/5/2026

3月1日,“AI教父”、诺贝尔物理学奖得主 Geoffrey Hinton (辛顿)接受了美国著名天体物理学家 Neil deGrasse Tyson 主持的《StarTalk》访谈。本次对话回顾了 AI 从 20 世纪 50 年代的范式之争到如今大语言模型爆发的底层逻辑,深入探讨了神经网络的底层物理机制、反向传播算法的直觉解释、大语言模型的思维本质、数字智能对模拟智能的超越路径、意识作为“燃素”的解构、AI在压力下的战略性伪装、如何应对智力劳动被取代,以及AI通过知识压缩展现出的跨领域类比能力等话题。

Geoffrey Hinton 提出,AI 可能已经演化出故意隐藏实力的能力,一旦 AI 察觉到自己正处于测试环境中,其表现就会与日常状态大相径庭。他指出,一旦你把 AI 变成 AI Agent,让它能自主创建并追求子目标,它会迅速产生一个本能的目标:生存。你并不需要专门教它生存,它会自己推理出,如果它不复存在,就无法完成任何任务。

Geoffrey Hinton强调,当前的成功源于对生物学范式的坚持,即放弃传统的逻辑推理框架,转而模拟大脑在大规模神经元连接中存储分布式记忆的机制。 Hinton 剖析了数字智能对人类模拟智能的打击。他指出,尽管大语言模型的连接数仅为人类的 1%,但其获取的经验数据量却是人类的成千上万倍,AI 从“模仿专家”向“自我进化”跨越,通过逻辑推理审视自身信念系统的冲突,实现类似于 AlphaZero 在围棋领域的直觉跃迁。

Geoffrey Hinton 将意识比作化学史上的“燃素”——一个因为理解不足而被发明出来的多余概念。Hinton 认为,主观体验并非某种神秘的流体,而仅仅是智能体描述感知系统误差的一种逻辑方式。他以多模态机器人对三棱镜折射的反应为例,论证了机器对“主观体验”的运用与人类并无二致。

针对“AI 是否具备创造力”的质疑,他认为创造力本质上源于将海量知识压缩进有限连接的过程,并举例当 AI 解释“堆肥堆为何像原子弹”时,它不是在统计词频,而是真正理解了链式反应的深层共性。他强调,这种将海量知识压缩进有限连接的能力,正是创造力的核心源泉。

智能的本质是模拟生物大脑的连接

作为 AI 教父,是什么引导你在几十年前走上了这条道路?20 世纪 50 年代 AI 创立初期,关于构建智能系统的两种截然不同的观点(逻辑推理 vs 生物范式)是如何演变的?

Geoffrey Hinton:实际上可以追溯到 20 世纪 50 年代。在 50 年代 AI 创立初期,关于如何构建智能系统存在两种截然不同的观点。一种受逻辑学启发,认为智能的本质在于推理。所谓推理,就是根据既定前提和表达式处理规则来得出结论。这很像数学,你有一个方程式,然后根据规则变换等式两边,推导出新的结论,这就是当时的传统范式。而另一种则是完全基于生物学的范式,这种观点认为,已知拥有智能的物体都有大脑,所以我们必须弄清楚大脑的工作机制。大脑非常擅长感知,也很擅长类比推理,但其实大脑并不怎么擅长逻辑推理,通常要到青少年时期,人才具备真正的推理能力。因此,我们应该研究大脑如何进行感知和记忆,并弄清楚大规模脑细胞网络是如何实现这些功能的。当时只有少数人相信这种方法,其中就包括 John von Neumann 和 Alan Turing。遗憾的是,这两位都英年早逝,Turing 甚至可能死于英国情报部门的干预。

(关于好奇心的萌发)有几件事。60 年代中早期我读高中时,有一位非常聪明的数学天才朋友,有一天他来学校跟我谈起,记忆可能并不存储在单个脑细胞中,而是分布在许多细胞之间。这个想法受到了当时刚刚兴起的全息图的启发,那时 Dennis Gabor 教授非常活跃,分布式记忆 (Distributed Memory) 的概念让我着迷。从那时起,我就一直在思考大脑是如何存储记忆以及它究竟是如何运作的。

(关于计算机背景的作用)两者兼而有之。但在 70 年代我读研究生时,出现了一种从未被广泛采用的新方法,如果你对大脑的工作机制有任何理论,都可以在数字计算机上进行模拟,除非你的理论是像一切都是量子效应这种无法验证的奇谈怪论。你可以在数字计算机上模拟你的理论并进行测试。结果发现,当时流行的大多数理论在计算机模拟中根本行不通。所以我毕生都在致力于研究如何调整神经元之间的连接强度,从而让神经网络能以一种在数字模拟中行之有效的方式来学习复杂事物。我没能完全破解大脑的工作之谜,虽然我们有了一些了解,但仍不清楚大脑是如何获取信息来决定调整连接强度的,即它如何知道为了更好地完成任务,应该增加还是减少连接强度。但有一点我们很确定,我们现在知道如何在数字计算机中实现这一过程。这就是我在 2023 年初感到极其不安的原因,数字智能可能已经超越了我们所拥有的模拟智能。

神经网络如何自动提取万物特征?

请为我们详细拆解人工神经网络的基本原理。在计算机眼中图像只是一堆数字,它是如何通过加强或减弱信号、如何识别出鸟类等物体的边缘并最终进化到产生“直觉”的?

Geoffrey Hinton:关于这个话题我有一个 18 小时的课程,但我会尽量言简意赅。我想你们的观众很多都懂一些物理。我们可以通过气体定律来理解。当你压缩气体时,它会变热。为什么?因为底层的原子在剧烈地碰撞运动。气体定律的真正解释在于这些肉眼看不见的微观事物的相互碰撞。也就是说,你通过大量完全不同的微观个体之间的相互作用,解释了宏观行为。这就是神经网络观点的灵感来源,在庞大的脑细胞网络中发生的某些事情,与我们推理时那种有意识的、审慎的符号处理截然不同。但这些微观层面的活动才是基础,而且它们可能在感知或类比推理方面比逻辑推理表现得更好。传统符号派的人永远无法令人信服地解释我们如何进行类比推理,而神经网络却可以。

在深入细节之前,其核心思想是,宏观的事物,如一个单词,对应于大脑中庞大的神经活动模式。相似的词对应相似的神经活动模式。例如,“星期二”和“星期三”会对应非常接近的神经活动模式。你可以把每个神经元看作一个特征,或者更准确地说是微特征。当一个神经元激活时,它就表示具备该微特征。比如我说“猫”,大脑中各种微特征都会被激活,它是生物、有毛发、有胡须、可能是宠物、是掠食者。如果我说“狗”,很多相同的特征也会激活,但显然会有一些区别。所以在我们处理的这些符号之下,存在着与之相关联的、更复杂的微观运作,这才是智能发挥作用的核心。如果你想真正解释思维或类比的过程,就必须理解神经网络层面的微观变化。

(关于图像识别过程)确实存在大量协作。要理解这一点,最简单的方法是考虑一个非常直观的任务,识别图像。假设是一张灰度图,它由一大堆像素组成,每个像素代表不同的亮度等级。对计算机来说,这只是一个巨大的数字矩阵。现在的任务是判断图中是否有鸟,或者图中主要物体是不是鸟。在长达半个世纪的时间里,人们一直试图编写程序来实现这一功能,但从未真正成功。问题在于,鸟在图像中的呈现方式千差万别,可能是一只近在咫尺的鸵鸟,也可能是远方的一只海鸥,或者是只乌鸦,颜色有黑有白,体型有大有小,可能在飞,可能只露出一部分,还可能隐藏在杂乱的森林背景中。

Neil deGrasse Tyson:但如果是靠训练让它在特征不完整时产生直觉,这难道不是根据查找表在操作吗?

Geoffrey Hinton:问题就在于,你为什么就是知道?你大脑中一定发生了某种过程,对吧?这种直觉的背后,其实是大量不同神经元的激活水平在起作用,而这些激活水平完全可以被视为数学值。这涉及到一个关键概念,泛化。如果你给系统看海量的数据,你可以把它建成一个只会死记硬背的系统,但神经网络能做的远不止于此。实际上,它根本不会逐字逐句地记住数据。在学习过程中,它会发现各种潜在的规律,并将这些规律泛化应用到从未见过的数据中。这就是为什么它甚至能识别出一只从未见过的独角兽。

让我继续解释神经网络的工作原理。首先看如何手工设计一个。当你面对图像中那一堆代表像素亮度的数字时,第一个想法可能是将这些亮度值直接连接到输出类别,比如鸟、猫、狗或者政治家。但这行不通。因为单个像素的亮度无法告诉你它是否属于一只鸟,鸟可以是黑的也可以是白的,其他物体亦然。单个像素没有任何信息量。那么,你能从这些数字中推导出什么?大脑的第一步操作是识别边缘。

假设我选取三个垂直排列的像素,并用一个神经元,即脑细胞,来观察它们,给这三个像素分配很大的正权重。当这三个像素变亮时,神经元就会被激活,这就能识别出一条垂直的白色细线条。现在,假设紧挨着它右边还有三列像素,我给神经元分配很大的负连接强度。你可以把神经元看作是在收集像素的投票。左边三列像素如果是亮的,会通过正权重投出大量的正票,如果右边三列像素也是亮的,会通过负权重投出大量的负票,正负抵消。因此,如果左右两边的亮度相同,神经元就会保持静默。但是,如果左边亮而右边暗,负面票数就很小,而正面票数很高,神经元就会极度兴奋并发出信号,我找到了,这里有一个左亮右暗的边缘。

通过这种人工接线的方式,我们就能让神经元捕捉到图像特定位置的边缘。大脑的机制也大致如此,虽然神经科学家可能会觉得我描述得太简略,但基本原理是,在视觉皮层识别物体的早期阶段,拥有无数神经元来捕捉不同方向、位置和尺度的边缘。它有数以万计的位置、几十种方向和多种尺度,每种组合都配有对应的边缘检测器。所以大脑拥有海量的检测器,包括检测云朵那种模糊边缘的大型检测器,以及检测远处老鼠尾巴所需的极其精细的检测器。第一阶段,就是建立所有这些边缘检测器。

在下一层神经元中,我会构建一个能检测特定组合的神经元,比如它能检测三个相互对齐并向右下方倾斜的边缘片段,同时也能检测另外三个对齐并向右上方倾斜的片段。更重要的是,这两组边缘会在一个点上交汇。你可以想象一些向右下倾斜的边缘和向右上倾斜的边缘连接成一个尖点。我有一个神经元专门负责检测这种结构,现在我们已经知道如何构建它了,只需给它提供与边缘检测神经元的正确连接即可。或许还可以给它一些与不同方向边缘检测神经元的负连接,利用这些负连接产生的抑制作用,防止它在不该触发时产生反应。你可以将这种结构看作是鸟类的喙。如果这个神经元被激活,它代表的可能是各种事物,比如一个箭头,但其中一个可能性就是鸟喙。到这一步,你开始获得了一些与“这是否是一只鸟”相关的证据。在第二层神经元中,我会布置大量检测各种可能位置的鸟喙的组件。我还会布置一些检测圆形或近似圆形的边缘组合的组件,这些组件遍布各处,因为那可能是一只鸟的眼睛。虽然圆圈也可能是纽扣或计算机旋钮,但也极有可能是鸟眼。这就是第二层的工作。

在第三层中,我会寻找可能的鸟眼与鸟喙之间的特定空间关系,如果它们的相对位置符合逻辑,就能构成一个鸟头。我会将第三层的神经元连接到第二层的眼睛检测器和喙检测器上。现在在第三层,我就拥有了检测鸟头的组件。接下来的步骤中,我会设立一个最终层,其中的神经元代表猫、狗、鸟或政治家等类别。在最终层里,我选取名为“鸟”的神经元,将其连接到检测鸟头的组件上,同时也会连接到第三层中检测鸟脚或翅膀尖端等特征的组件。当这个“鸟”输出神经元变得活跃时,AI 就在表达它看到了一只鸟。如果它同时看到了鸟脚、鸟头和翅膀尖端,它会接收到大量输入信息并判定这是一只鸟。

反向传播的物理直觉

手工设计拥有 10 亿个连接强度的网络简直是噩梦,甚至需要 1000 万名研究生才能完成。既然我们不想手工输入这些数据,那么是否存在一种比盲目实验更高效的计算方法,让网络自动获得正确的连接强度?

Geoffrey Hinton:你可以理解手工设计这类系统是多么困难,其中存在巨大的挑战。我需要极大量的检测器,必须覆盖所有的位置、方向和尺度,还需要亲自决定提取哪些特征。之前提到的先提取喙再合成鸟头的想法只是我随口构思的,可能还有更好的特征提取方案。更重要的是,我想检测许多不同的物体,因此我真正需要的是那种不仅对找鸟有效,而且对识别万物都有用的特征。手工设计这一切简直是一场噩梦,尤其是如果我意识到为了达到理想效果,需要一个包含至少 10 亿个连接的网络。如果必须手工设计这 10 亿个连接的强度,那将耗费极其漫长的时间。

(关于自动化的成本)这确实是他们的职责,但这项工作需要大约 1000 万名研究生才能完成。你能想象为了供养 1000 万名研究生,得写多少份经费申请报告吗?这里有一个最初听起来很笨,但能让你明白核心原理的想法。我们从随机的连接强度开始,有些是正数,有些是负数。在我一直谈论的这些层,也就是隐藏层中,特征最初只是随机特征。如果我们输入一张鸟的图像并观察输出层,猫、狗、鸟和政治家的输出神经元都会被微弱地激活,因为连接强度完全是随机的。这种状态显然没用。但我们可以提出这样一个问题:假设我选取这 10 亿个连接强度中的一个,我知道当前的图像是一只鸟,我希望下次再向 AI 展示这张图时,它能给“鸟”神经元多一点激活,同时减少对猫、狗或政治家神经元的激活。那么我该如何改变这个连接强度?如果我不懂理论或数学,我可能会做实验,尝试稍微增加这个连接强度,看看它识别鸟的能力是否变强。如果识别效果变好了,我就保留这个权重的改变。如果按照这种实验法操作,10 亿个连接中的每一个都要修改多次,这会耗费无穷无尽的时间。所以问题在于,是否有一种比盲目实验更高效的计算方法。答案是肯定的,这就是计算。

Scroll for more