为什么AI的错误毫无价值？追问nextquestion

主持人Paul Middlebrooks曾与哲学家Henk de Regt从上学时常被问到的一个问题，即你是否真的理解了所学的知识谈起，之后谈到如何判断AI大模型是否具有理解能力，科学能否被计算机取代等。介于上篇采访篇幅较长，话题略有跳跃，本文将之重新梳理简化，并补充了对应的研究解释，以飨读者。

科学理解始终以理论为背景

在AI研究专注于刷分，超越当前最先进水平SOTA时，哲学家Henk de Regt提醒我们注意，与其纠结于机器是否拥有人类般的意识，不如承认AI完全可以像人类一样，拥有真正的“科学理解”。

因为在他的哲学框架下，理解并非主观顿悟或知识堆砌。长期以来，人们对“理解”抱有两大根深蒂固的幻觉：他们认为理解只在心理上的副产品，是一种良好的感觉。大众脑海中常常浮现出这样一个极其脸谱化的科学家形象：他的头顶突然亮起一个灯泡，大呼“哦，对了，我终于懂了！”而另一种极其泛滥的误读，则是将理解等同于事实的堆砌。你对某件事情了解得越多，理解也就越深。

▷Understanding Scientific Understanding《理解科学理解》和作者Henk de Regt

Henk de Regt认为这两种说法都是错的。作为拉德堡德大学（Radboud University）的科学哲学教授，他在2017年出版的《理解科学理解》一书，早已成为该领域的经典之作。他指出理解是一种极其硬核的实践能力——它死死锚定于主体的技能、所处的语境，以及理论的“可理解性（intelligibility）”。

Regt的哲学觉醒，源于上世纪90年代他对“科学发现”的博士研究。作为一名前物理学家，他将目光投向了：薛定谔与海森堡的世纪之争。

当年，薛定谔对海森堡矩阵力学（一种量子力学的描述，被证明和薛定谔的波动力学在数学上等价）不满意，于是提出了替代的波动力学。薛定谔非常强调理解和理论的可理解性。他认为矩阵力学是不可理解的，因为矩阵力学完全由数学组成，非常抽象，全是矩阵，故而无法可视化。

薛定谔相信一个理论应该是可视化的，只有当你能在脑海中形成一个时空图像，想象一个原子的样子，它的结构如何，你才能真正理解。这就是科学和物理学的目的，即提供这种理解。

若某人能基于某一理论，构造出对该现象的（理想化）模型，并据此做出（无需完整计算的）定性预测，则可认为他“理解”了该现象。

Regt将这种形而上学的执念，总结成了一种实证法则。在他看来，可视化是是众多理解工具中的一把趁手兵器，它确实能大幅降低人类心智的认知门槛，人们也可以将其应用于模型，加以使用并发展新的想法。

但他也指出，理解是情境化的，根本不存在放之四海而皆准的理解工具。

你究竟能不能理解一个理论，完全取决于你手里握着什么技能，脑子里装着什么背景知识。

但“可理解性”并不是一种形而上学要求（比如妄言“宇宙必须像钟表一样机械运转”），而是一种实践可行性（pragmatic usability）。它考察的是这个理论，到底能不能被科学家当作极其趁手的工具，去进行建模与推理？

故而，他区分了科学可理解性（scientific intelligibility）与形而上学可理解性（metaphysical intelligibility）；后者可启发研究（如惠更斯的机械论催生波动光学），但也可能阻滞新观点的接受（如拒斥量子力学中的超距作用）。

随后，他提出科学理解是“可错的”（non-factive）。哪怕是那些千疮百孔、甚至被证明是错误的理论（如燃素说），依然能在特定的抽象层级上，为我们提供极其强悍的理解力。

为了将这套哲学法则落地，他在播客中抛出了经典的神经科学案例：我们究竟该如何理解“神经信号的传递”？在这个战场上，存在两大阵营：

▪︎主流的生物电范式（以霍奇金-赫胥黎模型为尊）：认为动作电位是由电压门控离子通道主导的跨膜离子洪流（钠离子涌入，钾离子逃离），信号的狂飙靠的是局部电流强行驱动的去极化。

▪︎热力学视角：宣称神经信号根本不是电信号，而是沿着脂质双分子层疯狂传播的非线性声学脉冲（孤立波）。它源于细胞膜在液态与凝胶态之间的疯狂相变；电信号、热效应与机械变形，不过是同一场热力学风暴在不同维度的残影。

在这两个本体论上水火不容的理论面前，Henk de Regt认为，它们仍可协同增进理解——尤其是通过“暴露对方视角中被忽视或掩盖的假设”。

而评判这两个理论的标尺，绝不是谁掌握了绝对真理；而是去盘点它们各自能回答多少极其刁钻的反事实问题？

例如，霍奇金-赫胥黎模型必须咬住“细胞膜电容恒定”的前提；而热力学视角则逼迫信徒们发出拷问：“如果膜电容根本不是常量，信号传播的宏大叙事还会不会瞬间崩塌？”

两种理论看似是冲突的，但Henk de Regt关于科学理解，强调其是非事实性（non-factive）的。

即使不完全符合事实的理论，依然能够提供理解。

生物电视角，提供高精度机制细节（如通道蛋白结构-功能关系），但忽略动作电位伴随的热效应（放热-吸热循环）与机械效应（膜膨胀-收缩）；热力学视角，提供统一性框架，并暴露主流范式的隐含前提与解释缺口。

两种理论的碰撞推动提出新问题（如：“膜肿胀对通道构象有何反馈？”“热波动如何调制神经编码？”）。

科学理解的进步正是源于这种利用视角差异进行相互批判（找出隐藏假设）与问题发现，而非简单的共识累积。

开发一种操作性测试，用于评估AI智能体的理解能力

理解并不是一个全有或全无的现象，而是一个渐进的过程。你可以拥有不同程度的理解。

在讨论转向Henk de Regt关于人工智能是否具备理解[2]讨论之前，需要强调这一点。Henk de Regt的理解理论可以被看作是行为主义的，它不关心理解者是否有心理表征，也不关注实现理解的内部机制或过程。从这个意义上说，只要看某个AI智能体能否以某种方式展示出使用信息所需的技能，就能判断它是否存在理解。

该问题来源于2017年，Henk de Regt被读者问起：“如果计算机生成了一个解释，它是否给我们带来了理解？”这类似于数学中计算机生成的证明的问题，这些证明对于人类来说过于复杂，以至于无法完全理解，尽管某些猜想已经被证明，但没有任何一位数学家能够完全理解整个证明过程。那么，这是否仍然给我们提供了这个猜想为何为真或为假的理解呢？

为此，Henk de Regt提出测试。他设想一个“学生”正在向一位“教师”（无论是人类还是AI）求教。教师的目的是向学生解释一个科学理论及其定性的特征及影响。另一位人类（裁判）会在暗中独立评估学生在截然不同的情境下，输出非平凡解释的质量。学生先进行初始测试（裸考），再与教师互动，然后进行第二次测试。第二次测试虽然应涵盖相同的内容或方面，但应包含不同的问题以确保测试的有效性。学生在第二次测试中分数的提高程度，是教师有效向学生传递对现象理解的能力体现。

▷图1：根据回答问题的数量，可以将科学理解可以被划分为不同的层次。一个能够回答科学界提出的所有问题（包括那些我们尚未有答案的问题）的智能体，表明其具有更高层次的（新的）科学理解。来自[2]这与图灵测试不同，图灵测试旨在解决计算机是否能完成一些我们认为是思考所满足的标准。