把死鲑鱼放进fMRI，它的大脑还在转环球科学

2005年一个周六的清晨，克雷格·贝内特（Craig Bennett）早早地跑去当地超市，买了一条完整的北大西洋鲑鱼（Atlantic salmon，也就是我们常说的三文鱼），并用塑料膜包裹好。和店员所想的不同，贝内特并不是一位急于享受美食的老饕，而是美国达特茅斯学院（Dartmouth College）的一年级研究生。

图片来源：Unsplash

他带着包好的鲑鱼来到校内的影像中心，然后将整条鱼牢牢固定住，把它送入功能核磁共振成像（fMRI）仪器中，测试他所在研究团队新开发的整套扫描方案。为了不将宝贵的扫描时间都花在反复拍摄标准MRI体模上，他和同伴玩笑式地决定，不如扫描一些超市里能买到的最奇怪的东西，比如南瓜，比如母鸡的头，也比如一整条完整的鲑鱼。

图片来源：Unsplash

扫描生成的高分辨率图像相当漂亮。从不同方向观察，能看到清晰的鱼身截面，也能看到一片片整齐的三文鱼排。在满足过好奇心后，贝内特将这组数据保存起来，一放就是三年。

2008年，已经加入美国加利福尼亚大学圣芭芭拉分校（University of California Santa Barbara）的贝内特，在和导师乔治·沃尔福德（George Wolford）准备一场关于fMRI中多重比较问题的报告时，又重新想起了这条鱼。

很有趣的是，这次他们将死鱼数据导入分析流程后，真的发现了一些异常信号：有三个显著体素聚成一小簇，恰好出现在鲑鱼大脑中线附近。按照这套分析流程的解释，这意味着实验对象在被要求识别人类照片中的情绪时，表现出了“大脑活动”。

鱼死不能复生

fMRI监测大脑活动的原理，并非直接拍摄神经元放电，而是依赖一种叫做血氧水平依赖信号（BOLD）的间接指标。当某个脑区更活跃时，局部血流和血氧供应会发生变化，进而改变磁共振信号。

研究者会把大脑图像分成许多细小的三维单位，也就是体素，再逐一分析每个体素的信号变化是否与实验任务相关。如果某些体素的变化模式与任务时间安排相吻合，它们就可能在统计分析中被标记为“显著活动”。

因此，fMRI图像那些亮起来的斑块，并不是仪器直接看见大脑活动，而是研究者在大量体素中寻找与实验任务同步变化的信号后，经过统计处理得到的结果。

死鱼能思考吗？答案显然是否定的。它不可能复活，更不可能躺在仪器里判断照片中人物的喜怒哀乐。但影像结果却仿佛一本正经地告诉研究者，这条死透了的鲑鱼，大脑“亮”了起来。

贝内特和导师在会议上展示了死鲑鱼海报。图片来源：prefrontal.org

这简直离谱又荒诞，但这也正是贝内特和导师想要展示的关键：如果一条死鱼都能在神经影像中表现出看似有意义的活动，那么面对更复杂的人类大脑图像中那些明亮的彩色斑块，我们又该如何判断它们究竟是否是真实信号？

这条死鲑鱼最终成为说明fMRI假阳性问题的经典案例。当一幅图像包含成千上万个体素时，只要研究者在每个位置都寻找“显著”活动，总会有一些地方看起来不同寻常。而对于高精度fMRI扫描数据的解读，更需要格外谨慎。毕竟，一个不留神，连死鱼都能“复活”。

2009年，贝内特与合作者将这项研究以会议摘要的形式发表在《神经影像学》（NeuroImage）上，至今仍被广泛引用。后来，他们还因“证明通过使用复杂仪器和简单统计方法，可以在任何地方看到有意义的脑活动——即便是在一条死鲑鱼身上”，获得了2012年搞笑诺贝尔奖。

尽管不算正经，但搞笑诺奖的的宗旨其实是奖励那些“让人捧腹大笑，同时也引人深思”的研究。而这条死鲑鱼带来的思考，正指向现代科学中一个重要的问题：多重比较问题。

看得多会更准确吗？

在fMRI中，一次看似简单的脑成像分析，背后其实包含了成千上万次统计比较，这也是多重比较问题的来源。它对应了一个非常朴素的风险：看得越多，越容易把偶然当成新发现。

这似乎有些反直觉。毕竟，从现代科学的发展来看，样本越大、仪器越精密、图像越漂亮，结果应该越可靠才对。但问题在于，数据越多，发现真实信号的机会确实越多，但与此同时，噪声伪装成信号的机会也越来越多。

不放想象一下，你正在观察一张巨大的照片，试图在其中寻找异常的斑点。如果你快速扫过整幅画，可能不会发现什么异常。但如果你观察得足够细、足够久，总会有一些地方显得不太寻常。统计检验也是如此。在单次检验中，随机噪声偶然越过显著性门槛的概率可能并不高。但如果同样的检验被重复成千上万次，误报就会迅速累积。死鲑鱼脑中的那几个活跃体素，正是随机噪声在大量比较中制造出来的幻象。

多重检验导致p值偏小。图片来源：By GrandEscogriffe - Own work, CC BY-SA 4.0

当然，多重比较问题并不仅仅出现在神经影像学中。在基因组学中，研究者需要同时检验几万个基因或遗传位点与某种疾病是否相关，而其中一小部分所谓“显著”基因，也可能只是偶然浮现。在药物试验中，如果一项研究需要同时观察几十种症状、多个剂量和不同人群亚组，研究者也可能找到某个看似有效的结果。而在心理学和社会科学中，当一份研究同时调查分析大量人格维度、行为指标和人口学等变量，变量之间偶然相关的概率也会迅速增加。

甚至在更大尺度的数据科学中，也同样如此。天文学家在海量巡天数据中寻找罕见天体或异常信号，粒子物理学家在无数碰撞事件中寻找新粒子的迹象，人工智能研究者也会在大量数据集、上百个任务乃至众多指标上评测模型表现。事实上，只要比较得足够多，噪声总有机会伪装成突破。特别是当研究者有意无意地挑选其中漂亮的结果时，显著性很容易被人为放大。

而所谓多重比较校正，就是在发现这些“漂亮结果”后，进一步追问：考虑到我们已经检查了如此多位置、变量或关系后，这个发现是否依然足够罕见？它是否真的超出了随机噪声可能造成的范围？如果没有这一步校正，研究者就很容易把偶然出现的异常结果，当成真实的科学发现。

科学如何自我约束

为了应对这种风险，不同领域都发展出了自己的“防误报”办法。神经影像学要校正成千上万个体素，避免把噪声看成大脑活动；而基因组学面对的是数百万个位点，因此选择设置更严格的显著性门槛；粒子物理学则采用更严苛的标准，尽量排除随机涨落的可能。

不过，假阳性并不只来自数据本身，也来自人类如何处理数据。精密仪器当然不会主动说谎，但复杂流程会给人类留下太多“无意中挑选真相”的空间。同一批数据，可以有许多看似合理的处理方式：排除哪些样本，采用哪种预处理流程，比较哪些变量，选择什么理论模型，等等。每一个选择单独看都未必有问题，但如果研究者在看过结果后不断调整这些选择，直到找到漂亮的结论，偶然就很容易被包装成新发现。

这也是为什么现代科学不能只依赖更精密的仪器，还需要更严格的自我约束。多重比较校正是一道防线，预注册和注册报告也是一道防线。前者要求研究者在统计这一步上考虑自己究竟找了多少次，后者则要求研究者在看到结果前先说清楚，自己检验的目标，以及计划如何分析。除此之外，开放数据和代码、独立重复、盲分析、外部验证集，也都是一道道保险，尽量减少研究者在海量数据中无意挑选“新发现”的机会。

回到那条死鲑鱼，它当然没有复活，也没有在仪器里识别人类情绪。但那几个虚假的活跃体素，却照亮了现代科学中的一个关键问题：当我们面对越来越复杂的数据和越来越精美的图像时，最需要警惕的往往不是看不见信号，而是太容易看见那些像信号的噪声。毕竟，科学的可信之处，并不来自它永远不会出错，而源于它不断开发新的方法，来识别自己可能在哪里出错。