急诊室里，AI比医生早12小时诊断出致命感染赛先生

哈佛医学院的最新研究显示，AI模型在急诊室的真实病例临床推理中，比人类医生更早得出正确的诊断。研究者认为，我们需要进行更严格的临床试验，开始认真考虑如何进行人机协作。

图源：Pxhere.com

1959年，两位名叫Robert Ledley和Lee Lusted的研究者在《科学》（Science）杂志上发表了一篇名为《医疗诊断的推理基础》的论文。他们提出一个想法：用《新英格兰医学杂志》（NEJM）每周发表的临床病理讨论会病例来考计算机。这些真实的病例来自麻省总医院，经过专家整理，充满了罕见病表现、干扰信息，是医学界公认的高难度考题。

Ledley和Lusted想知道，机器能不能像医生一样思考。

左：Robert Ledley，图源：Wikipedia；右：Lee Lusted，图源：Rutgers University

67年过去了。哈佛医学院和贝斯以色列女执事医疗中心（Beth Israel Deaconess Medical Center）的研究团队在《科学》上交了答卷。他们让OpenAI的推理模型做了这套题，143个病例，模型在78.3%的情况下把正确答案放进了鉴别诊断；如果把标准放宽到"至少给出了有帮助的诊断"，这个数字是97.9%。而检查方案几乎完全一致的比例，是87.5%。而在真实世界的急诊室中，这一推理模型对于病例的临床推理评估，也比人类医生更早得出正确的诊断结果。

但研究团队最想讲的，不是这些分数本身。

在《科学》杂志组织的一场线上发布会上，论文作者们讲了一个急诊室里的故事。一位器官移植后的患者走进急诊室，抱怨睾丸疼痛，同时有些上呼吸道症状。人类医生把注意力放在了呼吸道。o1模型却从分诊记录里注意到“免疫抑制”，在病历中标记了坏死性筋膜炎——一种需要手术治疗的毁灭性感染。这比人类医生的诊断早了12到24小时。

论文共同第一作者、贝斯以色列女执事医疗中心医学临床研究员Peter Brodeur表示，“我们已经证明推理模型极其有能力。现在该把这一点放在一边，开始思考医生如何在现实世界中使用它。”

五个实验和一张成绩单

这项研究测试的是OpenAI的o1系列，被称为“推理模型”的新型AI系统。

研究团队设计了五项实验，系统性地比较了OpenAI的推理模型o1-preview与医生的表现，覆盖了从鉴别诊断到管理决策的多个维度。

第一个实验是来自《新英格兰医学杂志》临床病理讨论会（CPC）的143个病例。自1950年代以来，《新英格兰医学杂志》临床病理讨论会就是评估临床AI的黄金标准。这些病例每周发表，来自麻省总医院的真实患者，经过专家撰写，充满了罕见病表现和干扰信息。用论文作者的话说，它们是“被有意设计得很难”的。

研究团队只给模型看“初始呈现”——患者第一次被接诊时的症状、病史和体征——然后让它做两件事：给出鉴别诊断，以及选择下一步该做什么检查。

两位医生用5分制Bond量表对模型的回答进行盲评。评分时，两位医生不知道答案来自AI还是人类。

结果是：o1-preview在78.3%的病例中把正确答案纳入了鉴别诊断。如果把标准放宽到"给出了有帮助或非常接近的诊断"，这个数字升至97.9%。

这些数字意味着什么？此前一项发表在《自然》上的研究中，有搜索权限的医生在302个CPC病例上的准确率是44.5%。而在本研究中重叠的70个病例上，GPT-4的准确率是72.9%，o1-preview则高达88.6%。

研究团队还检查了模型是否在“背答案”：训练数据截止日期前后的准确率，没有显著差异（79.8%对73.5%），说明得分不完全是靠记忆。

在136个病例中，研究团队还测试了模型选择下一步检查的能力。87.5%的情况下，o1-preview选择的检查方案与麻省总医院实际采取的方案完全一致；另有11%被认为"有帮助"；只有1.5%被两位评分医生认为"无帮助"。

第二个实验是关于写病历的考试。NEJM Healer课程提供20个虚拟患者的接诊场景，用R-IDEA量表（满分10分）评估受试者的临床文档写作质量，涵盖病史采集、鉴别诊断、推理过程和文档结构四个维度。

80份病程记录中，o1-preview在78份中拿了满分。相比之下，GPT-4是47份，主治医生28份，住院医生16份。

第三个实验用来测试AI在在病例上的管理决策能力。Grey Matters测试使用5个真实病例改编的管理场景，场景包括抗生素选择、临终关怀对话等。这些决策比诊断更复杂，还需要考虑患者偏好、资源约束和合并症等文本之外的因素。

在这项测试中，o1-preview的中位数得分是89%，GPT-4是42%，配备GPT-4的医生是41%，使用传统资源（如UpToDate或Google）的医生是34%。o1-preview比最后一组高出了48.4个百分点。

为了排除模型依赖记忆作答的可能性，研究团队使用了6个从未在互联网公开的病例，源自1994年的一项研究。模型需要给出鉴别诊断、支持证据、反驳证据，以及下一步计划。有两位评分医生对模型回答进行盲评。

o1-preview的中位数得分是97%。GPT-4是92%，使用GPT-4的医生76%，使用传统资源的医生则是74%。

这一结果显示，o1-preview与GPT-4的成绩差距不大，但都大幅领先于人类医生。

最后一项测试，使用了5个病例，要求模型估算疾病在检查前后的疾病概率，并与专家文献基准对比。

结果显示，o1-preview与GPT-4表现相近，但在心脏病缺血病例的后测概率估计上，o1-preview显著优于GPT-4和人类医生。值得一提的是，对这五个病例做出估算的人类医生，答案极度分散，方差明显超过两个AI模型。这表明模型更稳定，人类更波动。

这五个实验覆盖了诊断、文档、管理、推理和概率估计。在文本-based的临床推理任务上，o1-preview已经超越了此前所有AI模型，也超越了大多数人类医生的基线。

急诊室里的三个时间点

实验室里的高分，能不能搬到急诊室？这是本研究区别于以往研究的核心亮点。研究团队没有把病例"洗干净"再喂给模型，而是直接从电子病历复制粘贴，包括所有无关噪音。

贝斯以色列女执事医疗中心。图源：维基百科

这些真实世界的病例来自贝斯以色列女执事医疗中心急诊部，作者们随机抽取76例最终入院的患者。研究设计了三个诊断时间点：

第一个时间点是分诊时。护士记录的生命体征——血压、心率、体温、血氧——患者年龄性别，以及一段很短的分诊说明。这段说明通常只有几句话，解释患者为什么来，比如"胸痛三小时"或"发热伴咳嗽两天"。信息极度稀缺。

第二个时间点是急诊医生接诊后。加上了医生的问诊记录、体格检查发现，以及实验室和影像结果。信息开始丰富。

第三个时间点是入院时。所有信息都到齐了，包括住院医疗团队的评估、专科会诊意见、额外检查。这是信息最充足的时间点。

与o1和GPT-4o同台竞技的，则是两名真实的人类主治医生。还有另外两名主治医生负责对诊断质量进行盲评，他们不知道答案来自人类还是AI。

最后，盲评的结果很惊人：一位医生在83.6%的情况表示“分不清是人类还是AI”，另一位则在94.4%情况下都说分不清。

在这一真实场景中，分诊时o1诊断的病例有67.1%诊断准确或非常接近，而两位医生分别为55.3%和50.0%；急诊医生阶段，o1为72.4%，两名医生分别为61.8%和52.6%；入院时差距缩小，o1为81.6%，两名医生分别为78.9%和69.7%。

该论文的共同通讯作者、哈佛医学院生物医学信息学系的助理教授Arjun (Raj) Manrai表示，信息越少，AI的优势越明显。人类在信息稀缺时更容易被噪音干扰，模型能从碎片中快速建立关联。而一旦信息充足，人类医生的整合能力追了上来。

论文的另外一位通讯作者、哈佛医学院助理教授Adam Rodman讲了两个令他印象深刻的病例。

左：Arjun (Raj) Manrai，图源：哈佛医学院；右：Adam Rodman，图源：贝斯以色列女执事医疗中心

第一个是肺栓塞患者。患者因新发肺栓塞就诊，最初好转后症状突然恶化。急诊室里，人类医生合理地怀疑抗凝治疗失败——这是最常见的并发症。o1模型却注意到患者有狼疮病史。随着新信息出现，模型越来越倾向于一个统一病因：狼疮性心肺炎——由狼疮导致的肺部和心脏炎症，既能解释症状恶化，也能独立导致肺栓塞。这个判断从最早的分诊阶段就已存在，最终被证实正确。

第二个病例就是文章开头提到的坏死性筋膜炎。Rodman说：“模型实际上从一开始就对坏死性筋膜炎有所怀疑，可能比人类医生早12到24小时。这是留在我脑海中最突出的例子。”

他补充了一个重要的临床视角：在这两个病例中，患者都得到了恰当的治疗。AI更早给出正确诊断，未必会改变临床结局。但如果在真实世界中部署这样的系统作为“第二意见”，它可能在某些时刻帮助医生少走一段弯路。