急诊室里,AI比医生早12小时诊断出致命感染赛先生
哈佛医学院的最新研究显示,AI模型在急诊室的真实病例临床推理中,比人类医生更早得出正确的诊断。研究者认为,我们需要进行更严格的临床试验,开始认真考虑如何进行人机协作。
图源:Pxhere.com
1959年,两位名叫Robert Ledley和Lee Lusted的研究者在《科学》(Science)杂志上发表了一篇名为《医疗诊断的推理基础》的论文。他们提出一个想法:用《新英格兰医学杂志》(NEJM)每周发表的临床病理讨论会病例来考计算机。这些真实的病例来自麻省总医院,经过专家整理,充满了罕见病表现、干扰信息,是医学界公认的高难度考题。
Ledley和Lusted想知道,机器能不能像医生一样思考。
左:Robert Ledley,图源:Wikipedia;右:Lee Lusted,图源:Rutgers University
67年过去了。哈佛医学院和贝斯以色列女执事医疗中心(Beth Israel Deaconess Medical Center)的研究团队在《科学》上交了答卷。他们让OpenAI的推理模型做了这套题,143个病例,模型在78.3%的情况下把正确答案放进了鉴别诊断;如果把标准放宽到"至少给出了有帮助的诊断",这个数字是97.9%。而检查方案几乎完全一致的比例,是87.5%。而在真实世界的急诊室中,这一推理模型对于病例的临床推理评估,也比人类医生更早得出正确的诊断结果。
但研究团队最想讲的,不是这些分数本身。
在《科学》杂志组织的一场线上发布会上,论文作者们讲了一个急诊室里的故事。一位器官移植后的患者走进急诊室,抱怨睾丸疼痛,同时有些上呼吸道症状。人类医生把注意力放在了呼吸道。o1模型却从分诊记录里注意到“免疫抑制”,在病历中标记了坏死性筋膜炎——一种需要手术治疗的毁灭性感染。这比人类医生的诊断早了12到24小时。
论文共同第一作者、贝斯以色列女执事医疗中心医学临床研究员Peter Brodeur表示,“我们已经证明推理模型极其有能力。现在该把这一点放在一边,开始思考医生如何在现实世界中使用它。”
五个实验和一张成绩单
这项研究测试的是OpenAI的o1系列,被称为“推理模型”的新型AI系统。
研究团队设计了五项实验,系统性地比较了OpenAI的推理模型o1-preview与医生的表现,覆盖了从鉴别诊断到管理决策的多个维度。
第一个实验是来自《新英格兰医学杂志》临床病理讨论会(CPC)的143个病例。自1950年代以来,《新英格兰医学杂志》临床病理讨论会就是评估临床AI的黄金标准。这些病例每周发表,来自麻省总医院的真实患者,经过专家撰写,充满了罕见病表现和干扰信息。用论文作者的话说,它们是“被有意设计得很难”的。
研究团队只给模型看“初始呈现”——患者第一次被接诊时的症状、病史和体征——然后让它做两件事:给出鉴别诊断,以及选择下一步该做什么检查。
两位医生用5分制Bond量表对模型的回答进行盲评。评分时,两位医生不知道答案来自AI还是人类。
结果是:o1-preview在78.3%的病例中把正确答案纳入了鉴别诊断。如果把标准放宽到"给出了有帮助或非常接近的诊断",这个数字升至97.9%。
这些数字意味着什么?此前一项发表在《自然》上的研究中,有搜索权限的医生在302个CPC病例上的准确率是44.5%。而在本研究中重叠的70个病例上,GPT-4的准确率是72.9%,o1-preview则高达88.6%。
研究团队还检查了模型是否在“背答案”:训练数据截止日期前后的准确率,没有显著差异(79.8%对73.5%),说明得分不完全是靠记忆。
在136个病例中,研究团队还测试了模型选择下一步检查的能力。87.5%的情况下,o1-preview选择的检查方案与麻省总医院实际采取的方案完全一致;另有11%被认为"有帮助";只有1.5%被两位评分医生认为"无帮助"。
第二个实验是关于写病历的考试。NEJM Healer课程提供20个虚拟患者的接诊场景,用R-IDEA量表(满分10分)评估受试者的临床文档写作质量,涵盖病史采集、鉴别诊断、推理过程和文档结构四个维度。
80份病程记录中,o1-preview在78份中拿了满分。相比之下,GPT-4是47份,主治医生28份,住院医生16份。
第三个实验用来测试AI在在病例上的管理决策能力。Grey Matters测试使用5个真实病例改编的管理场景,场景包括抗生素选择、临终关怀对话等。这些决策比诊断更复杂,还需要考虑患者偏好、资源约束和合并症等文本之外的因素。
在这项测试中,o1-preview的中位数得分是89%,GPT-4是42%,配备GPT-4的医生是41%,使用传统资源(如UpToDate或Google)的医生是34%。o1-preview比最后一组高出了48.4个百分点。
为了排除模型依赖记忆作答的可能性,研究团队使用了6个从未在互联网公开的病例,源自1994年的一项研究。模型需要给出鉴别诊断、支持证据、反驳证据,以及下一步计划。有两位评分医生对模型回答进行盲评。
o1-preview的中位数得分是97%。GPT-4是92%,使用GPT-4的医生76%,使用传统资源的医生则是74%。
这一结果显示,o1-preview与GPT-4的成绩差距不大,但都大幅领先于人类医生。
最后一项测试,使用了5个病例,要求模型估算疾病在检查前后的疾病概率,并与专家文献基准对比。
结果显示,o1-preview与GPT-4表现相近,但在心脏病缺血病例的后测概率估计上,o1-preview显著优于GPT-4和人类医生。值得一提的是,对这五个病例做出估算的人类医生,答案极度分散,方差明显超过两个AI模型。这表明模型更稳定,人类更波动。
这五个实验覆盖了诊断、文档、管理、推理和概率估计。在文本-based的临床推理任务上,o1-preview已经超越了此前所有AI模型,也超越了大多数人类医生的基线。
急诊室里的三个时间点
实验室里的高分,能不能搬到急诊室?这是本研究区别于以往研究的核心亮点。研究团队没有把病例"洗干净"再喂给模型,而是直接从电子病历复制粘贴,包括所有无关噪音。
贝斯以色列女执事医疗中心。图源:维基百科
这些真实世界的病例来自贝斯以色列女执事医疗中心急诊部,作者们随机抽取76例最终入院的患者。研究设计了三个诊断时间点:
第一个时间点是分诊时。护士记录的生命体征——血压、心率、体温、血氧——患者年龄性别,以及一段很短的分诊说明。这段说明通常只有几句话,解释患者为什么来,比如"胸痛三小时"或"发热伴咳嗽两天"。信息极度稀缺。
第二个时间点是急诊医生接诊后。加上了医生的问诊记录、体格检查发现,以及实验室和影像结果。信息开始丰富。
第三个时间点是入院时。所有信息都到齐了,包括住院医疗团队的评估、专科会诊意见、额外检查。这是信息最充足的时间点。
与o1和GPT-4o同台竞技的,则是两名真实的人类主治医生。还有另外两名主治医生负责对诊断质量进行盲评,他们不知道答案来自人类还是AI。
最后,盲评的结果很惊人:一位医生在83.6%的情况表示“分不清是人类还是AI”,另一位则在94.4%情况下都说分不清。
在这一真实场景中,分诊时o1诊断的病例有67.1%诊断准确或非常接近,而两位医生分别为55.3%和50.0%;急诊医生阶段,o1为72.4%,两名医生分别为61.8%和52.6%;入院时差距缩小,o1为81.6%,两名医生分别为78.9%和69.7%。
该论文的共同通讯作者、哈佛医学院生物医学信息学系的助理教授Arjun (Raj) Manrai表示,信息越少,AI的优势越明显。人类在信息稀缺时更容易被噪音干扰,模型能从碎片中快速建立关联。而一旦信息充足,人类医生的整合能力追了上来。
论文的另外一位通讯作者、哈佛医学院助理教授Adam Rodman讲了两个令他印象深刻的病例。
左:Arjun (Raj) Manrai,图源:哈佛医学院;右:Adam Rodman,图源:贝斯以色列女执事医疗中心
第一个是肺栓塞患者。患者因新发肺栓塞就诊,最初好转后症状突然恶化。急诊室里,人类医生合理地怀疑抗凝治疗失败——这是最常见的并发症。o1模型却注意到患者有狼疮病史。随着新信息出现,模型越来越倾向于一个统一病因:狼疮性心肺炎——由狼疮导致的肺部和心脏炎症,既能解释症状恶化,也能独立导致肺栓塞。这个判断从最早的分诊阶段就已存在,最终被证实正确。
第二个病例就是文章开头提到的坏死性筋膜炎。Rodman说:“模型实际上从一开始就对坏死性筋膜炎有所怀疑,可能比人类医生早12到24小时。这是留在我脑海中最突出的例子。”
他补充了一个重要的临床视角:在这两个病例中,患者都得到了恰当的治疗。AI更早给出正确诊断,未必会改变临床结局。但如果在真实世界中部署这样的系统作为“第二意见”,它可能在某些时刻帮助医生少走一段弯路。


