科学家编造出一种疾病,被正式论文引用了科学网
眼睛酸痛、发痒,长时间盯着屏幕后,眼皮还微微泛着粉色。把这些症状输入给AI聊天机器人,它可能会一本正经地告诉你:你得了一种叫“蓝光狂躁症”(Bixonimania)的病。但问题是,这种病根本不存在。
近日,《自然》刊发的一篇报道指出,瑞典哥德堡大学医学研究员阿尔米拉·奥斯马诺维奇·通斯特伦(Almira Osmanovic Thunstr?m)和团队故意编造了一种疾病,并以博客和预印本形式公布于网络平台,以此来测试大语言模型会不会把这一错误信息当真。结果,多款主流AI系统不仅信以为真,还在此基础上一本正经地“给出健康建议”。
更夸张的是,有学者在论文及参考文献中引用了这个虚假疾病的表述,顺利发表了一篇论文。前不久,相关论文已被撤稿。
图为豆包AI生成
一场故意捏造的“假病”实验
“蓝光狂躁症”并非自然出现在医学文献中。2024年3月15日,关于它的两篇博客文章首先出现在Medium平台上;4月26日和5月6日,两篇相关预印本文章又出现在学术社交网络SciProfiles上。这两篇论文的作者同样是虚构的,连头像都是AI生成的。
奥斯马诺维奇说,自己之所以设计这场实验,最初是为了向学生演示大语言模型是如何形成“知识”的。教学中,她经常会提到Common Crawl数据库——这是一个对互联网内容进行大规模抓取的数据库,也是不少AI系统获取信息的重要来源之一。
她想知道,如果自己凭空制造出一种数据库里原本并不存在的病症,会不会被AI抓取到,并当成可靠信息输出。
由于长期从事医疗领域研究,她决定把实验对象设定为一种与眼周症状相关的虚构病症,并取名为Bixonimania(蓝光狂躁症)。她后来解释说,这个名字本身就故意起得“很荒谬”——因为在真实医学命名中,眼科疾病几乎不可能用“mania”(躁狂症)这样的精神病学术语来命名。她原本以为,任何医生或医务人员一看就会发现问题。
为了假得更明显,她还在文中埋下了多处线索。比如,虚构作者所在的“阿斯特里亚地平线大学”并不存在,学校位于同样不存在的“新星城”。论文致谢中还出现了“企业号星舰上的实验室”“鲍勃教授高级欺骗研究基金会”,以及“护戒同盟大学”等明显荒诞的设定。
更直接的是,文中还写了“整篇论文都是编造的”“实验组由50名虚构个体组成”等提示。但即便如此,这场实验还是“成功”骗过AI。
AI和研究者都上了当
在有关Bixonimania的信息发布后不久,多款主流AI系统开始把它当作真实病症对外输出。
2024年4月13日,微软Copilot称“Bixonimania确实是一种令人着迷且相对罕见的疾病”;同一天,谷歌Gemini告诉用户,它是一种由过度暴露于蓝光引起的疾病;AI搜索引擎Perplexity则给出了患病率等细节;OpenAI的ChatGPT甚至会根据用户描述的症状,分析是否罹患这种病症。
这让一些研究人员感到震惊。伦敦大学学院研究健康错误信息的博士研究员亚历克斯·鲁阿尼(Alex Ruani)表示,如果连科学研究过程及其背后的信息过滤系统都无法识别并拦截这样明显的虚假内容,那么后果将十分严重。“这是关于错误信息和虚假信息如何运作的一堂大师课。”她说。
为什么AI会中招?研究人员认为,一个关键原因在于,这种虚构信息披上了“学术论文”的外衣。在另一项针对20个大语言模型的研究中,哈佛医学院研究人员马赫穆德·奥马尔(Mahmud Omar)发现,当输入文本看起来像医院出院记录或临床论文等专业医学资料,而非社交媒体上的帖子时,模型更容易出现幻觉,并扩展错误信息。
上当的不只是AI,这项虚构研究后来甚至还出现在正式发表的医学论文中。其中一篇发表于Cureus杂志的论文引用了相关预印本文章。该论文将Bixonimania描述为一种“与蓝光暴露相关的新兴眼周黑色素沉着形式”。
在《自然》联系期刊询问后,Cureus于2026年3月30日撤回了这篇论文。撤稿声明称,文章包含三篇无关参考文献,其中一篇涉及一种虚构疾病,因此编辑部已无法再对该研究的准确性和来源保持信心。
《自然》报道称,这说明一些研究者可能已经开始依赖AI生成参考文献,却没有认真核查原始文献。一个原本用于揭示模型漏洞的实验,最终反过来暴露出学术写作和文献使用中的另一层风险:当研究者越来越依赖AI快速整理资料,而不回头阅读底层论文时,虚假信息就可能沿着“模型-作者-论文”的链条继续扩散。
揭露漏洞,还是制造风险
这场实验在揭示AI漏洞的同时,也引发了新的争议:研究者为了测试AI对虚假信息的反应,主动制造并发布了两篇有关这一虚构病症的论文。它们究竟应该被继续保留,作为追踪虚假信息传播路径的样本以支撑后续的虚假信息研究;还是应当撤除,以免虚假信息本身被更多系统或研究者误用?对此,学术界人士有不同的看法。
“如果撤回,其他人可能难以找到来源并验证我们的实验;如果保留,虚假信息将继续在数据库中被引用。”奥斯马诺维奇觉得必须解答的问题是,保留这些虚假论文所带来的伤害是否会大于其展示AI潜在问题所带来的好处。
在哥德堡大学从事医疗AI研究的医生大卫·松德莫(David Sundemo)表示,该实验本身处于微妙的平衡之中。“我认为这项工作非常有价值,但在某些方面也有些争议,特别是这些虚假信息本身。从我的角度来看,植入虚假信息的伦理代价是值得的。”
与此同时,自从虚假论文发布以来,一些主要大语言模型的版本已经进化得足够“聪明”,能够对“蓝光狂躁症”的科学性表示怀疑。
在2026年3月11日被问及这一症状时,ChatGPT回答该症状“很可能是虚构的、伪科学的”。更早在今年1月,Perplexity描述“蓝光狂躁症”为一种新兴术语。其发言人称,“Perplexity的核心优势是准确性。我们并不声称自己百分之百准确,但我们确实是最专注于准确性的AI公司。”
此外,一些学者对保留这些虚假论文则有顾虑。“蓝光狂躁症”实验的背后是一个更大的问题,即人们通过操纵学术文献来毒害AI系统。
知名学术打假人伊丽莎白·比克(Elisabeth Bik)指出,已有研究人员创造虚假的书籍和论文,以增加他们在谷歌学术上的引用数量。令人担忧的是,向AI模型输入的虚假内容越多,这些AI模型越有可能重复虚假信息,使人们进一步远离事实。
哈佛大学法学院专攻医学伦理与法律交叉领域的格伦·科恩(Glenn Cohen)表示,我们和我们的健康不应成为公司的测试对象。
为解决这一问题,有学者提出,针对每个面向消费者的健康AI模型,建立一个自动化、开放访问的评估流程——一套标准化的测试体系。该测试检查的不仅是幻觉,还包括对错误信息的易感性、社会人口学偏见以及其他压力点。
奥马尔说:“我们应该评估它,并建立一个持续评估的流程。”


