博士生从二手数据中“榨”出新发现张晴丹
年轻的科研人员容易陷入一个思维定式:想要做科研,必须先自己产生数据,数据等同于经费,经费等同于门槛。无数青年学者被困在这个闭环里寸步难行。
资金紧张、资源有限、人脉不足,这是许多人面临的共同困境。然而,有一座被忽视的“金矿”就藏在公共数据库中,等待着拥有新眼光的人去挖掘。
一位年轻的病毒学家Rhys Parry,无意间走上了一条非传统的科研之路。他没有花费巨额经费去测序,没有耗时数年去采样,而是靠着一台笔记本电脑和一双善于发现的眼睛,从全世界公开可下载的“二手数据”中“榨”出了令人惊喜的科学发现。
Rhys Parry 图源:昆士兰大学
最终,Parry不仅发了论文,还拿下了国家级项目,走出了一条属于普通科研人的突围之路。近日,他在《自然》杂志的“职业专栏”发文,分享自己的经历。
对于所有渴望证明自己却苦于资源不足的科研人员来说,或许答案就藏在那些已经被储存却鲜被重访的数据之中。
3000份数据,一次意外的发现
2018年,在澳大利亚昆士兰大学的实验室里,博士生Parry正在与埃及伊蚊细胞系打交道。这是一种常见的蚊子细胞,用于研究蚊媒传播的疾病。然而,在一次常规的实验观察中,他发现了一个异常——细胞系中似乎存在着一种以前从未记录过的病毒。
这个发现本身并不惊人。事实上,昆虫细胞经常携带持续性的、未被注意的病毒感染,就像老房子里总会有一些不请自来的“住客”。但真正让这位年轻研究者感到好奇的是,这种新病毒无法感染哺乳动物细胞,而且出人意料的是,它竟然能适度降低登革热病毒的复制水平。
这个结果瞬间点亮了整个研究的意义。
登革热,一种由蚊子传播的急性传染病,每年威胁着全球数亿人的健康。如果有一种昆虫特异性病毒能够干扰登革热的传播,那将意味着什么?这极有可能成为人类理解甚至阻断蚊媒传播疾病的关键钥匙。
博导、分子病毒学家Sassan Asgari敏锐地捕捉到了这个发现的潜力,并鼓励Parry:“去查查我们实验室的其他数据集,把搜索范围扩大。”Asgari想知道,这种病毒在自家实验室及其他实验室的埃及伊蚊细胞中究竟有多普遍。
于是,一场跨越全球数据海洋的探险就此开始。
分析埃及伊蚊的现有数据集,帮助Rhys Parry鉴定出了一种新病毒。图源:James Gathany
幸运的是,全球各地从事蚊子研究的科研人员,早已将大量转录组数据共享。这些数据散落在不同的数据库中,像一颗颗无人捡拾的石头。Parry下载了大约3000个数据集,并日复一日地整理、对比、分析,在海量信息中抽丝剥茧,一点点还原出这种病毒在全球范围内的分布与进化历史。
他没有飞往任何一个国家,没有采集一个样本,凭借3000个数据集、一台笔记本电脑,就完成了一次全球范围内的病毒流行病学调查。而这,仅仅是他在二手数据挖掘之路上的第一步。
从“旧数据”中发现新现象
博士生涯接近尾声时,一次偶然的机会,他在网上点开了昆士兰大学病毒学家Alexander Khromykh实验室已发表的数据集。Khromykh的研究方向是病毒感染期间细胞外囊泡中非编码RNA的作用,这是一个听起来相当小众的领域。
然而,就在这些已被分析过、发表过的数据中,Parry看到了一些“不对劲”的地方:病毒似乎在以一种前所未见的方式切割细胞RNA。
这不是原作者“漏掉”了什么。原作者与Parry的研究问题完全不同,他们的分析框架也完全不同。就像一个画家专注于画面的色彩,而一个建筑师却从中看到了结构。同样的数据,在不同的问题视角下,呈现出截然不同的面貌。
于是,Parry给Khromykh写了一封邮件介绍自己的新发现,并奏效了。一封邮件换来了一次交谈,然后促成了双方的一项合作。如今,他和Khromykh已经成为一个国家资助项目的共同研究者,而那个项目的基石正是从“旧数据”中发现的“新现象”。
Parry表示:“根据我的经验,大多数研究人员都很高兴看到他们的数据被这样使用。我发出的一些邮件促成了合作,另一些则让作者分享了原始发表论文中未包含的元数据。有时,原作者拥有你所不具备的样本或设备,能够以你无法实现的方式对结果进行验证;他们顺手做的一个小实验,或许就能证实某种关联,进而成为你下一份申请的初步数据。”
挖掘“二手数据”不是“次等科学”
这个故事的核心,指向一个让人惊讶的事实:海量的公共数据正在被闲置。
以美国国立卫生研究院下属的国家生物技术信息中心管理的序列读段档案库(SRA)为例,其拥有超过50PB的数据,而其中大部分在被存储之后,很少被再次使用。2022年,一个名为Serratus的项目将这些海量读数与病毒参考基因组进行比对,识别出数千个新的病毒序列,将已知RNA病毒的多样性扩展了一个数量级。
Parry强调,数千个新病毒从旧数据中发现。这些开创性的努力,展示了当人们真正重视并深耕二手数据分析时,它所撬动的可能性远超我们的想象。


