量子计算机首次加载完整基因组中国科学报

自21世纪初具有里程碑意义的人类基因组解码工作完成以来，DNA测序技术迎来了爆发式发展。传统计算机已难以满足海量的数据与激增的算力需求，这推动人们寻求替代方案。

如今，量子计算距离实用又近了一步。科学家近日宣布，他们首次将一个完整的基因组——丁型肝炎病毒基因组编码到量子计算机上，从原理上证明了这类特殊机器未来有望助力基因组学研究。

丁型肝炎病毒基因组成功载入量子计算机。图片来源：James Cavallini/Science Source

意大利国际高等研究院的Guglielmo Mazzola评价道：“这是至关重要的一步。想要进行基因组处理，首先必须把数据载入进去。”但他提醒，在量子计算机能够处理更大的基因组或真正对这些数据开展分析之前，很难判断它们是否会超越其他现有顶尖技术。“量子计算能否真正带来增益，目前仍未可知。”

与传统计算机以0和1的二进制编码信息不同，量子计算机依靠量子比特运行，它可以被设定为0、1，或是同时处于0和1的叠加态。理论上，这种并行状态让量子计算机能够处理传统计算机难以应对的问题。量子计算机原则上可以将多种可能的答案表示为量子比特上的波状状态，从而加速某些优化问题的求解；随着状态演化，它们会像水面涟漪一样相互干涉，让出现更优解的概率更高、较差解的概率更低。

这一思路有望用于研究人类及其他生物体内海量的遗传变异。尽管遗传学家长期以来依赖由单一线性序列代表的参考基因组，但现在越来越多地转向了泛基因组。泛基因组被视为精准医疗和理解病原体演化的关键，但其计算复杂度极高。构建和分析泛基因组需要在海量、交错的可能序列组合“迷宫”中寻找路径，而这正是量子计算机可能擅长的任务。

量子生物计划（Q4Bio）是由惠康飞跃出资5000万美元设立的项目。惠康飞跃是英国慈善机构惠康基金会的高风险生物医学资助机构，旨在推动此类及其他与健康相关的量子计算应用。12个团队经历了“饥饿游戏”式的竞争——竞相在各自领域展示量子优势，以换取奖励和后续融资。

这些项目面临着重重困难。如今的量子计算机不稳定、易出错，且量子比特数量有限，即便只是将数据编码为量子态也十分艰巨。Mazzola说：“有时载入数据的难度堪比完成整个计算，会直接抵消使用量子计算机的先天优势。”

英国牛津大学的Sergii Strelchuk与惠康桑格研究所同事领导的量子泛基因组项目，是进入Q4Bio决赛的6个项目之一。Strelchuk团队开发了算法，尽可能高效地压缩DNA序列并将其编码为量子态。

团队最初计划用侵染细菌的ΦX174病毒进行测试，该病毒于1977年成为首个完成DNA完全测序的生物。但ΦX174的5386个碱基需要一台拥有387个量子比特的量子计算机，超出了研究人员所用IBM 156量子比特处理器的能力。

因此，团队转向丁型肝炎病毒，其基因组仅含约1700个RNA碱基，是已知最小的人类病毒基因组。团队最终用117个量子比特成功编码了丁型肝炎病毒的遗传信息。

“我们才刚刚起步。”惠康桑格研究所首席信息官James McCafferty表示，他们目前正在商议如何处理这些已编码的数据。团队希望开发一个在线界面，未来研究人员可上传、处理和分析序列。

美国弗吉尼亚大学的Stefan Bekiranov称赞了这一技术成就，但认为量子基因组学短期内不会快速发展，“你要面对的是极其强大的传统计算算法”。Mazzola则持乐观态度，他认为未来几年，随着基因组数据压缩与编码方法的精进，加上更大、更稳定的量子计算机出现，这一前景将变得现实。

Mazzola补充道，尽管将量子计算机应用于拥有31亿个碱基对的人类基因组仍是一个遥远的目标，但研究人员可以先聚焦于更短、在医学上重要且高度变异的DNA区域。

Q4Bio其他项目团队同样抱有乐观预期。美国芝加哥大学的Fred Chong负责一项癌症生物标志物研究，他开发了量子-传统混合算法，在海量癌症样本数据集中挖掘可辅助疾病预测的模式。尽管受限于量子比特数量，该方法在目前的量子计算机上仍无法超越传统方案，但Chong称，“我们预计未来2到3年内具备这一能力”。