两年攻坚,让AI读懂基因组98%的非编码区DeepTech深科技

1/31/2026

当 2003 年人类基因组测序首次完成时,我们获得了一本厚达 30 亿个遗传字母的“天书”,却发现自己只能读懂其中 2% 的“文字”(编码区),剩下的 98% 被称为基因组的“暗物质”。

近日,由谷歌旗下 DeepMind 公司开发的人工智能模型 AlphaGenome 登上 Nature 封面。该模型主要用于理解 DNA 序列如何调控基因,帮助科学家发现为什么我们 DNA 中的细微差异会让我们面临高血压、痴呆症和肥胖症等疾病的风险。

DeepMind 于 2025 年 6 月首次在 bioRxiv 发布 AlphaGenome 的预印本,并开放 API 预览。但模型在 Nature 正式发表后,团队同时宣布了完全开源研究代码和模型权重。

(来源:YouTube)

AlphaGenome 为何为“生命暗物质”而来?

这群研究者为何一头扎进基因组?

Dhavi:你是如何对这个领域产生兴趣的?

Tom:身处这样一支跨学科团队感觉非常棒。对于非生物学背景的人来说,遗传学是一个极具魅力的未知领域。能够探究 DNA 中极其微小的变化如何在人类及其他物种中产生宏观影响,这本身就令人神往。目前,尤其是机器学习与计算生物学的交叉领域,正处于爆发式增长期,这里充满了无限可能。

AlphaGenome 凭什么刷新行业天花板?

Dhavi:那么,AlphaGenome 试图填补的行业空白是什么?

一顿午餐,竟解开了技术死结?

Dhavi:为什么“长上下文、高分辨率、多模态”同时实现如此困难?

Dhavi:你们最终是如何攻克这个难题的?

Tom:没错。搞定模型并行化后,下一个难关是海量训练数据的吞吐。我们一度需要每秒加载 40-50 GB 的数据才能跟上训练速度。我们有两个核心发现:首先,生物数据其实极度稀疏(某些模态 99% 都是零值),因此我们将精力集中在极致的数据压缩与解压技术上,从而打破了加载瓶颈。

其次,我们对训练数据采取了“冷酷”的筛选标准,通过多轮质量检查,确保数据要么具有极高质量,要么能增加模型的多样性,从而提升泛化能力。搞定数据后,我们终于能高效迭代模型。在完善了 1D 轨迹预测后,我们转向了更具挑战性的 2D 数据——染色体接触图和 RNA 剪接。Jun,你在剪接方面投入了大量精力,那真是个棘手的问题。

Natasha:关于接触图(Contact Maps),它们是捕捉 DNA 区域间相互作用的 2D 矩阵。基因组在细胞核内折叠成复杂的三维形状,这种物理距离的接近(如启动子与增强子的互动)对基因调节至关重要。幸运的是,我们将这一 2D 模态成功引入了模型并实现了端到端训练,且没有牺牲其他模态的性能。

Scroll for more