两年攻坚，让AI读懂基因组98%的非编码区DeepTech深科技

当 2003 年人类基因组测序首次完成时，我们获得了一本厚达 30 亿个遗传字母的“天书”，却发现自己只能读懂其中 2% 的“文字”（编码区），剩下的 98% 被称为基因组的“暗物质”。

近日，由谷歌旗下 DeepMind 公司开发的人工智能模型 AlphaGenome 登上 Nature 封面。该模型主要用于理解 DNA 序列如何调控基因，帮助科学家发现为什么我们 DNA 中的细微差异会让我们面临高血压、痴呆症和肥胖症等疾病的风险。

DeepMind 于 2025 年 6 月首次在 bioRxiv 发布 AlphaGenome 的预印本，并开放 API 预览。但模型在 Nature 正式发表后，团队同时宣布了完全开源研究代码和模型权重。

（来源：YouTube）

AlphaGenome 为何为“生命暗物质”而来？

这群研究者为何一头扎进基因组？

Dhavi：你是如何对这个领域产生兴趣的？

Tom：身处这样一支跨学科团队感觉非常棒。对于非生物学背景的人来说，遗传学是一个极具魅力的未知领域。能够探究 DNA 中极其微小的变化如何在人类及其他物种中产生宏观影响，这本身就令人神往。目前，尤其是机器学习与计算生物学的交叉领域，正处于爆发式增长期，这里充满了无限可能。

AlphaGenome 凭什么刷新行业天花板？

Dhavi：那么，AlphaGenome 试图填补的行业空白是什么？

一顿午餐，竟解开了技术死结？

Dhavi：为什么“长上下文、高分辨率、多模态”同时实现如此困难？

Dhavi：你们最终是如何攻克这个难题的？

Tom：没错。搞定模型并行化后，下一个难关是海量训练数据的吞吐。我们一度需要每秒加载 40-50 GB 的数据才能跟上训练速度。我们有两个核心发现：首先，生物数据其实极度稀疏（某些模态 99% 都是零值），因此我们将精力集中在极致的数据压缩与解压技术上，从而打破了加载瓶颈。

其次，我们对训练数据采取了“冷酷”的筛选标准，通过多轮质量检查，确保数据要么具有极高质量，要么能增加模型的多样性，从而提升泛化能力。搞定数据后，我们终于能高效迭代模型。在完善了 1D 轨迹预测后，我们转向了更具挑战性的 2D 数据——染色体接触图和 RNA 剪接。Jun，你在剪接方面投入了大量精力，那真是个棘手的问题。

Natasha：关于接触图（Contact Maps），它们是捕捉 DNA 区域间相互作用的 2D 矩阵。基因组在细胞核内折叠成复杂的三维形状，这种物理距离的接近（如启动子与增强子的互动）对基因调节至关重要。幸运的是，我们将这一 2D 模态成功引入了模型并实现了端到端训练，且没有牺牲其他模态的性能。