耶鲁AI颠覆化学合成，实验成功率71%DeepTech深科技

近日，美国耶鲁大学博士毕业生李昊特和合作者开发了一套叫 MOSAIC 的 AI 系统，把化学合成知识分成了 2,498 个专业领域，每个领域训练一个专家模型。

这套系统在测试中对超过 35 种全新化合物的合成成功率达到了 71%，甚至帮研究人员完成了之前文献报道失败的化学反应和前所未见的新反应。

使用时给定 AI 一个化学结反应式，它不光告诉你这物质形态，还直接给你一份可以进实验室操作的详细步骤，包括用什么试剂、加多少量、加热多久、怎么提纯，甚至连每一步的注意事项都写好了。日前，相关论文发表于《自然》。

图 | 李昊特（来源：https://scholar.google.com/citations?user=nXimADQAAAAJ&hl=en）

这项研究的出发点，来自于研究人员对化学学科现状的观察。化学是一门以实验为基础、经验性极强的学科。人们学到的知识和技巧大多来自前人的积累，这本来是好事，但问题在于，今天每年有上百万篇化学论文发表，没有任何一个化学家能读完所有文献，更不用说记住其中的细节了。

化学渗透在生活的方方面面，从制药、材料、催化到农业和消费品，新药物的开发、新材料的合成都需要大量的试错。

一个有机化学反应的优化往往涉及多个参数：溶剂、浓度、反应顺序、时间、温度曲线，而且这些参数还会相互影响。探索一个新反应，通常需要大量的时间投入和试错成本。

在这样的背景下，研究人员想做一个系统：输入一个目标分子，系统不仅告诉你能不能合成，还能给出可以直接进实验室操作的详细步骤。

然而，通用大模型虽然能聊天，但你要让它给出一个具体化学反应的实验步骤，它经常说得驴唇不对马嘴。它会用看起来很专业的术语编造一套方案，温度不对、试剂不对、顺序也不对，按照它说的去做很可能什么都得不到，甚至炸掉反应瓶。

（来源：《自然》）

MOSAIC 的做法则是把整个化学合成知识空间分割成 2,498 个小区域，每个区域选一个专家。比如某个专家专门负责一种叫 Buchwald-Hartwig 的偶联反应，尤其是氯代芳香环的那种。

当你输入一个新的化学反应时，系统先在知识空间里找到离它最近的专家，然后让这个专家来回答。

为了判断哪个专家离得近，研究人员先训练了一个叫 KMN 的神经网络。这个网络能把化学反应转化成 128 维的数字向量，专业上叫反应特异性指纹。向量之间的距离越近，说明两个反应越相似。

有了这个空间，他们用了一个叫 FAISS 的高效检索工具，把知识库聚类成 2,498 个沃罗诺伊单元，每个单元就是一个专家的地盘。

训练的时候，先让一个基础模型把所有数据都学一遍，再针对每个专家所在的子集做二次微调。对一个新反应做预测时，系统先算出它的向量，找到最近的几个沃罗诺伊单元，激活对应的专家，然后让专家输出完整的实验方案。

研究人员最初尝试了训练一个完整的大模型，但很快意识到需要的计算资源太大了，几百上千张 GPU 卡，大多数实验室无法长期测试。

后来他们转换思路，从最基础的做起，只把模型在单个类型反应上微调。结果发现，简单的办法反而取得了好的效果。

传统方法需要几百上千张 GPU 卡，MOSAIC 只需要几张卡就能跑，而且是可持续生长的。新数据来了不需要重新训练整个系统，只需要在知识空间里加新的沃罗诺伊单元，训练新的专家，已经存在的专家不受影响。

搜索的时候系统会同时从已有和新索引里找结果，合并排序后输出。这种去中心化的设计对资源有限的学术实验室非常友好。对大多数研究者来说，用单个或几个 A100 GPU 就能让这个架构持续进步。

研究人员用 MOSAIC 预测了 37 种新化合物的合成路线，其中有 35 种在第一次尝试时就成功了。更让人意外的是一个 5-氮杂吲哚衍生物的合成，这类化合物在之前文献报道中被标注为是难以用现有方法制备的。

而 MOSAIC 给出的预测距离最近的专家中心距离是 320，远高于通常的置信阈值 150，这意味着这个反应在知识库里几乎找不到相近的先例。

但是，研究人员完全按照预测做了实验并成功实现了产物，同时 MOSAIC 找到了一个之前未被报道过的环化方法。这说明这套系统不只是照搬已有知识，它有一定的泛化能力，能在已有知识的边缘组合出新的方法。

研究人员强调，最重要的实验结果就来自于这种全新机理的反应预测。仅仅完全参照模型给出的预测，他们就取得了实验上的成功，而且让之前已报道过的相同底物上失败案例得以实现。论文审稿人对这一点也赞赏有加，认为全新反应的创新是本次论文的一大亮点。

他们还发现了一个很有意思的规律，他们把所有合成尝试的结果和预测的置信度做了对比。当预测距离小于 100 时，实验成功率超过 75%。当距离大于 200 时，成功率降到 50% 左右。

这个置信度指标成了实验优先级排序的有效工具，高置信度的反应可以大胆尝试，低置信度的反应值得探索但也需要留更多容错空间。

论文审稿人特别认可这个可信度指标，认为它弥补了一个长期存在的瓶颈，过去只有专家才能评估大模型预测的好坏，现在有了一个可量化的指标。

在预测试剂和溶剂时，单次预测的精确匹配率只有 22.4% 和 29.8%，但如果让三个专家一起投票，精确匹配率几乎翻倍到 43% 和 32.8%，部分匹配的成功率更是达到了 94.8%，这说明联合多个专家的意见能大幅提升预测可靠性。

（来源：《自然》）

李昊特告诉 DeepTech，这项研究刚开始的时候，有共同作者一度怀疑它的价值，理由是已经有像 Chemcrow 这样的架构，直接通过给 GPT-4 语言指令的方式完成一系列化学操作，看起来已经涵盖了研究目标。

但团队里有人从不同视角观察，发现商业模型本身存在隐藏的缺点，对化学的理解还有非常大的提升空间。研究人员通过实验数据证明了这一点，这个插曲让团队深刻体会到独立思考的重要性，不能因为存在可行方案，就停止寻找更好的方法。

虽然 MOSAIC 可以以较高概率解决实际化学问题，但模型目前还不能解释自己的预测。可解释性是当前研究的重点，研究人员希望下一步的模型不仅能给出高成功率的方案，还能说清楚为什么选择这个条件、为什么这个反应能成功，而这也是真正让 AI 理解化学的关键一步。

研究人员认为这项技术在药物合成、材料发现等方向有着优秀的转化前景。MOSAIC 最直接的应用就是全自动机器合成平台，它可以生成高成功率的实验方案，然后直接交给机器人平台去执行，用来探索新药物、新材料。

另外，MOSAIC 可以和现有的大型化学搜索平台，比如 Reaxys 和 SciFinder 结合起来。过去在这些平台上搜索一个反应，可能会返回成千上万条相似的文献，让人无从下手，MOSAIC 可以把这些结果整理成最少、最直接可用的方案。

在实验室里时间是最贵的成本，MOSAIC 旨在帮助化学领域的研究人员快速筛选有希望的实验方向，把搜索成千上万篇文献的时间缩到几分钟。

目前，研究人员已经将 MOSAIC 开源，所以感兴趣的人士均可使用。