他们用AI破译生命“隐藏文本”中国科学报
深耕基因组学研究多年,西安交通大学电子与信息学部教授叶凯团队始终在探索:能不能依托适配生命复杂体系的人工智能技术,破解传统研究工具长期难以攻克的难题?罕见病机理探究,便是其中极具代表性的方向。
近期,叶凯团队接连在《自然?遗传学》《自然?方法》刊发成果,先后研发出适配泛基因组学的人群水平结构变异解析新方法Swave,以及搭载混合专家架构的基因组语言模型 ANNEVO。
“通俗来讲,借助Swave,科研人员能清晰捕捉基因组中大范围的复杂变异;依靠ANNEVO,我们可以精准定位基因组里的有效基因区段。两项技术相辅相成,推动基因组研究实现从‘完成测序’到‘读懂破译’的关键跨越。” 叶凯解释道。
从“发现变异”到“解读变异”
基因组变异,是诱发疾病演进、推动物种演化的关键因素。如今,基因组组装与泛基因组技术飞速迭代,大规模群体结构变异分析逐步落地,但行业痛点依旧突出:复杂变异难以识别、重复序列干扰数据、跨样本分析基因信息缺失严重,长期制约着基因组基础研究与临床医学应用。如何在海量人群基因数据中,精准识别、拆解复杂结构变异,成为业内聚焦的核心课题。
针对这一痛点,团队创新研发Swave技术,通过 “点阵图投影波”完成基因序列升维、降噪与特征提取,再结合人工智能循环神经网络,实现变异类型判别、样本基因分型的全流程自动化。实测数据显示,该技术在变异识别精准度、家族基因匹配度、群体基因数据完整性上,全面优于现有主流算法。
依托Swave,团队对健康人群与罕见病患者开展大规模泛基因组分析,首次发现大量此前被低估的稀有低频基因变异。“这类变异,对厘清罕见病致病机理、解析物种演化规律,有着不可替代的研究价值。”叶凯告诉《中国科学报》。
叶凯介绍,基因注释是衔接基因测序与功能解读的关键环节,更是科研成果落地转化的重要基础。伴随国际大型基因组计划持续产出海量数据,高质量全自动基因注释,成为后基因组时代亟待攻克的技术难关。传统注释手段高度依赖RNA 测序、同源蛋白等外部佐证,不仅数据需求量大、运算成本高昂,还难以适配小众物种、特殊基因片段的研究需求。
为此,团队搭建出基于混合专家架构的ANNEVO基因组语言模型。该模型可自主学习不同生物的演化规律,读懂超长基因序列的内在关联,无需依托RNA测序、同源蛋白等外部数据,仅凭原始DNA序列,就能完成高精度全自动基因注释。
这项成果,打破德国相关团队长达二十余年的技术垄断,补齐我国基因注释领域的核心技术短板,也为国家生物安全筑牢技术根基,加速人工智能与生命科学的深度融合。
叶凯向《中国科学报》打了个比方:如果把基因组比作一本记录生命密码的“说明书”,Swave就像是细致核查全书,找出段落删减、语序调换、内容重复等改动痕迹;ANNEVO则能精准标注全书核心正文,划定调控生命活动的关键章节。前者摸清 “基因密码改在哪、怎么改”,后者解读 “这些改动意味着什么”,两项技术叠加,才能真正读懂生命这本厚重的 “说明书”。
面对基因组中大量晦涩难懂的重复序列,Swave擅长拨开数据迷雾,锁定隐蔽、易混淆的真实基因变异;而ANNEVO的核心价值,在于依托人工智能,精准筛选出具备实际生物学意义的关键基因区段。“这两项成果印证,人工智能不只是提升运算效率,更能在纷繁复杂的生命数据里,精准抓取核心有效信息。” 叶凯补充道,简单来说,Swave主攻“发现变异”,看清以往难以察觉的隐秘基因变化;ANNEVO主攻“解读变异”,明确变异对应的基因区段与功能影响。二者协同发力,不止是新增两项科研工具,更让人类破译生命基因密码迈出了实质性一步。
生命体系复杂性远超想象
在叶凯看来,两项核心技术接连落地,离不开团队长年的积累。Swave聚焦复杂基因变异识别,ANNEVO深耕全自动基因注释,攻关方向各有侧重,却始终围绕同一个核心思路:用贴合生命复杂特性的人工智能方法,破解传统技术的固有短板。“这并非偶然的单点突破,而是长期布局、持续攻关形成的系统性创新成果。”叶凯说。
叶凯坦言,科研攻坚路上,最大的难题从来不是数据匮乏,而是生命体系本身的复杂性远超想象。基因组并非条理清晰的文本档案,充斥着重复片段、基因重排、超长关联序列,不同物种的基因架构更是差异悬殊。研发Swave,要攻克复杂变异与无效数据的甄别难题;打磨ANNEVO,要突破物种壁垒,实现跨品类稳定解读基因结构。“说到底,科研的本质,就是不断钻研、一步步贴近生命最复杂的底层规律。” 叶凯补充道。
从研究逻辑来看,两项成果同向发力,最终指向同一个长远目标:搭建一套适配复杂生命体系的人工智能基因解析框架。“我们团队研发的从来不是零散的技术工具,而是一套完整、可持续迭代的生命密码解码体系。”叶凯介绍。
叶凯(右二)团队在实验室。受访者供图
“我们在研究中发现,很多关键的致病基因变异并不常见,反而多是隐蔽性强、极易被忽略的稀有变异。” 叶凯表示,Swave 能精准捕捉这些深藏不露的基因异常,ANNEVO 则进一步明确,判断这些异常是否会影响基因功能、诱发病变。这也提示业内,未来精准医疗、个体化诊疗想要落地见效,不能只聚焦常见基因信号,必须具备识别稀有关键变异的技术能力。
将支撑罕见病研究与精准医学
叶凯表示,目前尽管两项技术主要应用于基础科研,但早已贴近民生医疗,距离大众生活并不遥远。Swave 助力精准挖掘致病基因变异,赋能罕见病筛查溯源;ANNEVO 夯实基因组解读根基,保障基因注释精准高效,二者都是未来精准诊断、罕见病防治、个体化医疗的重要技术支撑。短期内或许难以普及到常规体检,但正在逐步破解以往部分遗传疾病“查不出、说不清、治不好”的困境。
叶凯团队合影。受访者供图
谈及后续规划,叶凯表示,团队将沿着两大方向持续发力。一方面深耕基础研究,深挖DNA序列的底层编码逻辑,探索生命基因信息在不同生长阶段、不同环境条件下的调控规律。“我们不仅要摸清基因组的现有密码,更要厘清生命活动如何依靠基因实现精密调控。” 叶凯说道。
另一方面加快成果转化,推动前沿算法走出实验室,落地应用于医学攻关、疾病诊断、生物产业等实景场景。“我们要把实验室里的科研成果,转化为助力行业发展、惠及民生的新质生产力。”未来,团队将兼顾基础攻关与产业落地,既深挖生命科学底层奥秘,又让先进技术真正发挥实用价值。
“基因测序只是第一步,让每个人的基因信息都能得到精准、严谨、可持续的专业解读,这才是人工智能赋能基因组研究最核心、最有前景的方向。”叶凯如是说。


