当机器学习遇见拓扑集智俱乐部
作为数学的一个分支,拓扑学以独特的方式描述空间的性质和结构。近年来,几何和拓扑在机器学习中得到了广泛应用,尤其是拓扑模型,在数据表示和特征提取方面有着重要作用。拓扑数据分析(Topological Data Analysis, TDA)植根于代数拓扑和计算拓扑,在处理具有结构性的数据上得到了极大的发展,并逐渐成为 Math for AI 的一个重要方面。
在集智俱乐部「数学与人工智能读书会」中,夏克林老师讨论了拓扑数据分析(Topological Data Analysis, TDA)的主要思想和模型,首先介绍了基本的拓扑数据表示模型,尤其是基于数据的单纯复形构造,以及和传统图模型的差异,之后介绍了基于单纯复形的拓扑深度学习。拓扑数据分析在刻画复杂的高阶相互作用方面展示出极大的优越性,尤其是它可以刻画体系最本质的拓扑信息。拓扑数据分析将进一步促进我们对数据的本质信息的挖掘和刻画,为提高机器学习模型的精度、可解释性、迁移性等打下坚实的数学基础。
1. 数据的拓扑表示
2. 拓扑数据处理的特征
3. 拓扑深度学习
4. 基于单纯复形的图神经网络
1. 数据的拓扑表示
本文以分子数据处理为切入点,探讨拓扑数据分析(Topological Data Analysis, TDA)的应用和特点。AI 在数据处理上的两个关键环节——数据表征和建模分析特性,与拓扑数据分析有着紧密的联系。接下来,我们将展开介绍这两个环节。
图1. 基于 AI 的分子数据分析
Tauzin, Guillaume, et al. "giotto-tda: A topological data analysis toolkit for machine learning and data exploration." The Journal of Machine Learning Research 22.1 (2021): 1834-1839.
文章总结了拓扑数据和机器学习的结合的相关理论。
Chazal, Frédéric, and Bertrand Michel. "An introduction to topological data analysis: fundamental and practical aspects for data scientists." Frontiers in artificial intelligence 4 (2021): 108.
1.1 数据表征
在处理图像数据时,我们可以借助神经网络模型生成相应的数据表示。例如通过提取特定的特征点构建网格模型进行人脸识别。除了网格模型,还有其他如特征图和热度图等不同的数据表示方式。虽然源自同一图像数据,但从数学角度可以建立起不同的模型:最简单的矩阵模型,或者点阵模型、网格模型,甚至更复杂的函数模型。一旦数学模型建立,就可以基于模型提取特征,并与后续关注的信息产生联系,如通过多层感知器(MLP)进行预测等。
图2. 人脸识别模型
类似地,在处理分子数据(如小分子数据和蛋白质数据)时,也有多种不同的数据表示方式。一种常见方法是基于共价键的图表征,其中每个节点代表一个原子,边代表共价键,形成一种图的表示形式。
图3. 不同的分子模型
除此之外,还有几何方法,例如将原子看作半径固定的球体,观察者可以从球体集合的外部,即分子的表面进行研究,查看其表面积或凸凹区域。这些凸凹区域与原子间的相互作用信息有关,这种描述更偏向几何。
更进一步,还可以通过密度泛函理论来计算电子密度或电子函数分布,将分子数据转化为一种空间形态的数据表现形式。因此,尽管源自同样的分子数据,我们可以从多个角度对其进行表征。一旦完成表征,就可以在此基础上提取各种特性,包括各种指纹(fingerprint)和描述符(descriptor)等等。这些性质可能和最终想要理解的功能产生联系,例如水溶性、脂溶性、毒性等。
1.2 分子结构的建模
在构建关于分子功能模型的过程中,大量使用了结构数据。这是因为分子的结构和其功能之间存在强烈的关系,被称为“结构-功能关系”(Structure-Function Relationship)。
例如,离子通道蛋白质的显著特点是它们中心有一个洞(图4左上),这个洞对离子通道的功能至关重要,因为它方便了细胞膜外部的离子进入膜内,或者膜内的离子离开细胞。另一个例子是蛋白质笼(图4右下),这种蛋白质的表面有一定结构,但其内部是空的,就像用来装东西的盒子,这种空心的结构有利于某些物质的存储和运输。最后一个例子是具有两个固定区域,并通过一个灵活连接区域相连的分子。这种结构可以形成一种开关状态,使得分子能够处于激发态或非激发态,从而影响其功能。
图4. 蛋白质分子结构
无论是通过共价键连接还是通过非共价键的相互作用,都会影响最终的稳定态结构,这种稳定态结构与分子功能紧密相关。因此,描述分子的结构对于理解分子功能具有重要作用。为更好地描绘分子的结构,大量的描述符(无论是组合量,代数量还是几何量)被提取了出来。在这些描述符中,有一些关注拓扑特性,比如图上向量、几何量等等,还有一些关注组合或邻近信息的指纹。
图5. 化学描述符
在大量关于结构的描述量中,可能存在某些更本质、更全局的量,它们能够更好地抓住结构的整体信息,从而在理解和描绘分子的功能方面起到更重要的作用。这就引出了拓扑数据处理的核心:通过拓扑不变量来描述数据。
2. 拓扑数据处理的特征
拓扑数据分析与传统的工具相比有三个主要特征:
1)单纯复形:采用单纯复形(simplicial complex)的描述方式,相比图描述能捕获数据中更丰富的拓扑和几何信息。
2)拓扑不变量:拓扑数据分析使用拓扑不变量,而非仅仅依赖于统计量或描述性量。这些拓扑不变量可以提供对数据的深度理解,包括数据的连接性、洞等复杂结构。
3)过滤流过程:拓扑数据分析包含一个过滤流过程,这个过滤流过程可以与系统内的多尺度描述很好地结合。通过从不同的尺度去观察和分析数据,我们能够得到更全面的信息。
2.1 单纯复形
在非数学领域,如计算机科学、工程和生物学中,人们通常使用图来表达实体之间的连接关系。然而,在基础数学领域中,更经常使用的是称为单纯复形(Simplicial Complex)的描述方式。作为高级的拓扑工具,单纯复形能更好地描绘复杂系统中的结构信息。
与图相比,单纯复形有几个重要的不同点:
1)高维度描绘:除表示节点和边(即0维和1维的对象),单纯复形可以表示更高维度的对象。例如,填充的三角形代表一个2维的对象,填充的四面体代表3维对象。
图6. 图与单纯复形


