微分几何助力突破具身智能发展的瓶颈顾险峰

今天是 2025 年 12 月 31 日，又到了一年一度回顾与思考的时刻。回望 2025 年，人工智能正在以前所未有的速度重塑人类社会结构，而具身智能（Embodied Intelligence）正逐渐成为这一轮技术浪潮中的核心焦点。所谓具身智能，是指赋予机器人感知世界、理解世界并主动改变世界的能力。与大语言模型不同，后者主要依赖抽象的符号语料，其训练数据可以通过互联网、书籍和数字媒体大规模获取；具身智能的训练则必须依托真实的物理世界交互。机器人在与环境互动过程中，会产生复杂的静力学、动力学、热力学乃至电磁学反馈信息，这些多物理场信号构成了具身智能学习的基础。

传统的数据获取方式主要包括视频采集、三维扫描、动作捕捉以及人工实操示教等。然而，这类方法普遍面临成本高昂、物理场信息缺失、数据规模有限等问题，远远无法满足具身智能对大规模、高质量训练数据的需求。因此，具身智能发展的核心瓶颈，集中体现在如何低成本地获取海量、真实且物理信息完备的训练数据——即业界普遍所称的“数据荒”问题。

针对这一挑战，工业界与学术界正在从多个方向积极探索解决路径。一方面，人们持续研发新型传感器与数据采集系统，例如可穿戴式动作捕捉设备、光学或电容式触觉传感器、多视角多模态视频系统以及动态三维扫描装置等，其核心目标在于提升采集精度与效率的同时显著降低成本。另一方面，研究者也在尝试通过人工合成数据来补充真实数据的不足。其中一类方法是借助生成式 AI 模型合成以第一视角（egocentric）为主的训练数据，例如短视频或机器人运动轨迹的时间序列表示（包括每一时刻的身体姿态、关节角度、速度、加速度以及各类传感器力学反馈等）。该方向的关键挑战在于如何确保生成数据符合真实物理分布，避免“幻觉”问题。另一类重要方法是依托工业级高精度仿真系统，通过数值计算精确模拟机器人及环境中的多物理场过程，即所谓的 Sim-to-Real 路径。在上述所有方向中，微分几何与计算几何方法都发挥着不可替代的基础性作用。无论是物理场建模、几何约束表达、连续—离散系统的统一，还是仿真与现实之间的映射，几何理论都为具身智能提供了坚实的数学支撑，也为突破“数据荒”瓶颈指明了关键路径。2025年，笔者团队和学术界与工业界的多个团队进行了并肩合作，沿着这些方向进行了深度探索。

微分同胚群与3D扫描

图1. 基于相位平移的3维扫描方法（高翔、王鑫穆、赵洲）。

传统的三维扫描技术主要基于几何光学（如双目立体视觉）和波动光学（如相位平移）两大类方法。在几何重建精度方面，基于波动光学的技术通常具有更高的测量精度。图1展示了经典的相位平移法：通过将激光干涉条纹投射到人脸曲面上获取左帧图像，进而求解相对相位得到中帧结果，并在曲面连续性假设下恢复绝对相位，如右帧所示。该绝对相位编码了从光源到物体表面的几何距离信息，从而可重建带有真实纹理颜色的三维点云，如图2所示。与其他传统三维重建方法相比，该方法在空间分辨率与深度精度方面均达到领先水平；同时，其高速采集能力使其能够支持实时、动态三维扫描，满足高精度与高帧率并存的应用需求。

图2. 由图1左帧得到的带有纹理的3D点云，从不同视角得到的投影图像。

几乎所有基于相位的三维扫描方法都不可避免地涉及由相对相位恢复绝对相位的问题，即所谓的相位展开（phase unwrapping）。从本质上看，该问题可归结为一个离散的全局优化问题，其核心挑战在于如何避免陷入局部最优解，从而获得全局一致的相位结果。

围绕这一难题，学术界已提出了上百种算法。传统的质量引导路径法通常从某一像素出发，逐步向邻域传播相位，但该类方法对传播路径高度敏感：一旦中途某个像素发生错误，误差便会沿路径持续累积并扩散。另一类基于马尔可夫随机场的优化方法，尽管在形式上更为全局，但在实际求解过程中同样容易陷入局部极小值。因此，相位展开问题至今仍是基于相位三维扫描领域中的核心难题之一，也是制约高精度、高鲁棒性几何重建的关键瓶颈。

图3. 应用微分同胚群求取最优相位展开（高翔、王鑫穆、赵洲）。

我们团队基于微分几何的视角提出了一种新颖且鲁棒的相位展开方法。微分同胚描述了光滑曲面之间的可逆光滑映射，而定义在曲面上的绝对相位函数在微分同胚群的作用下保持不变。如图 3 所示，利用这一相位的内在几何对称性，我们首先对采集到的原始图像施加一组微分同胚变换；随后，在变换后的图像域上采用传统算法求解相位展开；最后，将得到的绝对相位结果通过逆微分同胚变换映射回原始坐标系，并通过投票机制与加权平均进行融合，得到最终一致的绝对相位估计。实验结果表明，该方法显著提升了相位展开的整体鲁棒性，有效规避了传统算法中常见的局部最优陷阱。

在具身智能应用场景中，机器人需要实时、精确地感知操作对象的绝对几何信息。传统双目视觉方法在面对弱纹理或强反光物体（如金属工具、玻璃制品）时往往性能退化甚至失效。相比之下，基于波动光学的相位平移扫描技术能够在亚毫米级精度下稳定重建复杂物体的表面几何与曲率分布。通过对曲面曲率的实时计算，机器人视觉系统可以进一步自动分割出最适合手指接触的“抓取流形”区域，从而实现从视觉几何感知到物理交互执行的关键跨越，为高精度操作与灵巧抓取提供可靠支撑。

蒙日-安培方程正则性与AI幻觉

在生成式AI中（Generative AI），某类数据集合被抽象嵌入在高维背景空间中的低维数据流形上的概率分布。训练的目的有两个：一个是得到编码解码映射，它们实现数据流形到隐空间的同胚映射，即学习流形的拓扑结构；另一个是得到传输映射，将数据分布映射到高斯分布，这个传输映射如果极大化概率分布的熵，那么它就是热力学中的扩散过程，所得模型就是扩散模型；如果这个传输映射极小化传输代价，那么它就是最优传输映射。根据Kolmogrov-Arnold定理，深度神经网格可以逼近任何连续映射，因此编解码映射与传输映射最后都由深度神经网络来表示。生成模型的推理过程就是在数据流形的分布上采样，具体而言就是先从高斯分布中采样，再通过传输映射的逆映射将高斯采样点映射回隐空间，然后通过解码映射回射到数据流形上，得到一个数据采样。

在生成式人工智能（Generative AI）中，数据通常被建模为嵌入于高维环境空间中的低维数据流形上的概率分布。模型训练的核心目标可概括为两个方面。其一，是学习一对编码—解码映射，实现数据流形与隐空间之间的近似同胚映射，从而捕捉数据流形的内在几何与拓扑结构；其二，是学习一个传输映射，将数据分布逐步变换为标准高斯分布。若该传输过程以最大化分布熵为目标，则对应于热力学意义下的扩散过程，由此得到扩散模型（Diffusion Models）；若以最小化传输代价为准则，则该映射对应于最优传输（Optimal Transport）框架。依据 Kolmogorov–Arnold 表示定理，深度神经网络可以逼近任意连续映射，因此上述编码—解码映射与传输映射在实践中均由深度神经网络参数化表示。

在推理阶段，生成模型的本质是在数据流形诱导的概率分布上进行采样：具体而言，首先从高斯分布中采样得到随机变量，然后通过传输映射的逆过程将其映射回隐空间，最终经由解码映射回射至数据流形，从而生成一个新的数据样本。

图4. 带纹理的3D人脸模型的几何图像表示。

我们与浙江大学章敏教授团队合作，开发了一种三维人脸生成模型。如图 4 所示，首先将带纹理的人脸曲面（左）通过共形映射展开至平面区域，并进一步复合最优传输映射，将曲面的几何信息统一表示为三幅二维图像：几何图像（第二帧）、法向贴图（第三帧）以及纹理图像（右）。通过这一表示方式，一张三维人脸曲面被等价编码为三幅二维图像，共同构成一个训练样本。

图5. 生成的带纹理的3D人脸模型（刘缘朋）。

基于该表示，我们能够高效构建大规模训练数据集，并生成丰富多样的三维人脸曲面，如图 5 所示。进一步地，通过在三维人脸生成模型的隐空间与大语言模型的语义空间之间建立映射关系，实现了文本到三维模型（Text-to-3D）的生成。如图 6 所示，该模型可根据用户的自然语言提示，自动生成具有不同表情、性别与年龄特征的三维人脸模型。

图6. 生成的不同性别、年龄与表情的3D人脸（章敏）。