伯克利、哈佛、宾大、斯坦福重磅综述学习力学清熙
论文开篇提出,一个能刻画神经网络训练过程、隐藏表征、最终权重和性能的科学理论正在形成。
作者整合了五个主要研究方向作为证据:
1)可求解的理想化模型;2)提供洞见的极限分析;3)描述宏观量的简单定律;4)对超参数的理论解耦;5)跨系统的普遍行为。
这些工作的共同点是,关注训练动态过程、描述粗粒化统计量、强调可证伪的定量预测。
论文将这一新兴理论命名为 “学习力学”,并主张它应该是一门数学化、基于第一性原理、能精确预测与实证的学科,最终像物理学那样对整个机器学习领域产生广泛影响。
深度学习是当前最强大也最令人费解的黑箱方法,理论落后于实践,模型仍靠大量试错训练。论文主张:一个深度学习的科学理论,正以学习力学的形态浮现。
1.1 什么是学习力学?
1.2 学习力学为什么重要
深度学习的运动方程是显式且高度可测量的,核心挑战是高维非线性带来的复杂性。
2.1 存在可解析的理想化模型
通过研究简化但不失代表性的模型来构建直觉,是物理学的成功范式,深度学习亦然。
2.2 富有洞察的极限揭示基本行为
复杂系统在无限大的极限下常会简化,就像理想气体定律在粒子数无限的热力学极限下导出,却能够描述现实气体。这一思路是深度学习理论的核心工具。
无限宽度与惰性核 / 富特征二分:
无限深度、上下文长度等极限同样存在。不同变量的联合缩放极限尤其重要,如将参数和数据量同时推向无穷,是理论解释计算最优缩放定律的关键。
离散化假说:
一个普遍信念是,真实网络可被理解为无限大理想模型的有噪、有限离散化版本。这暗示着,有限宽度、深度等效应通常只是对理想性能的扰动和成本妥协,而不是带来根本性的优势。
2.3 简单的经验定律捕捉有意义的宏观统计量
科学史上许多重要定律(例如牛顿三定律、欧姆定律)都是先作为经验规律被发现。深度学习同样具备这一条件。
粗粒化与潜表征权重:
包括神经坍缩,网络末层特征会形成规则的几何结构;神经特征假设,首层权重的结构与输入梯度的外积相关;以及守恒定律,源自参数化中的对称性。
2.4 超参数可以被解耦和理解


