黎曼流形与统计流形上神经表示的几何感知相似性度量

论文信息

标题: Geometry-aware similarity metrics for neural representations on Riemannian and statistical manifolds

作者: N Alex Cayco Gajic, Arthur Pellegrino

发布日期: 2026-03-30

PDF链接: 下载PDF

论文背景与研究动机：为何需要“内在”的几何视角？

在人工智能，特别是深度神经网络的研究中，一个核心挑战是理解网络内部究竟“学”到了什么。神经网络的“表示”，即其各层神经元在给定输入下的激活模式，被认为是其知识的核心载体。为了比较不同网络或同一网络不同阶段的表示，研究者们广泛使用了相似性度量方法，例如中心核对齐、典型相关分析等。

然而，本文作者敏锐地指出，当前主流方法存在一个根本性的局限：它们主要关注外在几何。所谓外在几何，是指将神经表示视为高维欧几里得空间（状态空间）中的点集，然后直接计算这些点集之间的统计相关性或距离。这种方法忽略了神经表示可能形成的内在几何结构。

根据流形假设，高维数据（如图像、语言）的有效表示通常位于一个嵌入在高维环境空间中的低维流形上。这个流形本身具有独特的弯曲和扭曲特性——即其内在几何。两个网络可能将数据映射到状态空间中看似相似的区域（外在几何相似），但它们各自构建的内在流形结构——数据点之间的“真实”距离和连接关系——可能截然不同。这就像比较地球表面和一张被揉皱的纸：在三维空间中看，某些点可能很近（外在距离小），但沿着表面行走的实际路径（内在距离）却可能很长。

因此，仅依赖外在相似性度量，可能会错误地将具有本质不同计算机制的网络判断为相似，或者无法捕捉到学习动态中细微但关键的结构性演变。本文的研究动机，正是为了突破这一局限，引入来自黎曼几何的工具，直接比较神经表示的内在几何，从而更本质地理解神经计算的机制。

核心方法：度量相似性分析的技术细节

本文提出的核心方法称为度量相似性分析（Metric Similarity Analysis, MSA）。其数学基础是黎曼几何和统计流形。核心思想是：将神经网络某一层的表示空间建模为一个黎曼流形，该流形的局部几何结构由一个度量张量 $G$ 所定义。这个度量张量决定了流形上任意两点间最短路径（测地线）的长度。

MSA 的关键步骤与公式推导如下：

局部度量估计：给定一组输入数据点 $\{x_i\}$ 及其在某个神经网络层对应的激活向量 $\{h_i\}$ ，我们首先将 $\{h_i\}$ 视为一个嵌入在高维空间中的点集。对于流形上的每个点 $h_i$ ，MSA 通过其 $k$ 个最近邻点来局部地估计该点的度量张量 $G_i$ 。一种常见的方法是使用局部 PCA 或基于距离的方法。例如，可以考虑一个基于热核的度量，其局部近似为： $ds^2 \approx \sum_{\mu, \nu} G_{\mu\nu}(h) dh^\mu dh^\nu$ 其中 $ds$ 是流形上的无穷小距离， $dh$ 是激活空间中的无穷小变化。 $G(h)$ 编码了表示空间在不同方向上的“伸缩”与“弯曲”。
度量比较：获得了两个待比较网络（或网络状态） $A$ 和 $B$ 在对应数据点上的局部度量 $\{G_i^A\}$ 和 $\{G_i^B\}$ 后，MSA 的核心是比较这些度量场。直接比较张量是困难的。MSA 采用的一个巧妙方法是计算每个度量在局部定义的各向异性或曲率等标量特征，然后比较这些特征在数据点分布上的统计特性。
- 一个具体的比较对象是拉普拉斯-贝尔特拉米算子。度量张量 $G$ 决定了流形上的拉普拉斯-贝尔特拉米算子 $\Delta_G$ ，该算子的特征值和特征函数编码了流形的全局几何与拓扑信息。通过比较从 $\{G_i^A\}$ 和 $\{G_i^B\}$ 估计出的离散拉普拉斯算子的谱（特征值），可以量化两个内在几何的差异。
- 另一种方法是比较局部体积元。度量张量的行列式的平方根 $\sqrt{\det G}$ 定义了流形上的体积元。比较两个网络在相同数据区域上的体积元分布，可以揭示它们如何“拉伸”或“压缩”表示空间，这直接关系到分类边界或生成过程的特性。
相似性量化：最终，MSA 输出一个标量相似性分数。这可以通过计算两个度量场导出的特征分布之间的统计距离来实现，例如 Wasserstein 距离或最大平均差异： $\text{MSA}(A, B) = D(\{f(G_i^A)\}, \{f(G_i^B)\})$ 其中 $f$ 是从度量张量提取标量或向量特征的函数， $D$ 是概率分布之间的距离度量。

创新点与核心贡献：从外在关联到内在结构

本文的贡献是多层次且具有开创性的：

范式转换：首次系统性地提出并实现了从比较神经表示的“外在几何”到比较其“内在几何”的范式转换。这为神经网络可解释性研究提供了一个全新的、更深刻的数学视角。
方法创新：提出了 MSA 这一具体、可计算的框架，将黎曼几何中的度量张量、拉普拉斯算子等抽象概念，转化为可用于分析实际神经网络表示的算法流程。它架起了纯数学理论与深度学习实践之间的桥梁。
理论深度：明确引入了统计流形的概念。当神经表示被解释为概率分布的参数时（如在变分自编码器或扩散模型的隐空间中），表示空间自然成为一个统计流形，其度量由 Fisher 信息矩阵给出。MSA 可以无缝衔接这一情况，使得分析生成模型的内在结构成为可能。
广泛的适用性：作者展示了 MSA 并非一个局限于特定任务的方法，而是一个通用框架，可应用于分析不同学习机制（如监督、自监督）、非线性动力学系统以及前沿的扩散模型，证明了其强大的普适性。

实验结果分析：揭示隐藏的差异

论文通过精心设计的实验验证了 MSA 的有效性和优势：

区分不同学习机制：在训练具有相同架构但采用不同学习范式（如标准监督学习、对抗训练、对比学习）的网络时，传统的 CCA 等方法可能显示它们学习到了“相似”的表示。然而，MSA 能够揭示它们在内在几何上的显著差异。例如，对抗训练的网络其表示流形可能在对抗样本方向具有不同的曲率特性，MSA 能捕捉到这种为鲁棒性而演化的几何结构。
剖析非线性动力学：对于循环神经网络等动态系统，MSA 可用于比较其吸引子流形的几何。两个动力系统可能产生类似的时间序列（外在输出相似），但其状态空间中的吸引子结构（内在几何）可能不同。MSA 通过比较轨迹上的局部度量，能够区分这些动力学本质上的差异。
探索扩散模型：这是 MSA 一个非常亮眼的应用。扩散模型的生成过程可以看作在数据流形上的一个随机轨迹。MSA 被用来比较不同扩散模型（或同一模型在不同采样步数下）的反向过程所隐含的路径几何。这有助于理解模型是如何“导航”数据流形来从噪声中构建出结构化样本的，为改进采样算法提供了几何洞察。

这些实验共同表明，MSA 能够发现传统方法所忽略的、但对应于根本不同计算解决方案的几何特征，从而提供了更精细的分析工具。

实践应用建议与未来方向

对于量化交易研究者的启示：在量化金融中，基于深度学习的预测模型常被视为“黑箱”。MSA 提供了一种新工具来比较不同市场状态下模型内部表示的演变，或比较不同策略模型（如趋势跟踪 vs. 均值回归）的决策逻辑在几何结构上的根本差异。例如，可以分析一个模型在牛市和熊市期，其风险因子表示流形的曲率如何变化，这可能关联到模型的 regime switching 能力。在构建模型集成时，MSA 可用于选择那些预测性能相似但“内在思考方式”（几何结构）不同的模型，以获得更好的多样性和鲁棒性。

对于人工智能研究者的实践建议：

模型诊断与调试：在训练过程中定期计算当前模型与一个“黄金参考模型”或早期 checkpoint 之间的 MSA 距离，可以监控表示几何的结构性演变，识别训练不稳定或崩溃的阶段。
迁移学习与领域自适应：比较源域和目标域数据在模型同一层诱导出的度量场，可以量化领域间的几何差异，为设计更有效的自适应损失函数提供指导。
生成模型分析：正如论文所示，MSA 是分析扩散模型、标准化流等生成模型的利器。可用于比较不同架构或训练目标的模型如何组织其隐空间几何，从而指导模型设计。

未来发展方向：

计算效率提升：局部度量估计和流形谱计算在高维和大数据场景下可能计算昂贵。开发更高效、可扩展的近似算法是走向广泛应用的关键。
与功能分析的结合：将内在几何特征（如曲率）与具体的网络功能（如泛化能力、对抗鲁棒性、稀疏性）建立更直接、可解释的定量关联。
扩展到更复杂的结构：当前主要关注逐层的静态表示。未来可扩展到分析跨层之间的几何关系，或处理时序表示形成的动态流形。
指导架构设计：探索能否将“期望的表示几何”作为归纳偏置或正则化项，直接用于指导神经网络的架构设计和训练过程，以学习具有更好性质的内部表示。

总结与展望

《Geometry-aware similarity metrics for neural representations on Riemannian and statistical manifolds》这篇论文是一项融合了深度理论与深度学习的杰出工作。它成功地将黎曼几何这一强大的数学语言引入神经网络表示分析，提出了具有范式意义的度量相似性分析框架。

其核心价值在于，它使我们不再满足于观察神经网络表示在“天空中的投影”（外在关联），而是提供了工具去测量其“大陆板块本身的形状与沟壑”（内在几何）。这让我们能够区分那些“形似而神不似”的网络解决方案，更精准地洞察学习动力学，并深入生成模型的构造核心。

展望未来，MSA 及其所代表的几何分析范式，有望成为下一代神经网络可解释性研究的基石之一。随着计算方法的优化和理论联系的深化，我们期待它不仅能更好地解释现有模型，更能反过来启发新型神经网络架构和训练算法的设计，最终推动我们朝着构建真正“理解”而非仅仅“拟合”数据的人工智能系统迈出坚实的一步。在量化交易、科学发现、医疗诊断等高风险、高要求的领域，这种对模型内部机制更深刻的理解将显得尤为重要。