← 返回首页

arXiv: 2604.21927v1

论文信息

标题: Fine-Tuning Regimes Define Distinct Continual Learning Problems

作者: Paul-Tiberiu Iordache, Elena Burceanu

发布日期: 2026-04-23

arXiv ID: 2604.21927v1

PDF链接: 下载PDF

背景与研究动机

持续学习(Continual Learning,CL)旨在解决这样一个难题:模型需要依次学习多个任务,同时不能遗忘之前已掌握的知识。近年来,大量研究致力于设计抗遗忘的算法,并对这些方法在各种基准上进行评测。然而,评测体系的统一性一直受到忽视:几乎所有的对比实验都在一个固定不变的微调机制下进行,例如只微调最后几层,或者微调全部网络参数。本文的作者敏锐地指出,这种被长期忽略的实验变量——可训练参数构成的子空间,即微调机制——本身就可能是影响算法相对优劣的关键因素,而不仅仅是评测背景。

这一洞见的理论根源来自对梯度更新的几何视角。持续学习中的参数更新可以看作是在某个固定子空间中的投影优化过程。例如,如果只允许更新分类层,则梯度流被约束在一个低维子空间;若允许更新全部骨干网络,则梯度流可以遍布整个参数空间。不同的子空间改变了模型对当前任务数据的拟合能力,同时也改变了它对先前任务知识的扰动幅度。因此,同一组持续学习方法在不同微调机制下可能会展现出截然不同的性能排序。如果研究者仅关注单一机制下的比较,就可能得出片面甚至错误的结论,从而误导算法的设计与选择。

基于这一思考,论文构建了一个统一的框架来形式化微调机制,并提出了一个核心假设:在持续学习中,方法的相对排名并不具有跨微调机制的不变性。通过在五种不同的可训练深度设置、五个标准数据集以及多种任务顺序下对四种代表性持续学习方法(在线EWC、LwF、SI、GEM)进行系统性评测,该研究验证了这一假设,并进一步揭示了深度机制与遗忘程度之间的内在联系。

核心方法:将微调机制形式化为投影优化

论文的核心技术贡献在于将“微调机制”这一模糊的实验选择精确地定义为一个数学对象。作者将模型的全部参数空间记为 Θ\Theta,将实际参与更新的可训练参数子空间记为 S\mathcal{S}。持续学习的目标函数通常可以分解为当前任务的损失 Lcurr\mathcal{L}_{\text{curr}} 以及保护旧知识的正则项 R\mathcal{R},总损失为 L=Lcurr+λR\mathcal{L} = \mathcal{L}_{\text{curr}} + \lambda \mathcal{R}。在标准的梯度下降框架下,参数更新由 θθηθL\theta \leftarrow \theta - \eta \nabla_\theta \mathcal{L} 给出,其中 η\eta 为学习率。然而,当限定在子空间 S\mathcal{S} 中进行训练时,有效的更新方向不再是全梯度 θL\nabla_\theta \mathcal{L},而是该梯度在 S\mathcal{S} 上的投影:

θθηPS(θL).\theta \leftarrow \theta - \eta \, P_{\mathcal{S}} \big(\nabla_\theta \mathcal{L}\big).

这里 PSP_{\mathcal{S}} 是一个线性投影算子,将所有梯度分量中不属于 S\mathcal{S} 的部分直接置零。例如,若 S\mathcal{S} 只是最后一层参数的集合,则只有最后一层的梯度非零,骨干网络的梯度被完全屏蔽;若 S\mathcal{S} 是整个参数空间,则 PSP_{\mathcal{S}} 退化为恒等映射,更新等同于全微调。

这一投影操作深刻地改变了梯度的有效信号。可以将全梯度分解为两个正交分量:一部分驱动当前任务的拟合,另一部分则可能冲击旧任务的知识。子空间 S\mathcal{S} 的选择相当于对这两个分量进行加权筛选。当 S\mathcal{S} 维度较低(如只微调分类头)时,高维骨干网络中的大部分与任务相关的特征保持不变,知识保留天然得到强化,但同时学习新任务的能力受到限制。反之,当 S\mathcal{S} 包含整个骨干网络时,模型拥有充分的学习自由度,但旧知识更容易被覆盖。因此,微调深度本质上决定了当前任务拟合能力过去知识保留能力之间的内在权衡。

基于这一形式化,论文进一步分析了梯度更新的幅度。将第 tt 步的参数变化记为 Δθt=ηPS(Lcurr,t+λRt)\Delta \theta_t = -\eta P_{\mathcal{S}} (\nabla \mathcal{L}_{\text{curr},t} + \lambda \nabla \mathcal{R}_t),其范数 Δθt\|\Delta \theta_t\| 可以视为模型行为波动的一个直接度量。更深的可训练深度通常会导致 Δθt\|\Delta \theta_t\| 显著更大,因为更大的搜索空间允许单步更新产生更大的方向性变化。这种较大的更新幅度会加剧对先前任务所学特征的破坏,从而导致更严重的灾难性遗忘。框架由此预言了一个可检验的关系:深度机制与更新幅度正相关,且更新幅度与遗忘程度正相关

创新点与贡献

这篇论文的贡献并不在于提出一种新的持续学习算法,而在于对评测方法论做出了深刻反思。其创新点主要体现在以下三个方面:

  1. 将微调机制提升为一级评估变量:第一次系统地将可训练参数子空间的选择作为一个实验因素,并指出它是与学习方法、数据集同等重要的变量。在此之前,大多数工作默认采用某种固定机制(如全微调或只微调最后若干层),而忽略了机制本身对结论的影响。论文通过形式化投影优化框架,阐明了微调深度如何数学地介入到更新信号中,为这一变量赋予了清晰的优化理论基础。

  2. 揭示了方法排名的非不变性:通过大规模实验设计——五种训练深度、四种经典方法、五个数据集、每种数据集11个随机任务顺序——作者发现,在一种深度下表现最优的方法,切换到另一种深度时可能不再保持领先。例如,某些正则化方法(如在线EWC)在浅层微调时由于能够有效保护骨干网络中的通用表征而表现突出,但在深层全微调时则可能因为约束力不足而被基于回放或投影的方法超越。这一发现直接挑战了持续学习领域内“方法X普遍优于方法Y”的简单结论,提示研究者必须将微调机制作为变数纳入考虑。

  3. 建立了深度、更新幅度与遗忘之间的因果关系:实验结果表明,随着可训练层数的增加,参数更新幅度单调递增,同时任务遗忘率也随之上升。更重要的是,在不同深度机制下,更新幅度与遗忘之间的相关系数显著增强。这为理解遗忘的动力学过程提供了一个可量化的中间变量,也为未来通过控制更新幅度来缓解遗忘提供了理论依据。

实验结果分析

实验设计采用了任务增量学习场景,将每个数据集划分为多个不相交的任务依次训练。微调机制通过控制可训练层的深度来定义:仅训练分类头、训练最后1层、最后2层、最后3层以及训练全部网络层,共计五种机制。参与比较的方法包括在线弹性权重巩固(EWC)、无遗忘学习(LwF)、突触智能(SI)和梯度片段记忆(GEM),这些方法分别代表了基于正则化、知识蒸馏和约束优化的主流技术路线。

在MNIST、Fashion MNIST、KMNIST、QMNIST等小规模图像数据集上,浅层微调(仅训练分类头或最后一层)往往使得所有方法都表现出较低的平均遗忘率,且方法之间的性能差异较小。随着可训练深度增加,遗忘率系统性地上升,方法之间的差距被放大。此时,基于记忆或梯度投影的GEM在某些深度下表现出更强的抗遗忘能力,而EWC和SI这类依赖参数重要性估计的方法,其估计的准确性在高维搜索空间中可能降低,导致保护效果减弱。在CIFAR-100这类更具挑战性的数据集上,趋势更加明显:全微调机制几乎使所有方法都面临大幅遗忘,但GEM依靠保留的旧任务样本能够在更新投影时施加硬约束,从而在高遗忘环境中展现出相对稳健性。

一个关键发现是,方法排名的反转不仅在平均意义上发生,而且随着任务顺序的改变而波动。论文对每个数据集生成了11种不同的任务顺序,结果表明即使在同一深度下,不同方法对任务顺序的敏感度也不同,而深度的切换会进一步扰乱排名的稳定性。这说明单一、固定顺序的评测同样可能产生误导性结论。因此,作者呼吁建立机制感知的评估协议,即将可训练深度作为显式实验因子,并报告其不同水平下的性能变化,从而提供更全面、更可信的比较。

实践应用建议与未来方向

基于上述发现,可以为持续学习的研究者和实践者提炼出几条明确的行动指南:

  • 多机制评测成为标准:在设计或比较持续学习算法时,不应仅在单一微调深度下进行,而应当至少包含浅层(如仅头部)、中等深度和全微调三种机制。报告中应明确列出每种机制下的性能指标,使结论对机制具有鲁棒性。
  • 更新幅度作为监控指标:训练过程中可以记录参数更新的范数,尤其是其在新任务与旧任务方向上的投影分量。若发现更新幅度随着学习过程异常增大,可能预示着即将发生严重遗忘,此时可考虑动态调整学习率或可训练参数范围。
  • 机制选择应与部署场景匹配:如果实际应用要求快速适应少量新类且数据稀缺,浅层微调可能是更安全的选择,因为它天然保留了大部分预训练知识。反之,若任务分布差异大且需要彻底重排特征,更深的微调必不可少,此时应优先考虑带有强记忆或约束机制的方法。

未来研究可以沿着以下方向深入:第一,发展自适应微调机制,即模型能够根据任务间的相似度自动决定哪些层应当保持冻结、哪些层应当开放训练,从而在容量与稳定性之间取得动态平衡。第二,从投影优化的理论角度,探索更复杂的子空间约束形式,例如通过低秩适配(LoRA)或结构稀疏性来获得介于全微调和浅层微调之间的连续谱,并在该谱上分析遗忘行为的相变。第三,将微调机制的视角推广到更多类型的持续学习设定,如领域增量学习和在线持续学习,并检验其在自然语言处理、强化学习等领域的适用性。

总结与展望

这篇论文以清醒的元视角审视了持续学习领域中一个被广泛忽略但至关重要的实验变量——微调机制。通过将其形式化为固定参数子空间上的投影优化,作者不仅提供了理论解释,还通过大量实验证明方法的相对优势在不同深度下并不守恒。更深层次的微调通常带来更大的更新幅度和更严重的遗忘,且两者的正相关关系随着深度增加而强化。这些发现提醒我们:持续学习的进步不能只依赖于新算法的发明,评测协议的科学性同样不可或缺。只有当我们将可训练子空间作为一级实验因素纳入规范,才能真正揭示各类方法的适用边界,从而推动构建更可靠、更鲁棒的持续学习系统。