花得更少，拟合得更好：通过主动实验选择实现预算高效的缩放定律拟合

论文信息

标题: Spend Less, Fit Better: Budget-Efficient Scaling Law Fitting via Active Experiment Selection

作者: Sijie Li, Shanda Li, Haowei Lin, et al.

发布日期: 2026-04-24

PDF链接: 下载PDF

论文背景与研究动机

在大规模深度学习训练中，缩放定律（Scaling Laws）已成为制定数千万美元级别训练计划的核心工具。这些定律描述了模型性能如何随着模型规模、数据量和计算预算的增加而变化。然而，准确拟合这些缩放定律本身就需要高昂的代价：为了获得足够的信息来预测超大模型的性能，研究者通常需要先进行大量小规模实验作为“先导实验”，而这些实验的累积计算成本往往高达数百万美元。

这一现实困境在当前的超大模型开发流程中被严重忽视。传统做法将先导实验视为一个标准的预处理步骤，假设我们可以无限制地获取足够多的训练运行数据。但在真实场景中，每次运行（例如训练一个不同规模的模型）的预算差异巨大，而且总的可用预算是有限的。关键问题变成：如何在有限的总预算下，从一组可用但成本各异的候选实验中，按顺序选择最优的实验来执行，使得最终能够最准确地外推（extrapolate）到高成本目标区域（如训练一个千亿参数的模型）的性能。

该论文正是针对这一痛点，将缩放定律的拟合问题重新形式化为“预算感知的序贯实验设计”（Budget-Aware Sequential Experimental Design）。核心思想是：不要盲目地跑所有可能的先导实验，而是动态地、根据当前已有的实验信息，主动选择那些最能减少目标区域外推不确定性的实验。这种思路将预算从被动消耗转变为主动投资，追求每一分计算资源都花在“刀刃”上。

核心方法：预算感知的序贯实验设计

论文提出的方法基于不确定性感知（Uncertainty-Aware）的采集函数。假设我们有一个候选实验池 $\mathcal{E}$ ，其中每个实验 $e$ 包括一组可控变量（如模型参数量 $N$ 和数据量 $D$ ），并对应一个已知的计算成本 $c(e)$ 。目标区域是某个高成本的配置 $(N_{\text{target}}, D_{\text{target}})$ ，我们希望预测该配置下的损失值 $L$ 。总实验预算为 $B$ 。

该方法从一个初始的小规模实验集合开始（可以采用简单的随机采样或基于先验的采样），然后迭代执行以下步骤：

拟合概率模型：利用已执行的实验数据，拟合一个概率缩放定律模型，通常为参数化形式： $L(N, D) = A N^{-\alpha} + B D^{-\beta} + E$ 其中 $A, B, E, \alpha, \beta$ 是待拟合的参数。为了捕捉不确定性，论文采用贝叶斯推断（如通过拉普拉斯近似或马尔可夫链蒙特卡罗方法）得到参数的后验分布 $p(\theta | \mathcal{D})$ 。
计算采集函数：对于候选池中的每个实验 $e$ ，计算其“信息价值”。采集函数被设计为执行该实验后期望减少目标区域预测误差的程度。具体而言，定义目标区域的预测分布 $p(L_{\text{target}} | \mathcal{D})$ ，并度量其不确定性（如方差）。执行实验 $e$ 后，我们预期会得到新的观测 $y_e$ （虽然目前未知），可以计算后验分布的期望不确定性减少量。常见的选择标准是最大化期望信息增益（Expected Information Gain, EIG）或最小化期望后验方差。论文采用了基于贝叶斯最优实验设计的思路，但针对高成本目标区域做了特殊加权，确保采集函数更重视改善目标区域的外推能力，而非全局拟合精度。
选择实验并执行：选择采集函数值最高且当前预算允许的实验，执行该次运行，获取真实训练损失，将新数据加入 $\mathcal{D}$ 。
重复直至预算耗尽：循环上述步骤，每次迭代都基于最新的数据重新拟合模型并重新计算采集函数，实现自适应实验分配。

这种方法的精髓在于，它不是一次性设计所有实验，而是利用已获得的信息，动态调整后续选择，使得有限预算始终流向最有价值的方向。

技术细节与实现

在实现层面，有几个关键技术细节值得深入探讨。

缩放定律的参数化与贝叶斯拟合：论文采用了标准的幂律衰减形式，但注意到参数之间的非线性强相关性。为了可靠地进行贝叶斯推断，他们使用了拉普拉斯近似来近似后验分布，这种方法计算效率高，适合在每次迭代中快速更新。先验分布通常基于领域知识设定，例如 $\alpha, \beta$ 被约束在 0 到 1 之间，截距项 $E$ 对应不可约损失，先验可设为接近 0 的正值。

采集函数的具体形式：论文提出的采集函数名为“Targeted Expected Information Gain”（TEIG），它在标准 EIG 的基础上加入了对目标区域的关注。标准 EIG 衡量实验对整体参数不确定性的减少，但 TEIG 直接计算实验对于 $L_{\text{target}}$ 预测的方差减少量的期望： $\text{TEIG}(e) = \mathbb{E}_{p(y_e | \mathcal{D})} \left[ \text{Var}[L_{\text{target}} | \mathcal{D}] - \text{Var}[L_{\text{target}} | \mathcal{D} \cup \{(e, y_e)\}] \right]$ 其中期望是对当前模型预测出的 $y_e$ 的分布求取。这种方式天然引导预算向那些能最大程度降低目标区域预测波动的实验倾斜。

处理异质预算成本：候选实验的成本各不相同，单纯比较信息增益可能会导致选择信息量大但极其昂贵的实验，反而浪费预算。为此，采集函数除以成本 $c(e)$ 得到“单位成本信息增益”，并进行归一化。实践中，可以采用一个贪心策略：在每一步，选择 TEIG $/c(e)$ 最大的实验，只要执行后总预算不超过 $B$ 。

冷启动与批量选择：在初始没有任何数据时，论文推荐使用基于拉丁超立方采样的方式选择一小批低成本实验启动流程。对于需要并行提交实验的情况，可以通过 Kriging Believer 策略：先假设尚未执行但已选中的实验的观测值为当前模型预测值，然后基于这个伪更新后的模型再计算下一个采集点，从而得到一批实验。

创新点与主要贡献

这项工作将缩放定律拟合这一工程问题提升到了科学层面，其核心创新体现在以下三个方面：

首次将预算约束下的序贯实验设计引入缩放定律研究。传统做法或是固定一组规则（如均匀采样不同模型大小），或只是事后分析数据利用率，但从未将“如何花钱跑实验”本身作为优化对象。该论文直接挑战了“多跑实验总没错”的惯性思维。
提出针对外推任务的特化采集函数 TEIG。标准实验设计方法（如 D-optimality 或 IMSE）追求全局拟合精度，但在缩放定律场景中，我们往往只关心一个或几个超大配置点的预测。TEIG 将有限资源集中用于提升目标区域的外推可靠性，显著提高了预算效率。
构建了多样化的基准测试，并系统比较了多种基线方法，包括随机采样、基于模型的均匀采样、标准贝叶斯实验设计等。结果一致表明，所提方法在低预算比例下就能逼近全量数据拟合的性能，而传统方法需要数倍预算才能达到同等效果。

实验结果分析

论文在一系列合成和真实的缩放定律任务上进行了验证，模型覆盖了语言模型和视觉模型等不同架构。实验设置了一个总的候选实验池，包含各种 $(N, D)$ 组合，每个组合的成本基于训练浮点运算数（FLOPs）进行估算，范围从极低到极高。目标区域通常是超大规模配置。

关键发现包括：

在仅使用总预算 10% 左右的条件下，主动选择方法所拟合的缩放定律在目标区域的预测误差，已与使用全部实验数据拟合的结果非常接近，而传统方法（如随机采样）需要 50% 甚至更多预算才能达到同等精度。
随着预算的增加，主动方法的外推误差单调下降且收敛极快，显示出良好的样本效率。
消融研究表明，采用基于目标区域方差的 TEIG 远比基于参数不确定性的一般采集函数（如最大化参数熵减少）更有效，这验证了特化设计的必要性。
在异质成本场景中，单位成本归一化的采集策略确保了不会仅仅因为实验便宜而过多采样，而是真正平衡信息与成本。

这些结果清晰地传递出一个信息：在规划大规模训练时，不应该盲目执行教科书式的先导实验列表。通过智能选择和动态调整，可以用极少的花费构建出几乎同等质量的缩放预测，从而将节省下来的资源投入到更有价值的探索中。

实践应用建议与未来发展方向

对于从事大规模模型训练的团队，该研究提供了极具操作性的实践指导：

引入预算意识：在启动任何训练之前，将候选实验视为一个投资组合，评估每个实验对最终目标（如预测超大模型性能）的信息贡献与其成本之比。不要默认跑满所有规模点。
实施序贯策略：放弃一次性设计全部实验的方案。先从少量低成本实验开始，快速构建初始模型，然后利用采集函数指导后续实验的选择。这样在预算消耗过程中，信息积累呈超线性增长。
定制不确定性指标：根据业务目标定义关键预测点，并将这些点的预测方差作为实验价值的衡量标准。如果是为多个目标点（不同规模的模型）做决策，可以取加权平均或考虑最坏情况。
利用已有工具：作者已将代码开源（GitHub: PlanarG/active-sl），团队可以基于此框架适配自己的成本模型和候选池，快速部署预算高效的实验策略。

展望未来，这一方向仍有几个值得深入探索的课题：

多维缩放定律的扩展：目前的缩放定律主要考虑模型规模和数据量，但实际中还有架构形状、训练超参数等更多维度。如何在更高维空间中高效地进行预算分配将是挑战。
非稳态外推和安全性：当缩放定律在目标区域出现弯曲或平台期时，基于简单幂律的预测可能失败。未来需要融合更灵活的函数形式（如 broken neural scaling laws）并纳入模型失配的不确定性。
与多保真度优化的结合：可以将低成本实验视为低保真度评估，将高成本实验视为高保真度评估，利用多保真贝叶斯优化方法联合搜索最优配置和缩放定律拟合。
从被动实验选择到主动实验生成：现有的方法局限于从预设的候选池中选择，未来可以思考直接生成最优的（甚至尚未预设的）实验配置，实现真正的连续空间实验设计。

总结与展望

该论文以“花更少的预算，获得更好的拟合”为中心，提出了一个新颖而实用的预算感知主动实验选择框架，解决大规模深度学习缩放定律拟合中的资源浪费问题。通过将实验执行视为一种投资决策，并用不确定性引导的序贯分配替代传统固定采样，该方法显著提升了预算效率。在多项基准测试中，仅需全量预算的一成左右即可逼近理想拟合效果，展示出巨大的实用潜力。

这项工作不仅为缩放定律领域提供了新工具，也为整个需要昂贵实验的科学发现过程提供了方法论启示。随着模型规模持续攀升，训练成本将继续膨胀，对预算的精细化管理将成为核心竞争力。从“能做多少实验就做多少”转向“用最少的实验获取最大的信息”，正是本文倡导的范式转变。未来随着自适应实验设计技术与可扩展概率建模的深度融合，我们有望看到更多类似的智能实验系统，让人工智能研发自身变得更高效、更经济。