大语言模型问题解决中的泛化能力：以最短路径问题为例

论文信息

标题: Generalization in LLM Problem Solving: The Case of the Shortest Path

作者: Yao Tong, Jiayuan Ye, Anastasia Borovykh, et al.

发布日期: 2026-04-16

PDF链接: 下载PDF

论文背景与研究动机：大语言模型系统化泛化之谜

近年来，大型语言模型在众多复杂任务上展现出令人惊叹的能力，但其智能的本质——尤其是能否进行系统化的推理和泛化——仍然是人工智能领域最核心、最富争议的议题之一。模型在训练数据上表现优异，但面对与训练分布稍有不同、需要组合已知技能解决的新问题时，其表现常常急剧下降。这种“系统性泛化”的失败，暴露了当前模型可能只是在执行复杂的模式匹配，而非真正理解底层逻辑。

然而，在现实世界的复杂任务中，模型性能是多种因素交织作用的结果：海量且可能隐含偏见的训练数据、多样化的训练范式（如监督微调、强化学习）、以及推理时采用的策略（如思维链、自洽性解码）。这种复杂性使得当模型失败时，研究者很难精确诊断根源：是数据覆盖不足？是训练算法有缺陷？还是推理策略不够有效？

正是为了剥离这些混杂因素，提供一个清晰、可控的“显微镜”来观察LLM的推理机制，本论文《Generalization in LLM Problem Solving: The Case of the Shortest Path》应运而生。作者选择了最短路径规划这一经典的可组合序列优化问题作为测试平台。最短路径问题具有明确的组合结构：从起点到终点的最优路径，可以通过递归地寻找中间节点的最优子路径来构建。这使其成为检验模型是否掌握系统化组合规则的理想试金石。

核心方法与技术细节：一个受控的合成实验环境

论文的核心是构建了一个高度受控的合成实验环境，旨在精确分离影响模型泛化能力的各个因素。该方法论的精妙之处在于其设计的两个正交的泛化维度：

1. 空间迁移： 模型在一个或多个特定的网格地图上训练，然后测试其在从未见过的新地图上寻找最短路径的能力。这检验的是模型能否抽象出“最短路径”的通用规则（如“避免绕远”、“选择直线”），而非仅仅记忆特定地图的解决方案。

2. 长度缩放： 模型在较小规模（例如路径长度较短）的问题上训练，然后测试其在路径长度显著增加的更大规模地图上的表现。这检验的是模型掌握的“组合操作”（一步接一步的推理）能否稳定地递归应用到更长的序列中，即其推理过程的“计算深度”。

技术实现流程如下：

问题格式化： 将网格地图（包含起点、终点、障碍物）转化为文本描述，作为模型的输入提示。例如：“你在一个5x5网格中。起点在(1,1)，终点在(5,5)。位置(2,2), (3,4)是障碍物。请输出从起点到终点的最短路径，格式为一系列坐标。”
数据生成： 使用确定性算法（如A*）为大量随机生成的网格地图生成最短路径解决方案，构成训练和测试数据集。这确保了数据标签的绝对正确性。
训练流程分离：
- 预训练/监督微调： 使用生成的（问题，解决方案）对进行训练，建立基础的问题解决能力。
- 强化学习： 在SFT模型基础上，使用结果奖励（是否找到最短路径）进行进一步优化，研究RL对稳定性和泛化的影响。
推理策略测试： 评估不同推理时策略的效果，如增加思维链的步骤、使用自洽性解码（生成多个答案并投票）等。

通过固定其他变量，单独考察模型在“空间迁移”和“长度缩放”两个轴上的表现，研究者可以清晰地定位泛化失败的根源。

创新点与贡献：揭示递归不稳定性是泛化的关键瓶颈

本论文的主要创新和贡献在于，通过简洁优雅的实验设计，得出了几个深刻且反直觉的结论，极大地深化了我们对LLM问题解决机制的理解。

核心发现：模型存在“泛化不对称性”。 实验结果表明，LLM在空间迁移上表现出色。即使面对全新的地图布局，只要路径长度与训练时相仿，模型往往能成功规划出最短路径。这说明模型确实从训练数据中学习到了一些关于空间导航和优化的抽象启发式规则。

然而，在长度缩放测试中，模型表现出了系统性且一致的失败。当问题规模（路径所需步数）超出训练范围时，模型的性能会断崖式下跌。论文将根本原因诊断为递归不稳定性。

什么是递归不稳定性？ 想象一下，解决一个长路径问题需要模型递归地应用“选择下一个最佳节点”这一基本操作。在训练中，模型只练习了短序列的递归。当面对长序列时，每一步推理产生的微小误差（例如，在某个节点稍微偏离了最优方向）不会被模型纠正，反而会在后续步骤中被累积和放大。就像走一段很长的路，开始时仅偏了一度，最终会偏离目标数公里。LLM的内部计算机制缺乏对这种累积误差的反馈和修正能力，导致其在长程推理中“迷失方向”。

对学习管道各阶段的精细分析：

数据覆盖设定能力上限： 模型的能力边界首先由其训练数据决定。如果数据中没有长路径样本，模型几乎不可能通过内插“发明”出长程推理能力。
强化学习改善稳定性，而非扩展边界： RL训练可以帮助模型更可靠地利用其已学到的知识（减少在训练分布内的错误），但它并不能赋予模型解决其从未在数据中见过的新型问题（如超长路径）的能力。RL优化的是“表现”，而非“能力天花板”。
推理时缩放治标不治本： 增大思维链长度或使用自洽性解码等技巧，可以提升模型在已有能力范围内的表现，但对于长度缩放失败这种根本性的能力缺失，这些方法无能为力。它们无法弥补组合递归机制的固有缺陷。

因此，论文的核心贡献是指出：当前LLM在系统化问题解决上的主要瓶颈，并非在于学习抽象的规则（它们在空间迁移中做到了），而在于无法可靠地、稳定地将这些规则递归应用于超出训练经验范围的、更深的计算图之中。

实验结果分析与启示

论文中的实验数据有力地支撑了上述论点。在长度缩放测试中，性能曲线通常呈现为：在接近训练分布的长度范围内，模型保持较高成功率；一旦超过某个阈值，成功率迅速下降至接近随机水平。这种突变式的下降是系统性泛化失败的典型特征，与人类那种能力随问题难度增加而逐渐下降的模式截然不同。

这一发现具有重要启示：

它解释了为何LLM在某些需要多步推理的任务（如复杂数学证明、长篇文章大纲生成）上表现不佳。 问题可能不在于它们不懂数学或写作规则，而在于其推理链无法在数十步、数百步后仍保持逻辑一致性。
它挑战了“通过扩大数据规模就能自然涌现出系统化推理能力”的假设。 论文表明，即使数据量很大，如果缺乏对“长程依赖”和“递归结构”的特定覆盖和训练，模型的泛化能力仍存在硬性天花板。
它为模型评估提供了新方向。 评估LLM的推理能力时，不能只看其在同类问题上的表现，必须设计像“长度缩放”这样的压力测试，专门考察其组合泛化的稳健性。

实践应用建议与未来发展方向

对于AI研究与开发实践：

数据构造策略： 在构建用于训练推理模型的语料时，应有意识地包含具有不同“递归深度”或“组合复杂度”的样本序列。不仅要教模型“步骤”，更要教它如何将步骤串联成任意长度的、稳定的推理链。这可能需要通过程序化方式生成阶梯式难度的问题。
模型架构探索： 当前主流的Transformer解码器架构在长序列建模上存在天然挑战（如注意力稀释、梯度消失）。需要探索更能显式支持递归和状态维持的架构，例如将外部符号记忆、循环机制或规划模块与LLM结合。
训练范式创新： 单纯的结果奖励式RL可能不够。未来需要设计能对推理过程本身进行奖励的培训方法，例如鼓励中间步骤的正确性、一致性，或者模仿搜索算法中的回溯机制，让模型学会在发现错误时进行自我修正。
评估基准建设： 应广泛建立类似本篇论文中“最短路径”的基准测试族，覆盖算法推理、逻辑演绎、多轮对话一致性等多个维度，并明确包含长度缩放、结构变化等泛化性测试。

对于量子计算与AI交叉领域的启发： 虽然本篇论文不直接涉及量子计算，但其揭示的“递归不稳定性”问题与量子算法中的误差累积有类比之处。在量子计算中，噪声和操作误差也会在深量子电路中累积。未来的“量子机器学习”或“用于AI的量子计算”研究可以思考：量子系统的高维并行性和特定量子算法（如量子搜索、量子优化）能否为模拟或解决这种长程、组合式的推理问题提供新的范式？例如，将问题映射到量子退火器的能量景观上，一次性评估所有可能路径的“代价”。

总结与展望

《Generalization in LLM Problem Solving: The Case of the Shortest Path》是一篇在方法论和洞察力上都极为出色的研究。它通过一个最小化、受控的合成问题，像手术刀般精准地剖析了影响LLM系统化泛化的关键因素，并指出了一个核心结论：当前LLM在组合性问题解决上的主要局限，是递归应用基本操作时的内在不稳定性，这导致其无法可靠地进行长度缩放泛化。

这项研究将关于“LLM是否真正理解”的哲学辩论，转化为一个可实证检验的计算问题。它告诉我们，要实现真正稳健、类人的系统化推理，我们不能仅仅满足于模型在分布内任务上的高超表现，而必须直面并攻克“长程递归”这一核心挑战。

展望未来，解决这一问题需要跨领域的努力：从设计更好的模型架构和训练算法，到构建更科学的评估基准。最短路径问题只是一个起点，它所揭示的原理将激励研究者去探索更复杂的逻辑推理、数学证明和现实世界规划任务中的泛化问题。最终目标，是开发出不仅知识渊博，而且能够像人类一样，灵活、稳定地将有限知识组合应用于无限新情境的人工智能体。