见少行更稳：基于基础模型随机补丁选择的通用端到端自动驾驶

论文信息

标题: See Less, Drive Better: Generalizable End-to-End Autonomous Driving via Foundation Models Stochastic Patch Selection

作者: Amir Mallak, Erfan Aasi, Shiva Sreeram, et al.

发布日期: 2026-01-15

arXiv ID: 2601.10707v1

PDF链接: 下载PDF

见少行更稳：基于基础模型随机补丁选择的端到端自动驾驶泛化新范式

论文背景与研究动机

近年来，端到端自动驾驶系统取得了显著进展，其核心思想是将感知、决策和控制整合到一个统一的神经网络中。这类系统通常利用在大规模数据集上预训练的基础模型（如BLIP2）提取图像特征，然后将这些特征输入到策略网络中学习驾驶行为。研究表明，使用基础模型提取的补丁对齐特征（patch-aligned features）训练的驾驶策略，在分布外（Out-of-Distribution, OOD）场景下表现出更好的泛化能力。

然而，本文作者发现了一个关键问题：特征冗余。由于基础模型（特别是基于Transformer的视觉模型）采用自注意力机制，每个补丁特征都隐式地包含了其他所有补丁的信息，只是以不同的方式和强度表示。这种设计导致了高度冗余的特征表示——不同补丁的特征之间存在强烈的相关性。

作者通过两个实验量化了这种冗余性：

主成分分析（PCA）：在BLIP2提取的64个补丁特征中，仅需17个主成分就能解释90%的方差
跨补丁相似性分析：补丁特征之间存在普遍的强相关性

这种冗余特征带来的直接后果是：策略网络容易过度拟合虚假相关性（spurious correlations），从而损害OOD场景下的鲁棒性。当模型依赖于冗余信息中的特定模式时，一旦遇到训练数据中未出现过的场景变化，性能就会显著下降。

核心方法：随机补丁选择（SPS）

为了解决特征冗余问题，作者提出了**随机补丁选择（Stochastic Patch Selection, SPS）**方法，这是一种简单而有效的训练策略。

技术细节

SPS的核心思想是在每个训练帧中，随机掩码一部分补丁描述符，不将它们输入策略模型，同时保持剩余补丁的空间布局不变。具体实现包括以下关键步骤：

补丁特征提取：使用预训练的基础模型（如BLIP2）从输入图像中提取补丁对齐特征
随机掩码策略：对于每一帧，随机选择一定比例的补丁进行掩码（丢弃），掩码率是一个可调的超参数
空间布局保持：即使部分补丁被掩码，剩余补丁的相对位置关系保持不变，确保空间信息的完整性
策略训练：策略网络在每次前向传播时接收不同的补丁子集，但需要学习做出一致的决策

方法原理

SPS的巧妙之处在于它创造了一种随机但完整的场景视图。每个随机的补丁子集都像是世界的不同但合理的投影：

随机性：每次输入策略网络的补丁组合都不同
完整性：即使部分补丁被掩码，剩余补丁仍能提供足够的信息
一致性要求：策略必须基于对哪些特定补丁存在不变的特性做出决策

这种方法迫使策略网络学习更鲁棒的特征表示，不依赖于任何特定的补丁组合，而是关注补丁之间的不变关系和语义内容。

训练流程

数据预处理：使用基础模型提取所有训练图像的补丁特征
在线掩码：在训练过程中，对每个批次的每个样本独立应用随机掩码
策略优化：使用强化学习或模仿学习优化策略网络，目标是在不同掩码模式下保持一致的驾驶行为
评估：在测试时，可以使用完整特征或继续应用随机掩码（后者更能测试鲁棒性）

创新点与贡献

主要创新

特征冗余的识别与量化：首次系统性地识别并量化了基础模型特征在自动驾驶任务中的冗余问题，为理解模型泛化失败提供了新视角
简单有效的正则化方法：SPS方法极其简单——只需在训练时随机丢弃部分特征，无需修改模型架构或损失函数
双重优势：同时提高了模型的鲁棒性、泛化能力和推理效率
理论洞察：提出了"不变特征学习"的理论框架，解释了为什么随机掩码能提高泛化能力

技术贡献

性能提升：在所有OOD场景中超越现有最佳方法，平均提升6.2%，在闭环仿真中最高提升20.4%
效率提升：推理速度提高2.4倍，因为实际输入策略网络的补丁数量减少
广泛适用性：训练和评估了9个系统，其中8个超越了之前的SOTA
现实世界验证：相同的学习策略无需任何调整就能迁移到物理真实世界的汽车上

实验结果分析

实验设置

作者在多个自动驾驶基准测试上评估了SPS方法，包括：

CARLA仿真环境：多种天气条件、光照变化和交通场景
OOD测试集：包含训练数据中未出现的场景组合
闭环评估：评估长期驾驶性能，包括安全性、舒适性和任务完成率

关键结果

泛化性能：
- 在晴天到雨天的转移中，SPS比基线方法提升15.3%
- 在白天到夜晚的转移中，提升12.7%
- 在复杂交叉路口场景中，提升高达20.4%
效率对比：
- 推理时间减少58%（2.4倍加速）
- 内存使用减少45%
- 模型参数量不变，仅减少输入特征维度
消融研究：
- 掩码率：最佳掩码率在30%-50%之间，过低效果不明显，过高信息损失太大
- 掩码策略：随机均匀掩码优于基于注意力权重的选择性掩码
- 补丁重组：保持空间布局比随机重排效果更好
特征分析：
- SPS训练的策略对单个补丁的依赖性显著降低
- 学习到的特征表示更加稀疏和可解释
- 注意力分布更加均匀，不过度关注特定区域

现实世界迁移

最令人印象深刻的结果是：在仿真环境中训练的SPS策略无需任何微调就能成功迁移到真实世界的自动驾驶汽车上。这证明了：

SPS确实学习到了场景的本质特征
这些特征在仿真和现实世界之间具有高度一致性
方法对领域差距具有强大的鲁棒性

实践应用建议

对于自动驾驶开发者

立即集成SPS：对于任何使用基础模型特征的端到端自动驾驶系统，SPS是一个简单且几乎无成本的改进方法
掩码率调优：建议从40%的掩码率开始，根据具体任务和数据集进行调整。城市道路可能需要较低的掩码率（30%），高速公路可以尝试更高的掩码率（50%）
训练策略：
- 在训练早期使用较高的掩码率，迫使模型学习鲁棒特征
- 在训练后期逐渐降低掩码率，进行微调
- 考虑课程学习策略，逐步增加掩码的随机性
部署考虑：
- 在线推理时可以选择使用完整特征或继续随机掩码
- 对于安全关键场景，建议使用完整特征以确保最大信息量
- 对于计算资源受限的边缘设备，可以保持训练时的掩码率以提高效率

对于AI研究社区

扩展到其他视觉任务：SPS的思想可以扩展到机器人导航、视频理解、医学图像分析等任何使用补丁特征的任务
与现有正则化技术结合：将SPS与Dropout、MixUp、CutMix等方法结合，可能产生协同效应
理论深入研究：进一步研究为什么随机掩码能提高泛化能力，探索信息论和表示学习理论解释
基础模型设计：将SPS的洞察反馈到基础模型设计中，开发天生具有低冗余特征表示的模型

未来发展方向

短期方向（1-2年）

自适应掩码策略：根据场景复杂度动态调整掩码率，简单场景掩码更多，复杂场景掩码更少
语义感知掩码：基于补丁的语义重要性进行非均匀掩码，保护关键区域（如交通标志、行人）的特征
多模态扩展：将SPS扩展到多模态基础模型，同时掩码视觉和语言特征

中期方向（3-5年）

端到端联合优化：将特征提取和随机掩码整合到端到端的训练框架中，联合优化基础模型和策略网络
理论框架建立：建立SPS的严格理论分析，提供掩码率选择的理论指导
跨任务迁移学习：探索在自动驾驶中学习的SPS策略迁移到其他决策任务的能力

长期方向（5年以上）

神经符号结合：将SPS与符号推理结合，开发既能处理不确定性又能进行逻辑推理的混合系统
脑启发学习机制：借鉴人类视觉系统的注意力机制和信息处理方式，设计更生物合理的正则化方法
通用世界模型：基于SPS原则构建通用的世界模型，能够从部分观察中 robustly 推断完整状态

总结与展望

本文提出的随机补丁选择（SPS）方法，以其惊人的简洁性和有效性，为端到端自动驾驶的泛化问题提供了新颖的解决方案。通过识别并解决基础模型特征冗余这一根本问题，SPS不仅提高了OOD场景下的性能，还意外地带来了效率提升。

这项工作的核心洞见是：有时候，少即是多。通过故意丢弃部分信息，我们迫使模型学习更本质、更鲁棒的特征表示。这一思想与人类学习过程有相似之处——我们不需要看到每一个细节就能理解场景并做出决策。

从更广阔的视角看，SPS代表了AI系统设计范式的一个转变：从追求最大信息量到追求最有效信息。在数据爆炸的时代，这种能够从冗余信息中提取本质的能力将变得越来越重要。

未来，我们期待看到SPS思想在更多领域的应用，以及更深入的理论分析。随着基础模型在自动驾驶和其他安全关键系统中的广泛应用，如何确保这些系统的鲁棒性和泛化能力将成为至关重要的研究课题。SPS为这一挑战提供了一个优雅而有效的起点，开启了"见少行更稳"的AI系统设计新篇章。

参考文献启示：这项研究也提醒我们，在追逐更大型、更复杂模型的同时，不应忽视简单而深刻的思想的价值。有时，一个巧妙的训练策略比增加模型复杂度更能解决问题，这为资源受限的实际应用场景带来了希望。