Vega：基于自然语言指令的驾驶学习系统

论文信息

标题: Vega: Learning to Drive with Natural Language Instructions

作者: Sicheng Zuo, Yuxuan Li, Wenzhao Zheng, et al.

发布日期: 2026-03-26

PDF链接: 下载PDF

从“看路”到“听懂话”：Vega模型如何用自然语言指令重塑自动驾驶决策

近年来，自动驾驶技术正经历一场深刻的范式转变。传统的“感知-预测-规划”流水线虽然成熟，但其决策过程如同一个“黑箱”，缺乏与人类用户的直观交互能力，更难以满足个性化的驾驶需求。想象一下，未来的自动驾驶汽车不仅能安全地从A点行驶到B点，还能理解并执行“请开得平稳些，我有点晕车”或“跟着前面那辆蓝色卡车，但保持安全距离”这样的复杂指令。这正是《Vega: Learning to Drive with Natural Language Instructions》这篇论文所瞄准的愿景。它不再将语言视为辅助的描述工具，而是将其提升为驱动整个驾驶决策过程的核心指令源，旨在构建一个能真正“听懂人话”的自动驾驶大脑。

研究背景与核心动机：从场景描述到个性化指令执行

现有的视觉-语言-动作模型在自动驾驶领域的应用，大多停留在利用语言进行场景描述或事后推理的层面。例如，模型可能会生成“前方有行人正在过马路”这样的描述，但其最终的轨迹规划模块可能并未直接、灵活地受此语言信息调控。这种模式存在两个关键局限：

交互僵化：系统无法实时响应用户在行程中发出的多样化、非预设的指令。
缺乏个性化：驾驶风格（如激进、保守）和特定情境下的需求（如寻找停车位、避开某区域）难以通过自然语言无缝集成到控制回路中。

Vega研究的核心动机，正是为了突破上述局限。其目标是开发一个统一的模型，能够将人类的自然语言指令、实时的视觉感知、对未来的预测以及最终的轨迹生成，全部融合在一个端到端的框架内。这标志着自动驾驶研究从“环境驱动”向“人机协同指令驱动”的重要演进。

核心方法解析：VLAW模型的统一与双范式协同

Vega模型的全称是Vision-Language-World-Action模型，简称VLAW。这个名字精炼地概括了其处理四大关键要素的能力：视觉、语言、世界模型（未来预测）和动作（轨迹）。其技术架构的巧妙之处在于对两种主流生成范式的协同运用。

首先，数据是基石——InstructScene数据集。 研究团队构建了一个大规模数据集InstructScene，包含约10万个驾驶场景。每个场景不仅包含传感器数据（如图像、激光雷达点云）和车辆轨迹，更关键的是被标注了多样化的驾驶指令及其对应的理想轨迹。这些指令可能涉及驾驶风格（“平稳加速”）、导航目标（“在下个路口准备左转”）、对象交互（“超过慢车”）或舒适性要求（“避开颠簸路段”）。这个数据集为模型学习“指令-轨迹”的映射关系提供了至关重要的训练素材。

其次，模型架构——自回归与扩散的“黄金组合”。 Vega采用了一种混合范式架构，针对不同模态任务的特点选择了最合适的生成方式：

对于编码与理解（视觉 & 语言）：采用自回归范式。模型像处理序列一样，依次处理视觉输入（经过编码的图像特征序列）和语言指令（文本token序列）。这种方式擅长理解和整合多模态的上下文信息。
对于生成与规划（世界模型 & 动作）：采用扩散范式。扩散模型在生成连续、高维、多模态的数据（如未来的场景状态、平滑的车辆轨迹）方面表现出色。它通过一个逐步去噪的过程，从随机噪声中生成符合指令和当前场景的合理未来预测和驾驶轨迹。

关键技术细节：

联合注意力机制：模型的核心是一个允许视觉、语言、世界状态和动作特征之间进行充分交互的注意力网络。这意味着，当处理“绕过前方障碍物”的指令时，语言特征会直接“关注”到视觉特征中的障碍物区域，并共同影响轨迹扩散模型的生成过程。
独立投影层：虽然模态间需要交互，但每种模态（视觉、语言等）在输入模型时，都通过独立的可学习投影层映射到统一的特征空间。这保留了各模态的独特性，赋予了模型更强的表达能力和灵活性。
端到端训练：整个VLAW模型是端到端联合训练的。损失函数同时考虑未来状态预测的准确性、轨迹与真实数据的匹配度，以及轨迹对语言指令的遵循程度。这使得模型内部各模块为实现共同目标而优化，而非孤立工作。

创新点与核心贡献

Vega论文的贡献是多维度的：

范式创新：首次提出了一个统一的VLAW框架，将自然语言指令深度、灵活地整合到自动驾驶的闭环决策中，推动了从“开环描述”到“闭环指令控制”的范式转变。
方法创新：创造性地将自回归范式（擅长序列理解）与扩散范式（擅长连续数据生成）相结合，为多模态决策生成问题提供了一个新颖且强大的解决方案。
资源贡献：发布了大规模的InstructScene数据集，为后续基于自然语言交互的自动驾驶研究设立了新的基准和宝贵的资源。
技术验证：通过详实的实验证明，这种指令跟随能力不仅不会损害基础驾驶性能，反而可以通过利用更丰富的人类先验知识（指令），在某些情况下实现更优、更人性化的规划。

实验结果分析

论文中的实验充分验证了Vega的有效性：

规划性能：在标准驾驶基准测试（如轨迹误差、碰撞率等指标）上，Vega达到了与先进专用规划模型相媲美甚至更优的性能。这表明引入语言指令模块并未牺牲核心驾驶能力。
指令跟随能力：这是评估的重点。研究设计了多种指令跟随测试，例如：
- 导航指令：模型能成功执行“左转”、“靠边停车”等指令。
- 风格指令：在“激进驾驶”指令下，生成的轨迹表现出更短的跟车距离和更高的加速度；在“保守驾驶”指令下则相反。
- 对象相关指令：能够执行“跟随那辆出租车”或“避开施工区域”等涉及特定场景元素的复杂指令。定量指标（如指令满足率）和定性可视化结果都表明，Vega能够准确理解并将多样化的语言指令转化为相应的驾驶行为。

实践应用建议与未来方向

对于自动驾驶研发团队的应用建议：

个性化产品开发：可以基于Vega这类框架，开发允许用户通过语音或文本自定义驾驶风格的ADAS或L3级以上自动驾驶功能。例如，“通勤模式”（效率优先）、“休闲模式”（舒适优先）或“新手模式”（极度保守）。
高效人机协同：在复杂或边缘场景（如施工区、无清晰标识的路口），安全员或远程操作员可以通过自然语言向车辆发出即时指令（如“慢慢探出头观察”），大幅提升人机协同的效率和安全性。
仿真测试与验证：利用指令驱动的模型，可以在仿真环境中快速生成海量、多样化的测试场景。测试工程师只需用语言描述危险场景（“测试一下突然有小孩从停着的车后跑出来的情况”），模型便能自动生成相应的测试用例和预期响应。
数据标注与闭环：可以构建一个系统，将人类驾驶员在接管时或事后评价时的自然语言反馈（如“刚才刹车太急了”），作为优化模型的指令数据，实现数据驱动的持续性能提升。

未来研究方向：

指令的复杂性与模糊性：当前工作处理相对清晰、具体的指令。未来需要研究如何理解更抽象、模糊或包含多重约束的指令（如“用最快但最安全的方式到达”）。
多轮对话与交互：实现与乘客的多轮对话，以澄清模糊指令、确认意图或接受动态更新的指令。
常识与推理：将更丰富的世界常识和物理推理能力融入模型，使其能理解“开到一个能晒太阳的地方停车”这类需要常识推理的指令。
安全与可解释性：必须深入研究如何确保模型不会执行危险或不道德的指令，并提升其决策过程的透明度，让用户知道“它为什么这样开”。
跨模态指令扩展：除了语言，未来可能融合手势、眼神等多模态指令，实现更自然的人车交互。

总结与展望

Vega模型代表了一条通向更智能、更人性化自动驾驶系统的清晰路径。它通过构建统一的VLAW框架，并巧妙融合自回归与扩散范式，成功地将自然语言从“旁观者”转变为驾驶决策的“指挥者”。这项研究不仅展示了指令跟随自动驾驶的技术可行性，更开辟了一个充满潜力的新研究方向——让机器以符合人类直觉和沟通习惯的方式理解并执行任务。

展望未来，随着多模态大模型技术的持续爆发，Vega所代表的“语言即接口”的思想将深刻影响整个机器人学和具身智能领域。自动驾驶汽车将成为我们第一个能够通过日常语言进行复杂、实时任务协作的智能体。从“听从指令”到“理解意图”，最终实现“默契协作”，这条路上仍有诸多挑战，但Vega已经为我们点亮了一盏关键的引路之灯。未来的出行，将不仅是空间的位移，更将是一段由自然语言所塑造的个性化、交互式体验。