《驶向我的路：视觉-语言-动作模型在个性化驾驶中的偏好对齐》

论文信息

标题: Drive My Way: Preference Alignment of Vision-Language-Action Model for Personalized Driving

作者: Zehao Wang, Huaide Jiang, Shuaiwu Dong, et al.

发布日期: 2026-03-26

PDF链接: 下载PDF

论文背景与研究动机：从通用驾驶到个性化驾驶的范式转变

当前，以端到端学习为代表的自动驾驶系统正经历快速发展。这些系统通常通过海量数据训练，旨在优化一个“通用”的驾驶目标，例如安全、效率和舒适性。然而，这种“一刀切”的模式忽略了一个核心事实：驾驶行为是高度个性化的。不同的驾驶员在加速、刹车、变道、超车等操作上存在显著差异，这些差异由长期形成的驾驶习惯和短期意图共同塑造。例如，有的驾驶员偏好激进、高效的驾驶风格，而有的则崇尚平稳、保守。

现有的解决方案，如预设“经济模式”、“运动模式”或“舒适模式”，虽然提供了一定选择，但仍然是离散且固化的，无法精确匹配特定用户的习惯，更无法理解用户通过自然语言表达的即时意图（如“开得稳一点”、“跟紧前车”）。这种个性化能力的缺失，不仅影响用户体验和接受度，也可能导致系统行为与人类预期不符，从而引发信任危机。

因此，如何让自动驾驶系统像人类一样，既能理解并模仿特定用户的长期驾驶风格，又能响应其实时语言指令，实现真正的“人车合一”，成为了一个关键的研究前沿。论文《Drive My Way: Preference Alignment of Vision-Language-Action Model for Personalized Driving》正是针对这一挑战提出的创新性解决方案。其核心动机是构建一个能够对齐（Align）用户长期偏好与短期意图的视觉-语言-动作模型，推动自动驾驶从“通用智能”向“个性化智能”演进。

核心方法：Drive My Way (DMW) 框架详解

DMW框架的核心思想是将长期个性化嵌入与短期语言指令相结合，共同引导驾驶策略的生成。整个系统是一个端到端的视觉-语言-动作模型，其输入是车载传感器（主要是摄像头）的视觉序列和用户的自然语言指令，输出是车辆的控制动作（如转向、油门、刹车）。

1. 个性化驾驶数据集的构建

个性化学习的基础是数据。研究团队收集了一个多驾驶员、多场景的个性化驾驶数据集。该数据集不仅包含传统的感知信号（图像、激光雷达等）和车辆状态，更重要的是，它为每一位驾驶员记录了其在不同驾驶情境下的行为轨迹。这意味着系统可以学习到“驾驶员A在高速匝道汇入时通常倾向于较早加速”，而“驾驶员B在同样情况下则更为谨慎”。这个数据集是DMW能够区分和模仿不同驾驶风格的关键。

2. 用户嵌入向量的学习

这是实现长期个性化模仿的核心技术。DMW框架包含一个用户编码器。在训练阶段，该编码器会处理来自特定驾驶员的历史驾驶片段，学习并压缩其独特的驾驶模式，生成一个低维的、可表征该驾驶员习惯的用户嵌入向量。这个向量可以被视为该驾驶员的“数字指纹”或“驾驶DNA”，它编码了其加速曲线、跟车距离、变道风格等微观行为特征。

数学上，对于驾驶员 $u$ ，其嵌入向量 $e_u$ 通过优化以下目标学习得到：使得策略网络 $\pi(a_t | o_t, e_u)$ 生成的行动 $a_t$ 尽可能接近驾驶员 $u$ 在观测 $o_t$ 下的真实行动。这里， $o_t$ 代表t时刻的环境观测。

3. 基于语言指令的短期条件控制

为了响应用户的实时意图，DMW集成了一个语言编码器（如预训练的CLIP或BERT文本编码器）。用户通过自然语言发出的指令（如“请开得平稳些”、“我们需要赶时间”）被编码成一个指令嵌入向量 $e_{inst}$ 。这个向量代表了当前时刻用户希望系统临时调整的方向。

4. 多模态融合与策略生成

DMW的“大脑”是一个多模态策略网络。在推理（即实际驾驶）时，该网络接收三部分输入：

视觉特征：来自图像编码器的当前及历史环境感知信息。
长期用户嵌入 $e_u$ ：指定“这是为谁开车”。
短期指令嵌入 $e_{inst}$ ：指定“此刻想怎么开”。

策略网络通过注意力机制或特征拼接等方式融合这些异构信息，最终生成符合“特定驾驶员习惯”且“满足当前指令要求”的控制动作。其决策过程可以抽象为： $\pi(a_t | o_t, e_u, e_{inst})$ 。

这种方法巧妙地将模仿学习（从用户数据中学习习惯）与指令跟随（理解并执行语言命令）统一在一个框架内，实现了长期偏好与短期意图的对齐。

创新点与核心贡献

首次系统性地提出并实现个性化VLA驾驶框架：将视觉、语言、动作三大模态在个性化驾驶的语境下深度融合，为“可解释、可交互、可定制”的自动驾驶开辟了新路径。
长期习惯与短期意图的双重对齐：通过分离“用户嵌入”和“指令嵌入”，模型清晰地区分并融合了驾驶行为中相对稳定的个性成分和动态变化的意图成分，这比单一的目标函数或固定模式更符合人类驾驶的本质。
构建并开源个性化驾驶数据集：该数据集是领域内重要的基础资源，为后续个性化驾驶研究提供了宝贵的基准。数据集的多样性（多驾驶员、多条件）确保了模型的泛化能力。
闭环评估与用户研究相结合的评价体系：论文不仅在Bench2Drive仿真基准上进行了严格的闭环性能测试，还通过真实的用户研究，让人类来评判生成行为与驾驶员风格的匹配度，验证了其个性化的有效性，体现了“以人为中心”的研究理念。

实验结果分析

论文在Bench2Drive基准上进行了全面的闭环评估，并辅以用户研究，结果有力地支撑了其主张。

风格指令适应能力：实验表明，DMW在响应“开得更激进”或“开得更保守”等风格指令时，其性能提升显著优于基线模型。例如，当接收到“激进”指令时，DMW能有效提升平均车速和变道效率，同时保持安全性；接收到“保守”指令时，则能增加跟车距离、减少急加速/急刹车。这证明其语言指令模块是有效且可操作的。
个性化行为识别度：用户研究是论文的亮点。研究者让真人驾驶员观看DMW及其它模型生成的驾驶视频，并判断视频中的行为更像哪位特定驾驶员。结果显示，DMW生成的行为被参与者识别为对应驾驶员自身风格的概率显著更高。这一主观评价直接证实了DMW学到的“用户嵌入”确实捕捉到了人类可感知的、独特的驾驶特征。
安全与效率的平衡：在实现个性化和响应指令的同时，DMW在碰撞率、交通规则遵守率等核心安全指标上并未出现退化，表明其个性化是在安全边界内的合理调整。

实践应用建议与未来发展方向

对人工智能与自动驾驶领域的实践建议

数据驱动的个性化产品设计：车企和自动驾驶公司应考虑构建用户驾驶画像系统。通过获得用户授权，在安全合规的前提下收集脱敏驾驶数据，为每位用户训练或微调其专属的驾驶策略嵌入，作为高端车型的差异化卖点。
自然语言成为新的人机交互接口：DMW展示了自然语言作为控制接口的巨大潜力。未来车载AI助手不应仅限于娱乐和导航，应深度集成到驾驶决策环中，实现“说说话就能调整驾驶风格”的直观交互。
渐进式个性化与信任建立：初期可让系统在“通用安全模式”下运行，同时默默学习用户习惯。当系统置信度达到一定阈值后，再逐步、透明地向用户提供个性化选项，并允许用户通过语言反馈进行微调，以此建立信任。

未来研究方向

跨领域个性化泛化：当前模型在训练数据覆盖的场景和驾驶员范围内表现良好。未来的挑战是如何让模型快速适应一个全新的、数据稀少的驾驶员，或泛化到从未见过的城市道路场景。这可能涉及元学习、少样本学习或基于大语言模型的零样本推理。
个性化与安全、伦理的博弈：如果用户的习惯本身存在风险（如习惯性超速、跟车过近），系统应如何在尊重个性与坚持安全原则之间取得平衡？需要建立一套可解释的、符合伦理的个性化约束规则。
多模态指令的扩展：除了语言，未来系统是否可以理解手势、表情甚至生理信号（如驾驶员疲惫时的哈欠）作为调整驾驶模式的指令？这将使个性化感知更加全面。
与大型基础模型的结合：利用视觉-语言大模型强大的场景理解和推理能力，来提升对复杂指令（如“避开前面那辆开得摇摇晃晃的车”）的理解，以及在高风险场景下对个性化行为安全性的解释能力。

总结与展望

《Drive My Way》这篇论文标志着自动驾驶研究向更深层次的人本主义迈出了坚实的一步。它不再满足于制造一个“完美的标准化司机”，而是致力于打造一个“懂你的驾驶伙伴”。通过创新的VLA框架，DMW成功地将长期驾驶习惯与短期语言意图编码进同一个决策模型，实现了真正意义上的个性化驾驶行为生成。

这项工作的重要意义在于，它将人工智能从“执行任务”提升到了“理解并适应人”的层面。它预示着一个未来：自动驾驶汽车不再是冷冰冰的运输工具，而是能够适应家庭成员不同喜好、理解乘客即时需求的智能移动空间。从技术角度看，它为多模态决策、人机对齐、个性化AI等前沿方向提供了一个绝佳的应用范例和扎实的技术基线。

当然，通往完全个性化自动驾驶的道路仍充满挑战，包括数据隐私、安全验证、伦理规范和长尾场景泛化等。然而，DMW无疑为我们点亮了一盏明灯，指明了“以人为中心”的AI系统发展的核心方向——技术不仅应服务于人，更应学会适应每一个独特的人。这不仅是自动驾驶的未来，或许也是所有人机协同智能系统的终极形态。