BEVLM：将大语言模型的语义知识蒸馏至鸟瞰图表示

论文信息

标题: BEVLM: Distilling Semantic Knowledge from LLMs into Bird's-Eye View Representations

作者: Thomas Monninger, Shaoyuan Xie, Qi Alfred Chen, et al.

发布日期: 2026-03-06

PDF链接: 下载PDF

论文背景与研究动机：自动驾驶感知与决策的“语义鸿沟”

近年来，大型语言模型（LLMs）因其强大的推理和语义理解能力，在自动驾驶领域引起了广泛关注。人们期望LLMs能够处理复杂的长尾场景，例如理解“一个小孩的皮球滚到了路中间”所蕴含的潜在风险，并做出合理的驾驶决策。然而，将LLMs直接应用于自动驾驶视觉感知，面临两大核心挑战。

首先，视觉输入与空间推理的割裂。现有方法通常将多视角（如前视、左视、后视摄像头）和多帧的图像独立地编码成视觉标记（tokens），然后直接输入给LLM。这种处理方式存在两个严重问题：一是计算冗余，同一物体在不同视角的图像中被重复编码和计算；二是空间一致性缺失，LLM难以从这些离散的、二维的图像标记中，准确构建出连续、统一的三维世界空间关系。这好比让一个指挥官同时看多个互不关联的战场局部监控画面，却要求他做出全局战术部署，其难度和准确性可想而知。

其次，几何结构与语义深度的分离。另一方面，自动驾驶领域成熟的鸟瞰图（Bird‘s-Eye View, BEV）表示方法，通过几何投影（如LSS、BEVFormer等）将多视角图像特征统一到俯视的二维平面上，完美解决了空间一致性问题，非常适合用于物体检测、地图分割等任务。然而，这类BEV特征通常是从几何标注任务（如3D框）中学习得到的，其“语义丰富度”远不及在大规模图像-文本对数据上预训练的基础视觉编码器（如CLIP的视觉编码器）。简单来说，传统BEV知道“那里有个长方体”，但不知道那是“一辆校车”；而基础视觉模型知道那是“校车”，却说不清它在三维空间中的精确位置和朝向。

因此，当前自动驾驶系统存在一个明显的“语义鸿沟”：擅长空间结构的BEV缺乏深层语义，而擅长语义理解的LLM缺乏准确的空间感知。论文《BEVLM: Distilling Semantic Knowledge from LLMs into Bird’s-Eye View Representations》的核心动机，正是要架起这座桥梁，创造一个既具备精确空间结构，又富含高层语义知识的统一BEV表示，并将其与LLM高效结合，以提升自动驾驶系统的整体感知与决策能力。

核心方法：BEVLM框架的双向知识蒸馏与对齐

BEVLM框架的设计思想非常巧妙，它不是一个单向的流程，而是一个双向的知识融合与对齐系统。其核心目标有两个：1）为LLM提供空间一致的BEV特征作为输入，增强其3D空间推理能力；2）将LLM的语义知识蒸馏到BEV表示中，提升BEV本身的语义丰富度。整个框架可以分解为三个关键阶段。

第一阶段：构建空间一致的初始BEV特征 首先，框架利用一个标准的BEV编码器（例如基于Transformer的BEVFormer），处理多视角、多帧的环视图像。这个过程通过可学习的查询（Query）与图像特征进行跨注意力交互，将图像特征提升到BEV空间，生成初始的BEV特征图 $F_{bev} \in \mathbb{R}^{H \times W \times C}$ 。此时的 $F_{bev}$ 已经具备了良好的空间一致性，但其语义信息主要局限于预定义的几何任务（如检测）。

第二阶段：语义知识蒸馏——从LLM到BEV 这是论文的第一个创新点。为了将丰富的语义注入BEV，作者设计了一个语义蒸馏模块。具体做法是：

获取LLM的语义先验：使用一个强大的、经过视觉-语言对齐预训练的基础模型（如BLIP-2或LLaVA中的视觉编码器与LLM的组合），对输入图像进行理解。该模型能生成丰富的图像级或区域级语义描述。
构建语义目标：通过提示工程，引导这个基础LLM对BEV网格对应的物理区域进行描述。例如，对于BEV平面上的某个网格（对应现实世界的一块地面），基础LLM可以判断其属性为“可行驶道路”、“人行横道”、“草坪”等。
蒸馏训练：设计一个辅助的语义分割任务。使用从基础LLM“提取”的语义描述作为软标签（Soft Labels），来监督BEV编码器的训练。具体而言，在BEV特征 $F_{bev}$ 之后添加一个轻量级的解码器，预测每个BEV网格的语义类别分布，并与LLM提供的软标签计算知识蒸馏损失（如KL散度损失）。通过这个过程，BEV特征 $F_{bev}$ 被强制学习蕴含与LLM相似的、细粒度的语义知识，从而升级为语义BEV特征 $F_{bev}^{sem}$ 。

第三阶段：LLM与语义BEV的高效对齐与推理 这是论文的第二个创新点。如何将二维的BEV特征图 $F_{bev}^{sem}$ 有效地输入给以一维序列为输入的LLM？

BEV Tokenization：作者没有简单地将BEV特征图展平，而是引入了一组可学习的BEV查询令牌（BEV Query Tokens），记为 $Q_{bev}$ 。这些令牌与 $F_{bev}^{sem}$ 通过交叉注意力机制进行交互，聚合整个BEV空间的语义和几何信息。
投影与对齐：交互后“充满信息”的 $Q_{bev}$ 被线性投影到与LLM的词嵌入空间相同的维度。然后，这些BEV令牌被前置到LLM的文本输入序列之前，形成一个统一的输入序列：[BEV Tokens] + [Text Tokens]。
联合训练与推理：在诸如视觉问答（VQA）、推理导航等自动驾驶相关任务上，对整个模型（BEV编码器、蒸馏模块、投影层、LLM）进行端到端的微调。LLM学会了如何解读这些前置的BEV令牌所代表的统一空间-语义场景，从而做出更准确的回答或决策。

创新点与核心贡献

BEVLM的核心贡献在于提出并实现了一种双向、解耦且高效的融合范式，具体创新点如下：

从“特征拼接”到“知识蒸馏”的语义融合：不同于简单地将图像特征与BEV特征拼接，BEVLM首创了将LLM的语义知识蒸馏到BEV表示中的方法。这使得语义增强过程与下游LLM推理任务解耦，生成的语义BEV成为一个独立、可迁移的强大中间表示，不仅适用于LLM，也可直接提升纯视觉的感知任务性能。
从“多视图标记”到“统一BEV标记”的空间对齐：提出了用一组可学习的BEV查询令牌作为LLM与视觉世界之间的“适配器”。这种方法将多视图、多帧的复杂视觉信息压缩为一个空间结构化的令牌序列，极大减轻了LLM处理空间关系的负担，从根本上解决了空间一致性问题。
实现了感知与决策能力的双重提升：框架的设计使得提升是双向的：一方面，LLM获得了优质的BEV输入，空间推理能力大幅增强；另一方面，BEV表示吸收了LLM的语义，其本身的质量也得到飞跃。实验证明，这种双向提升最终共同驱动了闭环驾驶性能的显著进步。

实验结果分析：全方位的性能飞跃

论文在多个自动驾驶数据集和任务上进行了充分验证，结果令人信服。

开环视觉问答与推理任务：在nuScenes-QA等需要跨视图推理的数据集上，BEVLM相比直接将多视图图像标记输入LLM的基线方法，准确率提升了46%。这直接证明了统一的语义BEV表示对于LLM进行3D空间推理的巨大价值。LLM现在能够准确回答如“在第三辆车左后方的是什么？”这类严重依赖空间关系的问题。

闭环端到端驾驶：在CARLA等仿真环境中进行闭环驾驶测试是更具说服力的验证。BEVLM被集成到一个端到端驾驶模型中（例如，将语义BEV特征输入给一个驾驶策略网络）。在充满安全关键挑战的长尾场景中（如突然出现的障碍物、复杂路口无保护左转），BEVLM将驾驶成功率（或安全性指标）提升了29%。这至关重要，因为它表明语义BEV不仅改善了“语言理解”，更直接转化为了更安全、更拟人的“驾驶行动”。

语义BEV的迁移能力：作者还将训练好的BEV编码器（已蒸馏语义知识）用于传统的视觉感知任务，如BEV地图分割。在没有使用任何该任务标注数据的情况下，仅通过零样本或少样本学习，其性能就显著优于未经过语义蒸馏的BEV编码器。这强有力地证明了蒸馏得到的语义BEV特征具有强大的泛化性和表征能力。

实践应用建议与未来方向

对自动驾驶研发的实践建议：

构建统一的感知中间层：工业界在开发下一代自动驾驶系统时，应考虑采用类似BEVLM的架构，构建一个统一的“语义化BEV”作为整个系统的感知中台。这个中台向上可以服务LLM进行决策规划，向下可以提升各子感知模块（检测、分割、跟踪）的性能，实现资源复用和效果增益。
数据高效利用：BEVLM的蒸馏思路提供了一种利用丰富但廉价的图像-文本数据（来自互联网）来增强需要昂贵3D标注的自动驾驶模型的方法。这是一种极具性价比的技术路径。
仿真与测试重点：在仿真测试中，应特别设计需要深层次语义理解与空间推理相结合的长尾场景，例如：“识别并避让从盲区滚出的玩具”、“在施工路段理解临时交通标志并与锥桶几何关系结合判断可行驶区域”。这些场景是检验类似BEVLM系统价值的试金石。

未来研究方向：

动态与时序语义BEV：当前工作主要聚焦于静态语义。未来的研究需要进一步建模动态物体的语义状态（如“正在打开车门的车辆”、“意图横穿马路的行人”），并将其融入时序BEV表示中。
多模态BEV融合：将激光雷达点云、毫米波雷达等模态的信息也统一融合到语义BEV空间中，形成更鲁棒、全天候的通用场景表示。
具身交互与规划：将语义BEV与基于LLM的具身智能体更深度结合，不仅用于问答和驾驶，还可用于预测其他交通参与者的意图，并生成更长远、更安全的运动规划序列。
蒸馏效率与质量：研究更高效的蒸馏算法，探索如何从更大的视觉-语言基础模型中提取更精准、更结构化的知识，同时减少训练开销。

总结与展望

BEVLM论文为自动驾驶感知与决策的融合提供了一个优雅而强大的框架。它精准地切中了当前两大技术路线——注重几何结构的BEV与注重语义理解的LLM——之间的结合痛点，并通过“语义蒸馏”和“统一BEV令牌”两大核心技术，实现了“1+1>2”的效果。

这项工作的深远意义在于，它指向了自动驾驶系统演进的一个重要方向：从“几何驱动”的感知迈向“语义与几何协同驱动”的场景理解。未来的自动驾驶汽车，不仅需要知道周围有什么、在哪里，更需要像人类一样理解这些物体是什么、在做什么、可能做什么，以及它们与自身驾驶行为的关联。BEVLM正是朝着这个“类人化”理解迈出的坚实一步。

随着多模态大模型和世界模型的快速发展，我们可以预见，类似BEVLM所构建的这种结构化、语义化的场景表示，将成为连接低层感知与高层认知的通用“世界模型”的关键组成部分，最终推动L4级乃至更高级别自动驾驶技术的早日实现。