统一时空令牌评分：高效视频视觉语言模型新方法

论文信息

标题: Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

作者: Jianrui Zhang, Yue Yang, Rohun Tripathi, et al.

发布日期: 2026-03-18

PDF链接: 下载PDF

论文背景与研究动机：视频VLMs的效率瓶颈与剪枝挑战

近年来，视觉-语言模型（Vision-Language Models, VLMs）在图像和视频理解领域取得了突破性进展。这些模型通常由一个视觉编码器（如Vision Transformer, ViT）和一个大型语言模型（LLM）组成，能够处理复杂的跨模态任务，如视频问答（Video QA）。然而，当处理视频数据时，VLMs面临严峻的计算效率挑战。视频由一系列帧组成，每帧通过ViT编码后会产生大量的视觉令牌（Token）。这些令牌在时间和空间维度上存在高度冗余——相邻帧的内容相似，单帧内的背景区域信息量低。这种冗余导致模型计算量巨大，训练和推理成本高昂，严重限制了其在长视频、实时应用或资源受限环境中的部署。

为了提升效率，令牌剪枝（Token Pruning）技术应运而生。其核心思想是识别并移除那些对最终任务贡献较小的冗余令牌，从而减少后续计算量。然而，现有的剪枝方法在应用于视频VLMs时存在明显局限：

视觉模态单边剪枝：许多方法仅在ViT内部进行剪枝，主要针对动作识别等单模态任务设计。它们没有考虑下游LLM的需求，剪枝标准与最终的视觉-语言任务目标脱节，可能导致关键跨模态信息丢失。
语言模态单边剪枝：另一些方法则只在LLM输入端对ViT输出的全部令牌进行筛选。这类方法通常需要复杂的、基于文本条件的令牌选择机制，增加了模型复杂度和训练难度，且未能从源头（ViT内部）减少计算。

因此，当前领域缺乏一种统一、轻量、端到端可训练的剪枝方案，能够贯穿ViT和LLM整个架构，协同利用时空信息，在不依赖复杂文本条件的情况下，智能地压缩视频视觉令牌。这正是《Unified Spatio-Temporal Token Scoring for Efficient Video VLMs》一文所要解决的核心问题。

核心方法：时空令牌评分（STTS）详解

本文提出了一个名为时空令牌评分（Spatio-Temporal Token Scoring, STTS）的轻量级模块。其目标是在视频VLM的整个前向传播过程中，动态地修剪掉50%的视觉令牌，同时保持模型性能。STTS的核心在于学会为每一个视觉令牌分配一个重要性分数，并根据分数进行筛选。其创新性体现在统一的评分机制和双路径训练策略上。

STTS模块的工作流程

STTS模块被插入到VLM的视觉处理流程中。对于一个输入视频，它首先被均匀采样为T帧。每帧图像通过ViT的补丁嵌入层后，被转换为一系列空间令牌。此时，STTS模块开始工作：

令牌评分：每个视觉令牌 $x_{t,i}$ （代表第t帧的第i个空间位置）都会被赋予一个可学习的标量分数 $s_{t,i}$ 。这个分数初始化为1，并在训练中更新。
重要性筛选：在前向传播的每一步（例如，在ViT的某些层后，以及在输入LLM之前），系统会根据当前所有令牌的分数进行排序。通过一个高效的打包算法，它选择性地保留分数最高的令牌，而丢弃分数较低的令牌。论文中设定了全局50%的剪枝率目标。
信息传递：被保留的令牌及其分数继续参与后续计算（如ViT的自注意力机制）。被丢弃的令牌则从计算图中移除，从而显著减少自注意力操作中的序列长度，提升效率。

双路径训练：时空协同学习

如何让模型学会给重要的令牌打高分，给冗余的令牌打低分？STTS采用了两种互补的监督信号，分别针对时间冗余和空间冗余：

时间评分学习（通过辅助损失）：为了捕捉跨帧的冗余，作者设计了一个简单的辅助任务。他们使用一个轻量级的多层感知机（MLP），基于当前帧的令牌表示，去预测下一帧对应空间位置的令牌表示。其损失函数为均方误差（MSE）。直觉是，如果一个位置的内容在时间上高度稳定、可预测（如静态背景），那么其令牌的重要性就低；反之，变化剧烈、难以预测的区域（如运动物体）则更为重要。通过反向传播优化这个辅助损失，令牌的时间重要性分数得以更新。
空间评分学习（通过LLM下游梯度）：这是STTS的关键。令牌的最终价值体现在它对于完成下游视觉-语言任务（如视频问答）的贡献上。因此，来自LLM的、基于最终任务损失（如交叉熵损失）的梯度被直接用于更新令牌分数。具体来说，在训练时，模型以端到端的方式进行。LLM的损失梯度会沿着计算图反向传播，一直传到STTS模块的分数参数上。这意味着，如果一个令牌对生成正确答案有正面贡献，它的分数就会增加；反之则会减少。这种方法确保了剪枝标准与终极任务目标直接对齐。

通过这种时间辅助损失与空间下游梯度的双重驱动，STTS模块能够协同学习识别出在时空维度上均具有高信息量的令牌。

高效的打包算法

为了实现精确的全局剪枝率控制，作者设计了一个打包算法。该算法将来自所有帧的所有令牌及其分数统一考虑，进行全局排序和选择，确保最终保留的令牌集合是全局最优的，而不是每帧独立选择可能导致的次优结果。

创新点与贡献

架构范围统一剪枝：STTS首次实现了在视频VLM的整个架构（从ViT中层到LLM输入端）进行一致的令牌剪枝，打破了以往单边剪枝的局限。
无需文本条件的轻量设计：与需要在LLM端进行复杂、基于文本查询的令牌选择方法不同，STTS完全基于视觉令牌自身的时空重要性进行筛选，模块轻量且无需额外的文本条件机制，简化了模型结构。
端到端可训练的双路径学习：创造性结合了基于预测的时间监督和基于任务的空间梯度监督，使模型能够自动学习与任务相关的、时空协同的剪枝策略。端到端训练保证了整体性能的最优化。
显著的效率提升：该方法在推理和训练阶段都能带来巨大的加速。剪枝50%的视觉令牌，实现了高达62%的FLOPs减少，且效率增益随着视频采样帧数的增加而线性增长，对处理长视频特别有利。
性能与效率的卓越平衡：在13个长短视频问答基准测试中，STTS在获得巨大效率提升的同时，平均性能仅下降0.7%，展现了极佳的权衡。甚至在长视频QA任务中，通过测试时缩放技术，性能还能反超基线0.5-1%。

实验结果分析

论文在包括NExT-QA、IntentQA、EgoSchema在内的13个具有挑战性的视频问答数据集上进行了全面评估，涵盖了短视频和长视频场景。

主要结果：相比强大的基线模型（如基于InternVL2的VLM），集成STTS后，在平均性能仅损失0.7%的情况下，实现了62%的推理计算量（GFLOPs）节省。这证明了STTS在维持高精度的前提下，大幅提升效率的能力。
消融实验：
- 双路径学习的必要性：实验表明，仅使用时间辅助损失或仅使用下游梯度进行评分学习，其效果均不如两者结合。结合策略实现了最佳的性能-效率权衡，验证了时空协同学习的重要性。
- 剪枝位置分析：在ViT早期层和LLM输入端都进行剪枝，比仅在单一位置剪枝效果更好。这说明冗余存在于整个信息处理链路，需要全局优化。
长视频处理优势：当处理帧数更多的长视频时，STTS带来的效率提升比例更大。这是因为时间冗余随着帧数增加而增多，STTS能更有效地剔除它们。此外，作者提出在推理时对保留令牌的分数进行缩放（测试时缩放），发现这能小幅提升长视频QA的性能，推测是因为动态调整了信息保留的强度，更好地适应了不同长度的视频内容。
可视化分析：通过可视化高分保留的令牌，可以发现STTS确实聚焦于视频中的运动主体和关键物体，而将静止的背景、模糊的边缘区域令牌修剪掉，这与人类直觉相符。

实践应用建议与未来方向

在AI与视频分析领域的应用建议

实时视频理解系统：对于需要低延迟响应的应用，如自动驾驶的环境理解、直播内容实时审核或交互式视频助手，STTS可以显著降低模型计算延迟，使复杂的VLM能够部署在边缘设备或满足实时性要求。
长视频内容分析：在影视剧分析、体育赛事复盘、安防监控录像检索等场景中，视频时长可达数小时。STTS的高效性使得对整段长视频进行深层次、细粒度的视觉-语言分析（如自动生成摘要、问答、情感分析）变得 computationally feasible。
多模态模型轻量化部署：STTS提供了一种通用的视觉令牌压缩思路。其设计理念可以迁移到其他多模态架构中，如图像-语言模型或音频-视觉-语言模型，帮助降低这些大模型的部署门槛和云服务成本。
研发流程优化：在模型研发阶段，使用STTS可以加速实验迭代周期。研究人员可以用更少的计算资源尝试更多的想法，或者在相同的资源下使用更长的视频序列、更大的批次进行训练，可能探索到更优的模型性能。

未来研究方向

动态剪枝率：当前STTS使用固定的全局剪枝率。未来可以探索自适应剪枝率，让模型根据输入视频的复杂度和冗余度动态决定保留多少令牌，实现更精细的效率控制。
与其他压缩技术结合：将STTS与模型量化、知识蒸馏、低秩近似等其他模型压缩与加速技术结合，有望在性能损失极小的情况下，实现数量级的效率提升。
扩展到更复杂的VLM任务：本文主要聚焦视频QA。未来可将STTS应用于视频描述生成、视频定位、指令跟随等更复杂的视频-语言任务，验证其通用性。
理论分析：对STTS学习到的评分机制进行更深入的理论分析和解释，例如研究其与信息论中“信息量”概念的联系，或分析剪枝对模型鲁棒性和泛化能力的影响。

总结与展望

《Unified Spatio-Temporal Token Scoring for Efficient Video VLMs》一文针对视频视觉-语言模型的计算瓶颈，提出了一个简洁而高效的解决方案——时空令牌评分（STTS）。通过一个轻量的、可学习的评分模块，协同利用时间预测辅助任务和下游任务梯度，STTS实现了贯穿模型架构的统一令牌剪枝。

这项工作的核心价值在于它优雅地解决了“剪哪里”和“怎么学”的问题：它不仅在ViT内部也在LLM输入端进行剪枝，实现了全局优化；它通过双路径学习机制，使剪枝策略与时空冗余特性和最终任务目标紧密对齐。实验结果有力证明了该方法能在性能损失极小的前提下，带来大幅度的计算效率提升，尤其擅长处理富含时间冗余的视频数据。

STTS代表了多模态大模型效率优化方向上的一个重要进展。它不仅仅是一个工具，更提供了一种思路：即通过设计轻量的、可微的、与任务目标对齐的“控制器”模块，来智能地管理模型内部的信息流和计算资源。随着视频数据在互联网和各行各业中的爆炸式增长，以及多模态大模型应用的不断深化，像STTS这样致力于让大模型“变得更轻、更快、更智能”的研究，将具有越来越重要的现实意义和广阔的产业应用前景。未来，我们期待看到更多基于此思想的创新，推动高效、通用的多模态智能走向更广泛的落地。