← 返回首页

统一时空令牌评分:高效视频视觉语言模型新方法

arXiv: 2603.18004v1

论文信息

标题: Unified Spatio-Temporal Token Scoring for Efficient Video VLMs

作者: Jianrui Zhang, Yue Yang, Rohun Tripathi, et al.

发布日期: 2026-03-18

arXiv ID: 2603.18004v1

PDF链接: 下载PDF

论文背景与研究动机:视频VLMs的效率瓶颈与剪枝挑战

近年来,视觉-语言模型(Vision-Language Models, VLMs)在图像和视频理解领域取得了突破性进展。这些模型通常由一个视觉编码器(如Vision Transformer, ViT)和一个大型语言模型(LLM)组成,能够处理复杂的跨模态任务,如视频问答(Video QA)。然而,当处理视频数据时,VLMs面临严峻的计算效率挑战。视频由一系列帧组成,每帧通过ViT编码后会产生大量的视觉令牌(Token)。这些令牌在时间和空间维度上存在高度冗余——相邻帧的内容相似,单帧内的背景区域信息量低。这种冗余导致模型计算量巨大,训练和推理成本高昂,严重限制了其在长视频、实时应用或资源受限环境中的部署。

为了提升效率,令牌剪枝(Token Pruning)技术应运而生。其核心思想是识别并移除那些对最终任务贡献较小的冗余令牌,从而减少后续计算量。然而,现有的剪枝方法在应用于视频VLMs时存在明显局限:

  1. 视觉模态单边剪枝:许多方法仅在ViT内部进行剪枝,主要针对动作识别等单模态任务设计。它们没有考虑下游LLM的需求,剪枝标准与最终的视觉-语言任务目标脱节,可能导致关键跨模态信息丢失。
  2. 语言模态单边剪枝:另一些方法则只在LLM输入端对ViT输出的全部令牌进行筛选。这类方法通常需要复杂的、基于文本条件的令牌选择机制,增加了模型复杂度和训练难度,且未能从源头(ViT内部)减少计算。

因此,当前领域缺乏一种统一、轻量、端到端可训练的剪枝方案,能够贯穿ViT和LLM整个架构,协同利用时空信息,在不依赖复杂文本条件的情况下,智能地压缩视频视觉令牌。这正是《Unified Spatio-Temporal Token Scoring for Efficient Video VLMs》一文所要解决的核心问题。

核心方法:时空令牌评分(STTS)详解

本文提出了一个名为时空令牌评分(Spatio-Temporal Token Scoring, STTS)的轻量级模块。其目标是在视频VLM的整个前向传播过程中,动态地修剪掉50%的视觉令牌,同时保持模型性能。STTS的核心在于学会为每一个视觉令牌分配一个重要性分数,并根据分数进行筛选。其创新性体现在统一的评分机制双路径训练策略上。

STTS模块的工作流程

STTS模块被插入到VLM的视觉处理流程中。对于一个输入视频,它首先被均匀采样为T帧。每帧图像通过ViT的补丁嵌入层后,被转换为一系列空间令牌。此时,STTS模块开始工作:

  1. 令牌评分:每个视觉令牌 xt,ix_{t,i}(代表第t帧的第i个空间位置)都会被赋予一个可学习的标量分数 st,is_{t,i}。这个分数初始化为1,并在训练中更新。
  2. 重要性筛选:在前向传播的每一步(例如,在ViT的某些层后,以及在输入LLM之前),系统会根据当前所有令牌的分数进行排序。通过一个高效的打包算法,它选择性地保留分数最高的令牌,而丢弃分数较低的令牌。论文中设定了全局50%的剪枝率目标。
  3. 信息传递:被保留的令牌及其分数继续参与后续计算(如ViT的自注意力机制)。被丢弃的令牌则从计算图中移除,从而显著减少自注意力操作中的序列长度,提升效率。

双路径训练:时空协同学习

如何让模型学会给重要的令牌打高分,给冗余的令牌打低分?STTS采用了两种互补的监督信号,分别针对时间冗余和空间冗余:

  • 时间评分学习(通过辅助损失):为了捕捉跨帧的冗余,作者设计了一个简单的辅助任务。他们使用一个轻量级的多层感知机(MLP),基于当前帧的令牌表示,去预测下一帧对应空间位置的令牌表示。其损失函数为均方误差(MSE)。直觉是,如果一个位置的内容在时间上高度稳定、可预测(如静态背景),那么其令牌的重要性就低;反之,变化剧烈、难以预测的区域(如运动物体)则更为重要。通过反向传播优化这个辅助损失,令牌的时间重要性分数得以更新。

  • 空间评分学习(通过LLM下游梯度):这是STTS的关键。令牌的最终价值体现在它对于完成下游视觉-语言任务(如视频问答)的贡献上。因此,来自LLM的、基于最终任务损失(如交叉熵损失)的梯度被直接用于更新令牌分数。具体来说,在训练时,模型以端到端的方式进行。LLM的损失梯度会沿着计算图反向传播,一直传到STTS模块的分数参数上。这意味着,如果一个令牌对生成正确答案有正面贡献,它的分数就会增加;反之则会减少。这种方法确保了剪枝标准与终极任务目标直接对齐。

通过这种时间辅助损失空间下游梯度的双重驱动,STTS模块能够协同学习识别出在时空维度上均具有高信息量的令牌。

高效的打包算法

为了实现精确的全局剪枝率控制,作者设计了一个打包算法。该算法将来自所有帧的所有令牌及其分数统一考虑,进行全局排序和选择,确保最终保留的令牌集合是全局最优的,而不是每帧独立选择可能导致的次优结果。

创新点与贡献

  1. 架构范围统一剪枝:STTS首次实现了在视频VLM的整个架构(从ViT中层到LLM输入端)进行一致的令牌剪枝,打破了以往单边剪枝的局限。
  2. 无需文本条件的轻量设计:与需要在LLM端进行复杂、基于文本查询的令牌选择方法不同,STTS完全基于视觉令牌自身的时空重要性进行筛选,模块轻量且无需额外的文本条件机制,简化了模型结构。
  3. 端到端可训练的双路径学习:创造性结合了基于预测的时间监督和基于任务的空间梯度监督,使模型能够自动学习与任务相关的、时空协同的剪枝策略。端到端训练保证了整体性能的最优化。
  4. 显著的效率提升:该方法在推理和训练阶段都能带来巨大的加速。剪枝50%的视觉令牌,实现了高达62%的FLOPs减少,且效率增益随着视频采样帧数的增加而线性增长,对处理长视频特别有利。
  5. 性能与效率的卓越平衡:在13个长短视频问答基准测试中,STTS在获得巨大效率提升的同时,平均性能仅下降0.7%,展现了极佳的权衡。甚至在长视频QA任务中,通过测试时缩放技术,性能还能反超基线0.5-1%。

实验结果分析

论文在包括NExT-QA、IntentQA、EgoSchema在内的13个具有挑战性的视频问答数据集上进行了全面评估,涵盖了短视频和长视频场景。

  • 主要结果:相比强大的基线模型(如基于InternVL2的VLM),集成STTS后,在平均性能仅损失0.7%的情况下,实现了62%的推理计算量(GFLOPs)节省。这证明了STTS在维持高精度的前提下,大幅提升效率的能力。
  • 消融实验
    • 双路径学习的必要性:实验表明,仅使用时间辅助损失或仅使用下游梯度进行评分学习,其效果均不如两者结合。结合策略实现了最佳的性能-效率权衡,验证了时空协同学习的重要性。
    • 剪枝位置分析:在ViT早期层和LLM输入端都进行剪枝,比仅在单一位置剪枝效果更好。这说明冗余存在于整个信息处理链路,需要全局优化。
  • 长视频处理优势:当处理帧数更多的长视频时,STTS带来的效率提升比例更大。这是因为时间冗余随着帧数增加而增多,STTS能更有效地剔除它们。此外,作者提出在推理时对保留令牌的分数进行缩放(测试时缩放),发现这能小幅提升长视频QA的性能,推测是因为动态调整了信息保留的强度,更好地适应了不同长度的视频内容。
  • 可视化分析:通过可视化高分保留的令牌,可以发现STTS确实聚焦于视频中的运动主体和关键物体,而将静止的背景、模糊的边缘区域令牌修剪掉,这与人类直觉相符。

实践应用建议与未来方向

在AI与视频分析领域的应用建议

  1. 实时视频理解系统:对于需要低延迟响应的应用,如自动驾驶的环境理解、直播内容实时审核或交互式视频助手,STTS可以显著降低模型计算延迟,使复杂的VLM能够部署在边缘设备或满足实时性要求。
  2. 长视频内容分析:在影视剧分析、体育赛事复盘、安防监控录像检索等场景中,视频时长可达数小时。STTS的高效性使得对整段长视频进行深层次、细粒度的视觉-语言分析(如自动生成摘要、问答、情感分析)变得 computationally feasible。
  3. 多模态模型轻量化部署:STTS提供了一种通用的视觉令牌压缩思路。其设计理念可以迁移到其他多模态架构中,如图像-语言模型或音频-视觉-语言模型,帮助降低这些大模型的部署门槛和云服务成本。
  4. 研发流程优化:在模型研发阶段,使用STTS可以加速实验迭代周期。研究人员可以用更少的计算资源尝试更多的想法,或者在相同的资源下使用更长的视频序列、更大的批次进行训练,可能探索到更优的模型性能。

未来研究方向

  1. 动态剪枝率:当前STTS使用固定的全局剪枝率。未来可以探索自适应剪枝率,让模型根据输入视频的复杂度和冗余度动态决定保留多少令牌,实现更精细的效率控制。
  2. 与其他压缩技术结合:将STTS与模型量化、知识蒸馏、低秩近似等其他模型压缩与加速技术结合,有望在性能损失极小的情况下,实现数量级的效率提升。
  3. 扩展到更复杂的VLM任务:本文主要聚焦视频QA。未来可将STTS应用于视频描述生成、视频定位、指令跟随等更复杂的视频-语言任务,验证其通用性。
  4. 理论分析:对STTS学习到的评分机制进行更深入的理论分析和解释,例如研究其与信息论中“信息量”概念的联系,或分析剪枝对模型鲁棒性和泛化能力的影响。

总结与展望

《Unified Spatio-Temporal Token Scoring for Efficient Video VLMs》一文针对视频视觉-语言模型的计算瓶颈,提出了一个简洁而高效的解决方案——时空令牌评分(STTS)。通过一个轻量的、可学习的评分模块,协同利用时间预测辅助任务和下游任务梯度,STTS实现了贯穿模型架构的统一令牌剪枝。

这项工作的核心价值在于它优雅地解决了“剪哪里”和“怎么学”的问题:它不仅在ViT内部也在LLM输入端进行剪枝,实现了全局优化;它通过双路径学习机制,使剪枝策略与时空冗余特性和最终任务目标紧密对齐。实验结果有力证明了该方法能在性能损失极小的前提下,带来大幅度的计算效率提升,尤其擅长处理富含时间冗余的视频数据。

STTS代表了多模态大模型效率优化方向上的一个重要进展。它不仅仅是一个工具,更提供了一种思路:即通过设计轻量的、可微的、与任务目标对齐的“控制器”模块,来智能地管理模型内部的信息流和计算资源。随着视频数据在互联网和各行各业中的爆炸式增长,以及多模态大模型应用的不断深化,像STTS这样致力于让大模型“变得更轻、更快、更智能”的研究,将具有越来越重要的现实意义和广阔的产业应用前景。未来,我们期待看到更多基于此思想的创新,推动高效、通用的多模态智能走向更广泛的落地。