持久视觉记忆：为LVLMs的深层生成维持感知

论文信息

标题: Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

作者: Siyuan Huang, Xiaoye Qu, Yafu Li, et al.

发布日期: 2026-05-01

PDF链接: 下载PDF

研究背景与动机：长文本生成中的视觉信号稀释困境

自回归大视觉语言模型（Large Vision-Language Models, LVLMs）已经成为多模态智能的核心范式，它们在图像描述、视觉问答和复杂推理等任务中展现出惊人的能力。这类模型通常将视觉编码器提取的图像特征作为一部分输入序列，与文本token拼接后送入因果注意力解码器进行下一个token的预测。然而，随着生成文本不断延长，一个隐藏的结构性问题逐渐浮出水面——视觉信号的持续衰减。

在标准自回归Transformer中，每一个生成步骤都需要基于所有历史token计算注意力分布。其注意力输出可以形式化表示为：

\text{Attention}(Q_t, K_{\le t}, V_{\le t}) = \sum_{i=1}^{t} \frac{\exp(q_t \cdot k_i)}{\sum_{j=1}^{t} \exp(q_t \cdot k_j)} v_i

分母中的求和项 $\sum_{j=1}^{t} \exp(q_t \cdot k_j)$ 常被视作一个“分区函数”。当生成序列长度 $t$ 急剧增长时，由于早期视觉token被映射到固定的键值对，而后续新增的文本token不断扩张该分区函数的规模，分配给那些遥远视觉token的注意力权重会不可避免地下降。这就是论文所定义的**视觉信号稀释（Visual Signal Dilution）**现象：视觉信息虽然一直存在于上下文中，但它的实际影响力随着自回归步数的增加而被系统性地“淹没”在文本海洋里。

这一问题在需要长程多步推理的场景中尤为致命。例如，分析一张复杂图表并逐步撰写长篇报告，或在视频理解任务中对首帧的关键物体进行持续追踪，模型很可能在生成后半段逐渐“忘记”最初看到的细节。经典的应对策略包括位置编码调整、注意力窗口扩展或键值缓存压缩，但它们都无法从根本上改变注意力加权对序列长度的依赖性。论文《Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs》提出了一种截然不同的解决路径：不要在注意力中挣扎，而是开辟一条完全不依赖于序列距离的视觉信息直通车。

核心方法：持久视觉记忆模块（PVM）

论文设计的**持久视觉记忆（Persistent Visual Memory, PVM）**是一个轻量级的可学习模块，它作为前馈网络（FFN）的并行分支集成到每一层Transformer解码器中。PVM的核心思想是构建一个距离无关的检索通路，使得模型在任何生成时刻都能以恒定的代价直接获取最相关的视觉嵌入，从而在结构上规避注意力稀释。

记忆库与检索机制

PVM内部维护了一个固定大小的记忆库 $\mathbf{M} \in \mathbb{R}^{N \times d}$ ，其中 $N$ 是可学习记忆槽的数量， $d$ 是模型隐藏维度。这些记忆槽在训练过程中学会存储不同粒度的视觉模式——从低级的纹理、颜色，到高级的物体部件、空间关系。与需要将视觉token永久保留在序列中的做法不同，PVM只在编码阶段将图像特征经过一次轻量投影后，与记忆库进行交叉注意力式的信息写入，形成视觉上下文感知的记忆表征。具体来说，给定图像特征 $\mathbf{X}_v$ ，记忆库的更新可以通过函数 $f_{\text{write}}(\mathbf{M}, \mathbf{X}_v)$ 完成，该函数可能采用类似Transformer交叉注意力的结构，让记忆槽聚合来自整个图像的线索。

在生成阶段，对于当前token的隐藏状态 $\mathbf{h}_t$ ，PVM执行检索：

\mathbf{r}_t = \text{Retrieve}(\mathbf{h}_t, \mathbf{M}) = \sum_{i=1}^{N} a_{t,i} \cdot \mathbf{M}_i

其中注意力权重 $a_{t,i}$ 由 $\mathbf{h}_t$ 与可学习的查询投影计算得到。关键的是，这个检索过程只依赖于固定大小的记忆库 $\mathbf{M}$ ，而不涉及任何历史序列的位置信息。因此，检索代价与已生成文本长度 $t$ 完全无关，视觉信号强度始终保持稳定。

与FFN的并行集成

PVM被设计为FFN的并行分支，这意味着它的输出 $\mathbf{r}_t$ 会与FFN的输出直接相加或通过门控机制融合：

\mathbf{o}_t = \text{FFN}(\mathbf{h}_t) + \lambda \cdot \mathbf{r}_t

其中 $\lambda$ 可以是固定的超参数，也可以是一个由 $\mathbf{h}_t$ 动态预测的门控值。这种设计使得PVM不会破坏原有FFN的预训练能力，可以作为一种即插即用的模块进行微调。同时，因为记忆库中的向量通过检索直接注入到token表示中，模型无需从遥远的上下文位置“回忆”视觉信息，相当于为视觉感知建立了一条永不断裂的“神经捷径”。

与现有方法的本质区别

值得注意的是，PVM既不是简单的视觉前缀，也不是外部的键值缓存。视觉前缀方法（如将视觉token永远放在序列开头）仍然受制于注意力稀释；外部记忆工作则通常聚焦于存储和检索历史文本信息。PVM的独到之处在于：它为视觉信息单独开辟了一个结构化的持久空间，并利用独立检索机制确保在任何生成深度下，视觉特征都可以被按需激活。这是对自回归模型信息流拓扑的一个精巧重构。

创新点与贡献

论文的贡献可以从三个层面理解。第一，系统性地定义了“视觉信号稀释”这一现象，并将其归结为自回归注意力分区函数随序列长度增长而导致的固有缺陷，为该领域提供了清晰的问题表述。第二，提出了PVM这一架构级的解决方案，它不修改注意力机制本身，而是通过并行支路引入视觉记忆，避免了与主序列的竞争，实现了真正的距离无关视觉感知。第三，在主流模型Qwen3-VL上验证了PVM的有效性，证明其仅以极低的参数开销（通常小于总参数量的0.5%）就能在多个基准上取得一致的提升，尤其在需要持续视觉依赖的复杂推理任务上收益最为显著。

从工程角度看，PVM具有极强的实用性。它可以直接附加到任何自回归LVLM的FFN层旁边，无需改变原始注意力掩码或位置编码策略，微调成本和推理额外延迟都很低。这种低侵入性使得PVM能够作为现有模型的能力增强插件，快速适配不同的视觉理解场景。

实验结果分析

论文在Qwen3-VL的4B和8B两种参数量级上进行了广泛实验。主要结果可以用三个关键词概括：收益显著、开销极小、长文本鲁棒。

在通用多模态基准测试（如MMBench、SEEDBench等）上，加入PVM后的模型相比同等微调策略的基线平均准确率提升了约1.5%～3%。看似幅度不大，但考虑到PVM仅引入了约100万量级的额外参数（对于4B模型参数增加尚不足0.1%），这样的效益－开销比堪称优异。更值得关注的是，在需要多步推理和强视觉锚定的任务（如科学图表问答、多图关系推理）中，提升幅度可以达到5%–8%。这类任务正是视觉信号稀释的重灾区，PVM的针对性设计在此得到充分体现。

论文还提供了深刻的内部机制分析。通过可视化注意力分布可以发现，基线模型在生成超过500个token后，对初始视觉token的注意力权重衰减至几乎不可见；而配备PVM的模型，虽然主注意力依然存在稀释，但其FFN并行分支的检索激活始终保持高强度，视觉信息通过另一条通路稳定注入。此外，分析预测残差流的收敛速度表明，PVM能够加速模型在生成早期就锁定正确的视觉概念，减少内部表征的不确定性，从而让整体预测更快收敛。这进一步解释了为何在复杂推理中带来的增益更大——它帮助模型在推理链条的初期就建立了稳固的视觉根基。

实践应用建议

对于从事多模态AI应用开发的工程师和研究者，PVM提供了几个重要启示：

1. 视频和长文档理解的首选组件 在视频对话、长PDF/网页多模态分析等场景中，模型需要频繁回溯远距离的视觉信息。PVM天然适合这类问题。实践中可以将PVM与滑动窗口注意力机制结合，窗口处理文本局部连贯性，PVM负责全局视觉记忆。

2. 低成本增强现有LVLM 如果团队已经部署了某款开源LVLM（如Qwen-VL系列），希望在不进行大规模重新训练的前提下提升长文本生成中的视觉忠实度，只需在FFN层旁路插入轻量PVM模块，并用少量任务数据微调。推荐微调时冻结主干网络，只训练PVM和少量门控参数，做到最大程度保留原有能力。

3. 组合其他记忆方案 PVM专注于静态的“持久视觉记忆”，可以互补于检索增强生成（RAG）中为文本设计的动态记忆库。在多模态智能体架构中，同时使用两种记忆范式——一个负责视觉事实的恒定记忆，一个负责可变的文本知识——有望构建更稳健的长程交互系统。

4. 作为视觉注意力对齐的调试工具 PVM的检索强度可以作为监测指标：如果发现PVM的激活值在生成过程中异常下降，说明模型正在“遗忘”视觉信息，此时可调整记忆写入策略或增加记忆库容量。这为视觉幻觉的自动检测与缓解提供了新的工程抓手。

总结与展望

《Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs》直面自回归多模态模型中长期被忽视的视觉信号衰退难题，并以优雅的架构设计给出了可行解。PVM模块证明了，有时候最佳的信息通路不是减少阻力，而是修建一条完全不拥挤的新路。其轻量、即插即用、距离无关的特性，打开了LVLM长文本生成中视觉保真度提升的新局面。

展望未来，PVM有望向几个方向演进。一是动态记忆更新：当前记忆库在编码后固定不变，未来可以设计成在生成过程中依据新出现的视觉需求进行在线写入，从而处理视频流等连续输入。二是与混合专家（MoE）架构的结合，让不同专家模块共享或竞争同一视觉记忆池，可能催生出更高效的稀疏视觉检索机制。三是将PVM思想反哺到纯文本大模型中，构造“持续事实记忆”来对抗长文本中的事实稀释，这对于构建超长上下文推理系统同样具有启发意义。当模型不再因距离而遗忘，真正的深度理解才成为可能。