Sessa：选择性状态空间注意力机制

论文信息

标题: Sessa: Selective State Space Attention

作者: Liubomyr Horbatko

发布日期: 2026-04-20

PDF链接: 下载PDF

论文背景与研究动机：序列建模的长期记忆困境

当前，Transformer 架构凭借其强大的自注意力（Self-Attention）机制，在自然语言处理、计算机视觉等序列建模领域占据主导地位。其核心在于，模型能够根据当前输入，动态地、有选择性地关注序列中所有已见的上下文信息（即“可见上下文”），从而实现高效的上下文融合。然而，这种机制在处理超长序列时面临根本性挑战：当注意力分布不够“尖锐”（即检索不精确），而是“弥散”（diffuse）在一个较大的有效支持集 $S_{\mathrm{eff}}(t)$ 上时，任何一个特定历史令牌（token）的影响力都会被稀释。论文指出，这种影响力通常按 $O(1/S_{\mathrm{eff}}(t))$ 的比例衰减。在典型的全前缀（full-prefix）设置中，对于距离当前很远的旧令牌，其影响力会衰减到 $O(1/\ell)$ ，其中 $\ell$ 是时间滞后（lag）。这意味着，模型对遥远过去的记忆能力是有限的，且衰减速度相对较快。

为了克服这一限制，结构化状态空间模型（Structured State Space Models, SSMs）如 S4 及其后续工作被提出。这类模型通过一个显式的反馈路径（即状态向量）以循环（recurrent）方式处理序列，理论上具有无限长的上下文窗口。特别是像 Mamba 这样的“选择性”（Selective）SSM，它使状态转移矩阵依赖于输入，从而实现了输入依赖的信息传播。然而，Mamba 也存在其局限：如果其“冻结时间”（freeze time，即状态保持稳定的时间）无法持续很长，那么它对长距离信息的敏感度会随着滞后 $\ell$ 的增加而呈指数级衰减。这本质上是因为信息只通过单一的反馈链传播，一旦链路上的某个环节“遗忘”了信息，该信息便永久丢失。

总结来说，现有的主流架构面临一个两难选择：Transformer 通过一次性的、全局的“读取”来获取过去信息，但每个令牌的影响力会随着距离衰减；而 Mamba 等 SSM 通过单一的、循环的“反馈链”传播信息，但长程记忆的稳定性难以保证，且缺乏灵活的、输入依赖的检索能力。Sessa 论文的研究动机，正是要打破这种二元对立，探索一种能够实现“循环多路径聚合”的新架构，以同时获得稳定的长程记忆和灵活的上下文检索能力。

核心方法：在反馈路径中嵌入注意力

Sessa 的核心创新思想非常精妙：将注意力机制置于一个反馈路径内部。这听起来简单，但其内涵深刻，它创造了一种混合了 Transformer 的并行全局访问能力和 SSM 的循环状态传播能力的新型解码器。

技术细节解析

我们可以将 Sessa 的一个层理解为对一个动态系统的建模。传统的 SSM（如 Mamba）可以抽象为： $h_t = A(x_t) \cdot h_{t-1} + B(x_t) \cdot x_t$ $y_t = C(x_t) \cdot h_t$ 其中 $h_t$ 是隐藏状态， $A, B, C$ 是可能依赖于输入 $x_t$ 的参数矩阵。信息从 $h_{t-1}$ 到 $h_t$ 的流动是严格沿着时间轴的单一路径。

Sessa 改变了这个范式。它引入了一个“状态池”（State Pool）的概念。在每一步 $t$ ，模型不仅像 SSM 一样从上一个状态 $h_{t-1}$ 接收信息，还通过一个内部的注意力机制，从过去的一系列状态中聚合信息。这个注意力机制作用于反馈路径内部，其查询（Query）基于当前输入和/或当前状态，而键（Key）和值（Value）则来自历史状态。

更形式化地，Sessa 层的操作可以粗略描述为：

生成查询：基于当前输入 $x_t$ 和/或前一刻的聚合状态，生成一个查询向量 $q_t$ 。
内部注意力检索：使用 $q_t$ 对过去 $k$ 个时间步（或所有历史）的状态 $\{h_{t-1}, h_{t-2}, ..., h_{t-k}\}$ 进行注意力计算。这里的“状态”扮演了传统注意力中“键”和“值”的双重角色。注意力权重 $\alpha_{t, i}$ 表示在时间 $t$ 对历史状态 $h_i$ 的关注程度。
多路径聚合：将注意力加权后的历史状态与通过标准 SSM 式反馈路径（从 $h_{t-1}$ ）传来的信息进行融合。这创造了一条新的信息流：信息可以从历史状态 $h_{t-i}$ 直接“跳”到当前聚合点，而无需逐次经过中间所有状态 $h_{t-i+1}, ..., h_{t-1}$ 。这就是“多路径”的含义——信息在时间维度上有了多条并行的传播路径。
更新状态：将聚合后的信息与当前输入 $x_t$ 结合，更新得到新的状态 $h_t$ ，并输出该层的表示 $y_t$ 。

实现幂律衰减记忆的关键

论文的理论分析是 Sessa 的一大亮点。作者在一定的假设下（例如，注意力路由是均匀且弥散的），证明了 Sessa 能够实现一种幂律衰减的记忆曲线。具体来说，一个在时间 $t-\ell$ 输入的令牌，其对未来时间 $t$ 的影响可以按 $O(\ell^{-\beta})$ 衰减，其中 $0 < \beta < 1$ 。

为什么这很重要？让我们比较几种衰减模式：

指数衰减（如传统RNN、简单SSM）： $O(\exp(-\gamma \ell))$ 。衰减极快，长程记忆几乎为零。
多项式衰减（如Transformer）： $O(1/\ell)$ 。这是标准 Transformer 在注意力弥散时表现出的衰减。
幂律衰减（Sessa）： $O(\ell^{-\beta})$ ，且 $\beta < 1$ 。

由于当 $\ell$ 很大时， $\ell^{-\beta}$ （ $\beta<1$ ）的衰减速度比 $1/\ell$ 更慢，这意味着 Sessa 对非常遥远的历史信息保留了相对更强的影响力。例如，当 $\beta=0.5$ 时，衰减是 $O(1/\sqrt{\ell})$ ，这比 Transformer 的 $O(1/\ell)$ 要平缓得多。论文进一步证明，在所述的均匀路由设置下，这个 $O(\ell^{-\beta})$ 的速率是紧的（即可以达到 $\Theta(\ell^{-\beta})$ ），并且只有 Sessa 这类架构能够在相同条件下实现包括不衰减（non-decaying）在内的各种灵活的选择性检索模式。

创新点与贡献

架构创新：循环多路径聚合：Sessa 首次成功地将注意力机制无缝集成到循环状态反馈路径中，创造了“循环多路径聚合”这一新范式。它既不是纯粹的注意力，也不是纯粹的 SSM，而是一种有机的、功能更强的融合体。
理论突破：实现并证明幂律记忆：论文不仅提出了新模型，还从理论上分析了其长程记忆特性，证明了其能够实现比标准 Transformer 衰减更慢的幂律长尾记忆，这在处理超长上下文时具有根本性优势。
功能完备：统一灵活检索与稳定记忆：Sessa 在一个统一的框架内，同时实现了 Mamba 式的输入依赖选择性（通过内部注意力的查询机制）和超越 Transformer 的长程信息保持能力（通过多路径聚合和幂律衰减）。它可以根据输入动态决定是进行尖锐的检索（关注特定几个历史状态）还是进行弥散的、长期的记忆保持。
实证验证：论文通过实验初步验证了理论优势，表明 Sessa 在匹配架构和训练预算的条件下，在长上下文基准测试上取得了最强的性能，同时在短上下文语言建模上与 Transformer 和 Mamba 基线保持竞争力。

实验结果分析与实践应用建议

根据论文摘要提供的实证结果，Sessa 在“长上下文基准测试”中表现最强。这直接印证了其理论优势：幂律衰减的记忆机制使其在需要从超长文档中检索或整合信息的任务（如长文档摘要、代码库理解、长对话历史建模、基因组序列分析）中具有巨大潜力。同时，它在短上下文任务上保持竞争力，说明其引入的复杂度没有损害模型在常规任务上的基本能力。

在人工智能与量化交易领域的应用建议

对于通用人工智能（AGI）与长上下文 NLP：

研发方向：将 Sessa 作为核心模块，构建下一代大语言模型（LLM）。重点攻克需要“真正理解”超长文本的任务，例如：整本书的连贯问答、跨数百页法律文档的条款关联分析、长期多轮对话中用户偏好的一致性保持。
工程实践：由于 Sessa 结合了循环和注意力，其训练和推理的并行化策略需要精心设计。可以探索类似于 Mamba 的并行扫描（parallel scan）算法与注意力计算的融合优化。在硬件层面，需要平衡对高带宽内存（用于注意力）和高效序列计算（用于状态更新）的需求。
提示设计：当使用基于 Sessa 的模型时，可以更放心地提供极长的上下文，并设计提示词要求模型综合处理全文信息，而不用担心远端信息被过度稀释。

对于量化交易与金融时序预测：

市场微观结构建模：金融高频数据序列极长，且不同时间尺度的信息重要性不同。Sessa 的幂律记忆特性非常适合捕捉从秒级噪音到日度、周度趋势的多尺度特征。其内部注意力可以灵活地“回顾”特定的历史关键事件（如央行决议时刻的市场状态），而循环路径则保持对整体市场氛围的持续跟踪。
风险因子分析与传播：一个风险事件（如某公司违约）的影响会在不同资产、不同时间上以复杂方式传播。Sessa 的多路径聚合机制可以模拟这种影响的非局部、非线性传播路径，比传统的 RNN 或固定窗口的 Transformer 更贴合实际。
实践建议：在构建量化因子或端到端预测模型时，可以将 Sessa 层用于处理原始价格、订单流序列。关键是需要设计合适的输入表征，将金融时间序列的典型特征（如成交量、波动率）融入模型。同时，利用其长程记忆能力，可以尝试直接处理更长的历史窗口，减少对人工构造滞后特征或统计摘要的依赖。

未来发展方向

扩展性与效率：深入研究 Sessa 在大规模训练（千亿参数以上）时的可扩展性。如何高效处理数百万长度的上下文？内部注意力的复杂度如何进一步优化？可能需要发展稀疏化、分层化或近似检索技术。
多模态与跨模态：将 Sessa 的思想扩展到多模态领域。例如，在视频理解中，状态可以表示时空特征，内部注意力可以在时间维度上进行长程关联，这对于理解长视频叙事至关重要。
理论深化：论文的理论分析基于特定假设。未来可以探索更一般的条件下 Sessa 的动态系统特性，以及其与动力系统理论、记忆网络理论的更深层联系。
硬件协同设计：Sessa 混合了数据流模式，可能需要新型的 AI 加速器架构来获得最优性能，这为软硬件协同设计提供了新课题。

总结与展望

Sessa 论文代表了一次重要的序列建模范式演进。它敏锐地指出了当前主流架构（Transformer 和选择性 SSM）在长程记忆与灵活检索方面的固有局限，并提出了一个优雅而有力的解决方案：通过将注意力嵌入反馈路径，实现循环多路径聚合。这不仅在理论上带来了具有吸引力的幂律衰减记忆特性，也在初步实验中展现了其在长上下文任务上的潜力。

Sessa 的意义在于，它打破了“注意力”与“循环”之间非此即彼的思维定式，展示了一条融合二者优势的新道路。它暗示着，未来更强大的序列模型可能既不是纯粹的“全局处理器”，也不是纯粹的“局部传播器”，而是一种能够根据任务需求，在多种信息处理模式间动态切换的“智能动态系统”。

尽管 Sessa 仍处于研究初期，其具体实现、大规模训练稳定性和更广泛的实证评估尚待深入，但其核心思想无疑为长上下文人工智能、复杂时序分析等领域点燃了一盏新的指路明灯。我们有理由期待，沿着这条“多路径聚合”的思路，将会催生出更多既能洞察细微局部，又能把握宏大脉络的下一代序列模型。