上下文空间中即时排斥以实现扩散变换器中的丰富多样性

论文信息

标题: On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers

作者: Omer Dahary, Benaya Koren, Daniel Garibi, et al.

发布日期: 2026-03-30

PDF链接: 下载PDF

论文背景与研究动机：文本到图像生成的“典型性偏差”困境

现代文本到图像扩散模型，如 Stable Diffusion、DALL-E 系列和 Midjourney，在语义对齐方面取得了令人瞩目的成就。用户输入一段文字描述，模型便能生成高度相关且逼真的图像。然而，一个日益凸显的问题是“典型性偏差”：对于同一个文本提示，模型倾向于收敛到一组非常狭窄的视觉解决方案上。例如，输入“一只猫坐在沙发上”，模型可能会反复生成构图、颜色、猫的品种都高度相似的图像，缺乏创意和多样性。

这种缺乏多样性的现象严重制约了模型在创意设计、艺术创作、内容营销等需要大量视觉变体的应用场景中的潜力。用户往往需要多次尝试、修改提示词或加入负面提示，才能获得些许变化，过程繁琐且不可控。因此，如何在不牺牲图像质量和语义忠实度的前提下，高效、可控地提升生成多样性，成为当前扩散模型研究的一个关键挑战。

现有提升多样性的方法主要面临一个根本性的权衡困境。论文将其归纳为两类：

修改模型输入：例如，通过优化初始噪声或提示词嵌入来探索不同的生成路径。这类方法通常需要昂贵的迭代优化过程，以融入生成路径的反馈，计算成本高，难以实时应用。
干预中间潜在表示：在去噪过程的早期或中期，直接对图像潜在空间的特征进行扰动。然而，扩散过程具有强烈的因果性和结构性，一旦视觉结构开始形成，粗暴的干预很容易破坏正在成形的构图，导致图像出现伪影、扭曲或不连贯。

因此，研究团队的核心动机是寻找一个“恰到好处”的干预点：在这个点上，文本条件信息已经与初步的图像结构信息融合，但最终的视觉构图尚未完全固化。在此处进行干预，可以有效地“引导”生成轨迹转向新的分支，同时避免破坏已形成的合理结构。他们最终将目光投向了扩散变换器中的“上下文空间”。

核心方法：在上下文空间中实施“飞行中排斥”

本文提出的方法名为“上下文空间动态排斥”。其核心思想是在扩散变换器的前向传播过程中，对多模态注意力机制中的“上下文”施加一个排斥力，以鼓励生成路径的多样性。

关键概念解析

首先，需要理解几个关键概念：

扩散变换器：这是新一代的扩散模型架构，如 DiT，它使用 Transformer 块替代了传统 U-Net 中的卷积层，来处理图像潜在表示序列。每个 Transformer 块包含自注意力层和多模态交叉注意力层。
上下文空间：在扩散变换器的交叉注意力机制中，文本提示的词嵌入被用作“键”和“值”，图像潜在特征被用作“查询”。注意力操作的本质是让图像特征去“查询”并聚合最相关的文本信息。这个聚合了文本语义信息的图像特征表示，就被称为“上下文”。它承载了当前生成步骤中，文本条件与图像结构融合后的引导信息。
飞行中排斥：指在单次模型推理的前向传播过程中，实时进行计算和干预，无需任何额外的迭代优化或微调。这保证了方法的高效性。

技术细节：如何实施排斥

方法的实施流程如下：

选择干预时机：研究团队发现，在扩散去噪过程的中期进行干预效果最佳。此时，粗略的图像结构（如物体布局、姿态）已从噪声中浮现，但细节（如纹理、精确形状）尚未确定。文本条件信息通过前几个 Transformer 块，已经与这些初步结构进行了初步融合。
识别与计算“上下文”：在选定的 Transformer 块中，提取其交叉注意力层输出的“上下文”特征。假设在批次中生成了 $N$ 个样本，则可以得到一组上下文向量 $\{c_1, c_2, ..., c_N\}$ 。
应用排斥力：核心操作是为每个样本的上下文 $c_i$ 计算一个“排斥梯度”，该梯度推动它远离其他样本的上下文。一种简单的实现是计算 $c_i$ 与其他所有上下文 $c_j (j \neq i)$ 的负余弦相似度梯度： $\text{repulsion\_grad}_i = -\sum_{j \neq i} \nabla_{c_i} \text{sim}(c_i, c_j)$ 其中 $\text{sim}$ 是相似度函数（如余弦相似度）。这个梯度方向旨在最大化 $c_i$ 与其他上下文在特征空间中的差异性。
注入干预：将计算得到的排斥梯度，以一个可控的强度系数 $\lambda$ ，叠加回原始的上下文 $c_i$ 上： $c_i' = c_i + \lambda \cdot \text{repulsion\_grad}_i$ 这个被修改后的上下文 $c_i'$ 随后被送入后续的 Transformer 层或前馈网络，继续参与前向传播。
引导轨迹分岔：由于上下文是指导图像生成的关键信号，对其施加排斥力，相当于在决策点轻微地扭转了每个样本的“生成指南针”，使它们指向略有不同的视觉概念方向。由于干预发生在结构已初步形成之后，这些分岔的轨迹会各自演化出在整体构图合理的前提下，细节各不相同的图像。

这种方法的美妙之处在于其“外科手术式”的精准干预。它不直接扰动图像像素或低级特征，而是作用于更高层、更语义化的“上下文”表示层。这既避免了早期干预导致的结构崩溃，也避免了晚期干预收效甚微的问题。

创新点与贡献

本论文的主要创新与贡献可总结如下：

提出了“上下文空间”作为多样性干预的新维度：首次系统性地提出并验证了在扩散变换器的多模态注意力上下文空间中实施操作，是控制生成多样性的高效且安全的手段。这为理解扩散模型的生成控制机制提供了新的视角。
设计了“飞行中排斥”这一高效算法：该方法仅在单次前向传播中增加少量计算（主要计算开销来自样本间相似度计算），无需训练、微调或迭代优化。实现了实时、低成本的多样性增强。
解决了传统方法在高效模型上的失效问题：论文特别指出，该方法在“Turbo”或蒸馏过的快速扩散模型上依然有效。这类模型因去噪步骤大幅减少，生成轨迹变得非常紧凑和确定，传统的基于轨迹扰动的方法很难生效。而上下文空间排斥因其干预的精准性，依然能在极少的步骤中有效引导分岔。
实现了多样性、质量与语义忠实度的平衡：实验表明，该方法能显著增加生成结果的视觉多样性，同时很好地保持了图像的真实感和对文本提示的遵循，避免了因追求多样性而产生的语义偏离或质量下降。

实验结果分析

论文通过定性和定量实验全面评估了所提方法。

定性结果：展示了对同一提示词，使用基线方法和加入上下文排斥方法所生成的多组图像对比。可以清晰看到，基线模型的输出往往高度同质化（例如，同一视角、类似颜色的物体），而本方法生成的图像在物体视角、颜色方案、局部细节、风格暗示上呈现出丰富得多的变化，且每张图像都保持高质量和合理性。
定量结果：
- 多样性度量：使用感知距离（如LPIPS）计算同一提示下生成图像对之间的差异平均值。本方法在该指标上显著高于基线模型，证明其有效提升了视觉多样性。
- 质量与忠实度度量：使用FID评估整体图像质量分布，使用CLIP分数评估图像与文本的语义对齐度。实验结果显示，本方法在大幅提升多样性的同时，FID和CLIP分数与基线相比没有显著下降，有时甚至有轻微改善，证明了其不会损害核心生成性能。
- 效率分析：测量了加入排斥操作后的额外推理时间开销，证实其只带来很小的计算负担（通常低于10%），完全适用于实时或交互式应用。

实践应用建议与未来发展方向

在人工智能内容生成领域的应用建议

创意产业工具集成：该技术可以无缝集成到现有的商业或开源T2I工具中，作为一个“多样性滑块”或“创意增强”按钮。设计师和艺术家可以通过调节排斥强度 $\lambda$ ，轻松在“严格遵循提示”和“大胆创意发散”之间取得平衡，快速生成一系列可供选择的视觉方案。
数据集增强：用于自动生成训练数据的研究中，可以利用此方法从一个文本描述快速生成多个视觉变体，增加数据集的多样性和覆盖面，从而训练出更鲁棒的视觉模型。
个性化生成控制：可以探索将排斥力不仅仅作用于批次内样本之间，还可以作用于与一组预设“锚点”上下文之间。例如，用户可以选择几种不同的艺术风格或构图模板作为锚点，让模型生成的结果在排斥这些锚点的过程中，探索全新的、混合的风格空间。

未来研究方向

更智能的排斥策略：当前使用均匀的样本间排斥。未来可以研究更精细的策略，例如基于语义聚类进行分组内排斥和组间吸引，或在不同的去噪步骤动态调整排斥强度和目标，以实现对多样性维度（如颜色、形状、布局）的更精细控制。
与其他控制方法的结合：如何将上下文空间排斥与ControlNet、IP-Adapter等基于空间约束或参考图像的控制方法相结合，是一个有趣的课题。目标是在满足严格空间布局或风格要求的同时，在允许的范围内最大化内容多样性。
理论机理的深入探索：进一步从理论上分析上下文空间在扩散生成过程中的动力学作用，理解排斥力如何影响注意力分布和特征演化，从而建立更坚实、可预测的控制理论。
扩展到视频与3D生成：将这一思想扩展到视频扩散模型或3D生成模型。在时序或三维的上下文空间中实施排斥，可能有助于生成动作、视角或结构更加多样化的动态序列或三维资产。

总结与展望

《On-the-fly Repulsion in the Contextual Space for Rich Diversity in Diffusion Transformers》这篇论文针对文本到图像生成模型中的典型性偏差问题，提出了一种新颖、高效且有效的解决方案。通过深入剖析扩散变换器的生成机理，它发现了“上下文空间”这一关键干预界面，并创新性地提出了在模型前向传播过程中实施动态排斥的算法。

这项工作的重要意义在于，它突破了提升生成多样性时面临的“质量-多样性”权衡和“效率-效果”权衡。其方法像一位经验丰富的向导，在生成路径的“十字路口”轻轻推一把，让队伍走向不同的风景，而不是在起点就改变目的地或在终点强行扭曲结果。这种精准性使其即使在高度优化的快速生成模型上也能大显身手。

展望未来，随着多模态大模型和扩散模型技术的持续演进，对生成过程的可控性、可解释性和可引导性的需求将愈发强烈。本文提出的“上下文空间干预”范式，不仅为多样性生成提供了强大工具，更开辟了一条通过操作模型内部高级语义表示来实现精细化控制的新研究路径。它预示着下一代生成式AI将不仅仅是“听话的画家”，更是能够理解创作意图、主动提供丰富创意选择的“智能协作伙伴”。