SOTAlign：基于最优传输的单模态视觉与语言模型半监督对齐方法

论文信息

标题: SOTAlign: Semi-Supervised Alignment of Unimodal Vision and Language Models via Optimal Transport

作者: Simon Roschmann, Paul Krzakala, Sonia Mazelet, et al.

发布日期: 2026-02-26

PDF链接: 下载PDF

论文背景与研究动机：迈向更高效的跨模态对齐

近年来，多模态人工智能，特别是视觉-语言模型（Vision-Language Models, VLMs），取得了突破性进展。这些模型能够理解图像和文本之间的复杂关联，支撑了从图像描述、视觉问答到跨模态检索等一系列应用。一个核心的理论基础是“柏拉图表征假说”（Platonic Representation Hypothesis），该假说认为，在不同模态（如视觉、语言）上独立训练的大型神经网络，其内部表征会收敛于一个关于世界的共享统计模型。这为“对齐”预训练的单模态模型提供了可能性：我们无需从头训练一个庞大的多模态模型，而只需在冻结的、预训练好的视觉编码器和语言编码器之上，学习一个轻量级的“对齐层”，将它们映射到一个共享的语义空间。

当前的主流方法，如CLIP，通过对比学习（Contrastive Learning）在海量的成对图像-文本数据上进行训练，取得了巨大成功。然而，这种方法存在显著瓶颈：对大规模、高质量配对数据的极度依赖。收集和标注数以亿计的精准配对数据成本高昂，且在某些专业领域（如医疗、科学）几乎不可能实现。这限制了模型的泛化能力和应用范围。

因此，一个自然而重要的问题被提出：我们能否用少得多的监督信号（即配对数据）来实现有意义的跨模态对齐？ 这正是《SOTAlign: Semi-Supervised Alignment of Unimodal Vision and Language Models via Optimal Transport》一文的核心研究动机。论文旨在探索一个半监督对齐的新范式：仅利用少量配对数据，结合大量易获取的、未配对的单模态数据（如图像库和文本库），来高效地完成视觉与语言模型的表征对齐。

核心方法：SOTAlign的两阶段最优传输对齐框架

SOTAlign 的核心创新在于其精巧的两阶段框架，它巧妙地结合了监督信号的精确性和无监督数据的结构性信息。其整体目标是将来自视觉编码器的图像特征 $v$ 和来自语言编码器的文本特征 $t$ ，通过可学习的投影头 $f_v$ 和 $f_t$ ，映射到一个共同的 $d$ 维语义空间，使得语义相关的图像-文本对在此空间中的距离更近。

第一阶段：从有限配对数据中恢复粗略几何（线性教师）

在第一阶段，模型仅使用少量可用的配对数据 $\mathcal{D}_p = \{(v_i, t_i)\}_{i=1}^{N_p}$ 。作者采用了一个简单而有效的策略——训练一个线性映射层作为“教师”。具体而言，他们学习两个线性变换 $W_v$ 和 $W_t$ ，将视觉和语言特征分别投影到共享空间，并通过一个标准的对比损失（如InfoNCE损失）进行优化：

\mathcal{L}_{\text{sup}} = -\frac{1}{N_p} \sum_{i=1}^{N_p} \left[ \log \frac{\exp(\text{sim}(W_v v_i, W_t t_i) / \tau)}{\sum_{j=1}^{N_p} \exp(\text{sim}(W_v v_i, W_t t_j) / \tau)} + \text{对称文本项} \right]

其中 $\text{sim}$ 为余弦相似度， $\tau$ 为温度参数。

这个线性模型虽然容量有限，无法捕捉复杂非线性关系，但其优势在于：1）在小数据上不易过拟合；2）能够快速学习到一个粗糙但合理的共享空间几何结构。这个“线性教师”的输出，为第二阶段提供了一个稳定的初始化点和几何先验。

第二阶段：利用未配对数据通过最优传输进行精炼

第二阶段是SOTAlign的灵魂所在。此时，模型引入大量未配对的图像数据 $\mathcal{D}_u^v = \{v_i\}$ 和文本数据 $\mathcal{D}_u^t = \{t_i\}$ 。关键挑战在于：如何利用这些没有直接对应关系的数据来改进对齐，而不引入错误约束？

论文的解决方案是最优传输（Optimal Transport, OT）。OT是数学中研究如何以最小成本将一种概率分布的质量转移到另一种分布的理论。在这里，作者将映射后的图像特征分布 $P_v$ 和文本特征分布 $P_t$ 视为两个概率分布。理想的对齐状态下，这两个分布在共享空间中的整体结构应该相似——例如，在图像空间中“狗”靠近“猫”，在文本空间中“dog”也应该靠近“cat”。

为此，作者定义了一个基于Sliced Optimal Transport（SOT）散度的损失函数。SOT是OT的一种高效近似，它通过随机投影将高维分布映射到多个一维空间，并在这些一维空间上计算Wasserstein距离，最后取平均。其优势是计算复杂度低且易于优化。损失函数设计如下：

\mathcal{L}_{\text{unsup}} = \mathcal{D}_{\text{SOT}}(P_v, P_t)

最小化这个损失，意味着在不要求单个样本点一一对应的情况下，促使两个模态的特征分布在整体几何结构上对齐。它传递的是分布层面的关系结构，而非实例层面的对应关系，从而避免了在无配对信息时强行匹配可能带来的负面影响。

最终，第二阶段的模型使用更强大的非线性投影头 $f_v$ 和 $f_t$ （如MLP），其总损失为：

\mathcal{L} = \mathcal{L}_{\text{sup}} + \lambda \mathcal{L}_{\text{unsup}}

其中 $\lambda$ 是平衡两项的超参数。非线性投影头以第一阶段线性教师的输出为初始化，并在少量配对数据的监督损失和大量未配对数据的SOT分布对齐损失共同指导下进行精炼优化。

创新点与核心贡献

定义了视觉-语言模型半监督对齐的新范式：明确提出了在少量配对数据和大量未配对数据条件下进行跨模态对齐的问题设定，为突破数据瓶颈提供了新思路。
提出了新颖的两阶段SOTAlign框架：
- “线性教师”初始化：巧妙利用线性模型在小样本下的稳定性，快速获取共享空间的粗略几何，为后续非线性优化提供了良好的起点，避免了直接在小数据上训练复杂模型的不稳定性。
- 基于最优传输的无监督对齐损失：这是方法的核心创新。通过SOT散度最小化两个模态特征分布的距离，实现了在分布层级而非实例层级的结构对齐。这种方法能够有效利用未配对数据中蕴含的模态内结构信息（如视觉概念的层次、文本的语义关系），并将这种结构迁移到跨模态空间中，而不会过度约束空间导致崩溃或模式丢失。
实现了数据高效且鲁棒的对齐：实验表明，SOTAlign在极低配对数据比例（如1%）下，性能显著优于纯监督基线和其他半监督方法。它学到的联合嵌入空间在不同数据集和不同预训练编码器组合上均表现出良好的鲁棒性和泛化能力。

实验结果分析

论文在多个标准跨模态检索任务（如图文检索、文图检索）上进行了验证，例如在Flickr30K和MS-COCO数据集上。主要结论如下：

在低配对数据比例下优势显著：当仅使用1%或10%的配对数据时，SOTAlign相比纯监督方法（仅用同等量配对数据）有大幅提升，甚至在某些指标上接近使用100%配对数据的监督模型性能。这证明了其利用未配对数据的巨大价值。
超越现有半监督方法：SOTAlign的性能优于其他利用未配对数据的方法，如基于伪标签或对抗性训练的方法。这表明基于最优传输的分布对齐策略比基于实例匹配的启发式方法更为有效和稳定。
对预训练编码器和数据集的泛化性：作者使用了不同的视觉编码器（如CLIP-ViT, DINO）和语言编码器（如BERT, CLIP文本编码器）进行组合实验。SOTAlign在不同组合上均能有效工作，证明了其方法的一般性。
消融实验验证核心组件：消融研究证实了两阶段设计的重要性：移除线性教师阶段会导致性能下降；用其他分布距离度量（如MMD）替换SOT也会导致效果变差，凸显了最优传输在捕捉几何结构上的优势。

实践应用建议与未来发展方向

在人工智能领域的实践建议

数据稀缺场景的福音：对于医疗影像分析、科学文献理解、工业质检等配对数据难以获取的垂直领域，SOTAlign提供了一套可行的技术方案。实践者可以先收集领域内有限的精准配对数据，再结合大量易得的单模态数据（如医院积累的影像库、学术论文库），快速构建领域专用的跨模态模型。
降低模型部署成本：该方法允许企业利用现成的、强大的开源单模态模型（如BERT、ViT），只需少量标注和大量无标注数据即可进行定制化对齐，避免了从头训练大模型的巨额计算开销和碳排放。
实现流程：
- 阶段一（快速启动）：收集少量（数百到数千）高质量图像-文本对。选择简单的线性层作为投影头，用对比损失进行训练，快速得到一个基准对齐模型。
- 阶段二（性能精炼）：汇集领域内所有可得的未配对图像和文本。构建更复杂的非线性投影网络（如2层MLP），以阶段一的模型参数初始化。组合监督对比损失和SOT无监督损失进行训练，需仔细调整损失权重 $\lambda$ 。

未来发展方向

理论深化：进一步探索柏拉图假说在半监督条件下的表现形式，以及最优传输损失在此过程中所扮演的理论角色。如何理论化地保证从未配对数据中迁移的结构是正确的？
扩展到更多模态：当前框架主要针对视觉-语言。未来可探索将其应用于语音-语言、视频-语言、甚至传感器数据-语言的对齐，构建统一的多模态理解系统。
动态与增量对齐：研究在数据流或任务不断变化的环境中，如何增量式地更新对齐层，以适应新概念的出现。
与生成模型结合：当前工作侧重于学习联合嵌入空间（判别式任务）。如何将这种高效的对齐方式与扩散模型等生成模型结合，实现数据高效的多模态生成（如文生图），是一个充满潜力的方向。
优化与可扩展性：尽管SOT已是对OT的近似，但在处理超大规模未配对数据集时，计算成本仍需优化。研究更高效的分布对齐度量或采样策略是工程应用的关键。

总结与展望

SOTAlign论文针对跨模态对齐中昂贵的数据依赖问题，提出了一种创新且实用的半监督解决方案。其核心洞察在于：将对齐任务分解为从有限配对数据中学习粗略几何，以及从大量未配对数据中通过最优传输迁移分布结构两个阶段。这种方法不仅在多个基准测试上取得了优异的性能，更重要的是，它开辟了一条通往更高效、更通用、更易获取的多模态人工智能的道路。

这项工作表明，迈向更强大AI的路径未必总是需要更多的标注数据，如何更智能地利用已有的、尤其是无标注的数据中蕴含的结构信息，可能才是关键。随着对表征学习理论理解的加深和如最优传输等强大数学工具的运用，我们有望在减少对人工标注依赖的同时，持续提升模型对复杂、多模态世界的理解能力。SOTAlign是这条道路上一次坚实而精彩的探索。