FUSDREAMER: Label-Efficient Remote SensingWorld Model for Multimodal Data Classification
Abstract摘要——世界模型能够显著增强层次化理解能力从而提升数据整合能力和学习效率。为探索世界模型在遥感remote sensingRS领域中的应用潜力本文提出了一种面向多模态数据融合的标签高效遥感世界模型 FusDreamer。FusDreamer 将世界模型作为统一的表征容器用于抽象不同类型数据之间共有的高层知识并促进高光谱影像hyperspectral imageHSI、激光雷达light detection and rangingLiDAR以及文本数据之间的交互。首先本文采用一种新的潜在空间多模态生成范式latent-spatial multimodal generationLaMG该范式具有出色的信息整合能力和细节保持能力。随后开放世界知识引导的一致性投影模块open-world knowledge-guided consistency projectionOK-CP引入视觉描述对象的提示表征并通过对比学习对齐语言特征与视觉特征。通过这种方式可以在有限样本条件下对预训练世界模型进行微调从而弥合领域差距。最后端到端的多任务组合优化策略multitask combinatorial optimizationMuCO能够捕捉细微的特征偏差并将扩散过程约束在协同可学习的方向上。在四个典型数据集上的实验结果表明所提出的 FusDreamer 具有有效性和优势。相关代码将发布于https://github.com/Cimywang/FusDreamer。关键词——对比学习扩散过程多模态数据融合世界模型。I. INTRODUCTION多模态数据融合尤其是高光谱影像hyperspectral imageHSI与激光雷达light detection and rangingLiDAR数据融合已在地上生物量估算、城市分类和环境监测等任务中受到广泛关注[1][2]。在遥感remote sensingRS领域中HSI 与 LiDAR 能够提供不同但互补的视觉光谱信息从而增强感知能力并弥补彼此的局限性。近年来深度学习deep learningDL技术对遥感领域产生了显著影响。该类方法通常利用多层卷积、池化和全连接层来表征数据内部的关系[3][4][5]。例如Ge 等人[6]提出了一种深度残差融合网络通过拼接来自不同数据源的深层特征实现 HSI 与 LiDAR 数据分类。随后为增强特征表征能力各类改进的卷积技术被提出例如空洞卷积[7]、可变形卷积[8]和正交卷积[9]。这些技术通常能够更好地适应不同数据特征从而提高通道特征和空间特征表征的效率与准确性。之后视觉 Transformervision transformerViT作为一种突破性的图像处理架构被引入[10]。与传统卷积神经网络convolutional neural networksCNNs相比ViT 利用自注意力机制有效捕获视觉数据中的全局依赖关系因此相比 CNN 具有更强的特征捕获能力和泛化能力。各种 ViT 变体进一步推动了图像识别与分类领域的发展例如 Swin Transformer[11] 和 ScalableViT[12]。然而无论是基于 CNN 还是基于 ViT 的结构通常都需要大量高质量标注训练数据才能得到充分训练并且在仅有少量标注训练样本的情况下很难达到最优性能[13]。研究人员已经证明在 ImageNet 等大规模数据集上预训练的模型可以针对特定遥感任务进行微调从而为标注样本有限的问题提供一种潜在解决方案[14][15]。例如Lee 等人[14]在 ImageNet 数据集上开发了一种跨域预训练模型并广泛采用跨域方法与从零开始训练的方法进行对比。然而将 ImageNet 预训练模型直接迁移到遥感分类任务中会由于自然图像与遥感图像之间存在显著差异而面临较大的领域差距。此外以视觉为中心的基础模型通常只关注特定的视觉模式特征而忽略了对目标及其相互关系的语义理解。例如在进行土地覆盖分类时如果某个建筑屋顶像素在视觉上与高速公路路面相似以视觉为中心的模型可能会将该建筑屋顶像素错误分类为高速公路路面[16]。如今大语言模型的成功推动了视觉—语言模型vision-language modelsVLMs相关研究的广泛开展[17][18]。为了更好地利用 VLMs 进行遥感数据分析一个重要步骤是将遥感专家知识合理地融入 VLMs 中即赋予大语言模型特定领域知识例如传感器成像理论、空间相关性以及遥感图像中地物的光谱特征[19]。例如有研究设计了光谱提示调优方法通过软提示实现特征增强[20]。与此同时也有一些研究采用硬提示为不同下游任务设计特定的提示模板[21][22]。尽管如此如何探索更加鲁棒的特征传递机制与表征空间以弥合不同视觉信息与语言信息之间的差距仍然是一个有待解决的问题。世界模型致力于为多模态数据之间的特征传递构建潜在交互空间。尤其是在世界模型中融合视觉—语言模型vision-language modelsVLMs与扩散模型能够增强其弥合视觉信息与语言信息差距的能力[23][24]并在机器人导航、游戏开发和自动驾驶等领域发挥了重要作用[25][26][27]。近年来在遥感领域中现有的文本到图像模型通常直接对文本和视觉信息分别进行分类缺乏统一的特征表达空间。为此本文首次将世界模型的特征形态引入遥感领域并提出了一种面向多模态数据融合的标签高效遥感世界模型 FusDreamer。一方面所提出的 FusDreamer 能够利用广泛的开放世界知识来提高分类精度。另一方面联合训练有助于对齐文本与多模态数据的特征空间从而缩小领域差距并提升模型在不同类型数据之间的泛化能力。与仅依赖特定视觉特征的视觉中心模型相比所提出的 FusDreamer 采用生成式世界模型进行文本与视觉信息的融合和分类能够增强模型的泛化能力使其即使在标注样本有限的情况下也能更有效地处理多样且复杂的遥感任务。本文的主要贡献如下。1提出了首个遥感世界模型即 FusDreamer。该模型为多模态数据提供了统一的表征容器并以一种协同一致的方式促进特征的层次化理解与传递。2提出了一种新的交互式潜在扩散范式用于多模态特征生成。该范式在特征反向生成过程中通过组合优化策略引入内在视觉信息和物理知识从而促进更加丰富的特征表征。3提出了开放世界知识引导的一致性投影open-world knowledge-guided consistency projectionOK-CP模块用于整合自类别提示表征和差异化物理提示表征。预训练的开放世界知识有助于实现领域不变学习从而解决标注样本有限条件下的多模态分类问题。4在四个多模态数据集上的实验结果表明FusDreamer 具有明显优势。与当前最先进state-of-the-artSOTA网络相比该方法始终能够取得最高性能。II. RELATEDWORKSA. World Model世界模型是针对特定环境所构建的内部表征与模拟机制能够在不依赖真实世界交互的情况下模拟复杂场景对于需要高级认知功能的任务至关重要[28]。世界模型被视为一种生成模型用于促进特征表征的生成并支持下游任务中的感知、控制与预测[29]。通常世界模型首先使用潜变量模型例如变分自编码器variational autoencodersVAEs[30]等对环境的潜在状态进行建模。随后可以利用循环神经网络recurrent neural networksRNNs或 Transformer 架构[31]构建时空动态建模机制用于预测一系列未来状态的演化过程。最后模型会生成与特定目标相关的策略和决策。其中扩散模型作为一种主流的概率生成模型结构已被广泛应用于世界模型中[32][33]。扩散模型通过逐步向数据中引入噪声并进一步学习如何反转这一过程从而实现样本生成[34]。例如真实世界数据驱动的世界模型 DriveDreamer[32] 通过从真实世界数据中学习使自动驾驶车辆能够理解复杂的驾驶场景。在此基础上大语言模型增强的世界模型 DriveDreamer2[33] 将世界模型提升到更高层次增强了车辆对复杂驾驶环境进行鲁棒理解、预测和导航的能力最终有助于实现更加安全可靠的自动驾驶。综上所述世界模型之所以能够在自动驾驶领域取得巨大成功主要得益于其构建了一个潜在的模块化交互空间使不同多模态数据之间能够进行特征传递。本文受世界模型概念的启发旨在为通过生成模型模拟环境提供一个稳定且统一的表示空间将高维数据压缩为抽象表示并整合多模态数据以支持下游任务。该方法提出了一种创新范式将世界模型应用于资源调度RS领域。B. Pre-Training VLMs for Multimodal Data Fusion为了降低模型对标注数据的依赖自监督方法和基于知识迁移的方法[35][36]成为有效学习与提升模型泛化能力的重要方向例如掩码自编码器masked autoencodersMAEs[37]和一种简单的掩码图像建模框架 SimMIM[38]。此外研究人员指出在 ImageNet 以及其他大规模图像—文本配对数据集上预训练的模型也可以通过微调来提升特定遥感任务的性能[16]。近年来视觉—语言模型vision-language modelsVLMs已被广泛应用于遥感领域。视觉—语言模型vision-language modelsVLMs主要分为两类即单分支结构和双分支结构。单分支结构采用早期融合方式将图像—文本对进行联合编码并在多层跨模态 Transformer 中建模视觉表征和文本表征例如用于视觉与语言的双向编码器表示模型 VisualBERT[39]以及通用图像—文本表征模型 Uniter[40]。相比之下双分支结构采用后期融合方式分别对图像特征和文本特征进行编码然后通过点积或多层感知机捕获二者之间的交互关系从而获得不同模态的高层表征例如对比语言—图像预训练模型 CLIP[41]和大规模图像与噪声文本嵌入模型 ALIGN[42]。例如Zhang 等人[43]利用语言特征构建共享语义空间并通过监督式对比学习实现视觉信息与语言信息的对齐从而取得了较强的领域适应能力和分类性能。Cao 等人[21]提出了一种光谱—空间—语言融合网络spectral–spatial–language fusion networkS2LFNet该网络利用光谱特征与空间特征之间共同共享的语言先验知识拓展语义空间并提升多模态数据融合任务中的数据表征能力。实验结果表明预训练视觉—语言模型是遥感多模态数据融合与分类领域的一个新兴研究方向。III. PROPOSEDAPPROACH本文基于世界模型的概念提出了 FusDreamer。该模型能够构建一个统一且集成的多模态潜在状态表征空间并有助于弥合多模态信息之间的差距例如视觉信息与语言信息之间的差距。FusDreamer 主要包含三个部分即第 III-A 节中的潜在空间多模态生成latent-spatial multimodal generationLaMG模块、第 III-B 节中的开放世界知识引导一致性投影open-world knowledge-guided consistency projectionOK-CP模块以及第 III-C 节中的多任务组合优化multitask combinatorial optimizationMuCO模块。具体而言LaMG 模块通过潜在扩散过程[44][45]提取反向潜在多模态视觉特征。OK-CP 模块则基于物理知识属性生成具有语义感知能力的开放世界提示从而实现对语言信息的精确描述。在世界模型的潜在空间中视觉特征与语言特征通过 OK-CP 模块中的端到端多任务协同训练框架进行交互并相互约束从而协同增强多模态数据融合过程。整个框架如图 1 所示。A. Latent-Spatial Multimodal Generation Module典型的基于 CNN 的判别式模型通常依赖其特征提取器的结构来获取多层次信息而这种特征提取过程受其他领域语义特征的影响或约束较小。相比之下生成式模型例如潜在扩散模型[44]在多模态特征融合方面具有更高的灵活性并且允许在特定条件下进行可控的数据生成例如考虑由物理知识属性所产生的语义结构。因此基于潜在扩散的生成式模型具有更强的可学习性和可控性。本文将其作为特征提取器用于处理和整合来自不同模态的特征从而实现 HSI–LiDAR 特征的融合生成。具体而言本文设计了一个用于遥感特征生成的LaMG 模块。其前向扩散过程和反向生成过程遵循去噪扩散概率模型DDPMs[34] 的固定学习策略并在反向生成过程中发展出一种独特的、自适应且交互式的多模态数据融合策略。反向扩散过程采用一种基于交互式 U-Net 的编码器—解码器结构以保证浅层卷积更加关注纹理特征而深层网络则捕获更关键的高层表征。更详细的内容如下。B. Open-World Knowledge-Guided Consistency ProjectionModule以视觉为中心的模型在标注样本有限的情况下往往难以进行有效训练。已有研究表明引入开放世界提示信息能够增强特征表征能力因为这类信息可以提供对目标物理属性及其相互关系的深层理解。因此本文遵循 CLIP 结构将预训练的开放世界知识整合到世界模型中用于提示信息与多模态数据的生成。具体内容如下。1多模态特征编码器为了充分保留多模态融合特征张量在三维空间中的属性本文采用 3D 残差卷积层对融合特征进行更深层次的编码。这些 3D 残差卷积层不仅能够捕获更加丰富的空间信息还能够有效提取跨模态联合特征。此外深层编码模块中还引入了跳跃连接有助于在多个网络层之间传递更加细致的信息从而提升模型的整体性能。图 2 展示了多模态数据的特征提取过程。如图 2 所示由生成式 LaMG 模块得到的融合解码特征能够有效整合多模态输入数据中的关键特征。然而它仍然保留了来自原始数据的干扰信息。相比之下经过多模态特征编码器multimodal feature encoderMFE处理后得到的融合特征能够显著抑制背景噪声从而增强提示信息与多模态数据之间的一致性投影。每个像素的分类结果y^ 可以通过多模态融合特征获得2多属性提示编码器多属性提示编码器multiattribute prompts encoderMPE在四种不同类型的提示中引入了更丰富的描述信息包括颜色、形状/高度以及类别间关系等。基于遥感场景中土地覆盖类别的先验知识本文为每个类别精心构建了自类别描述和差异化物理描述。如表 I 所示本文采用“A hyperspectral and lidar multimodal data of ⟨class name⟩”作为模板以完形填空的形式为每个类别生成自类别提示描述。对于差异化物理描述本文利用先验知识人工描述颜色、形状、分布以及邻接关系等属性。例如“苹果树呈现土黄色和绿色”“建筑物位于道路旁边”“葡萄园和苹果树距离较远”。每个土地覆盖类别被分配三个差异化物理描述这些描述在表 I 中用紫色标出。首先这些提示需要通过经过调整的预训练语言模型进行分词处理[46]。该模型以一个包含 3300 万参数的基础模型为起点由三层结构组成宽度为 512并包含 8 个注意力头。与 CLIP 类似该 Transformer 使用小写字节对编码byte pair encodingBPE进行文本表示词表大小为 49152。为了保证计算效率序列长度被限制为 77。随后这些语言特征经过层归一化并通过线性投影映射到语义空间中。3促进多模态对齐C. 多任务组合优化模块本文采用多任务组合优化模块multitask combinatorial optimizationMuCO以利用来自开放世界的大规模先验信息来优化多模态特征融合模块。该策略通过考虑由物理知识生成的开放世界提示信息能够直接约束 LaMG 模块反向过程中的数据生成并协同优化扩散噪声预测模块、多模态分类模块以及提示信息—多模态特征投影模块。3提示信息—多模态一致性损失将提示特征与多模态特征进行对齐可以进一步增强模型的特征表征能力和跨模态检索性能。在本文方法中自类别提示用于在世界模型维度的先验信息指导下提升模型在复杂场景中的泛化能力。另一方面差异化物理提示有助于模型在特定约束下实现高精度、高鲁棒性的特征融合。因此该模块将分别处理两组损失即 LmcL_{mc}Lmc 和 LmdL_{md}Lmd以在不同层次上优化模型性能。