转载自:遥感与深度学习
题目:Any2Any: Unified Arbitrary Modality Translation for Remote Sensing
论文:https://arxiv.org/abs/2603.04114
数据:RST-1M(本文构建)
代码:https://github.com/MiliLab/Any2Any
年份:2026
单位:武汉大学、北京中关村学院、北京理工大学
创新点
- 首次将遥感跨模态翻译任务形式化为任意到任意(Any-to-Any)的统一框架,将建模复杂度从 O(N²) 降至 O(1)
- 构建了首个百万级多模态遥感数据集 RST-1M,覆盖五种传感器模态,支持任意模态对间的监督学习
- 提出基于共享潜在扩散框架的 Any2Any 模型,通过潜在锚点机制将异构模态对齐至统一语义空间
- 设计轻量级目标模态残差适配器,在不增加推理复杂度的前提下修正模态间的系统性分布偏差
背景
现代地球观测系统采用多种异构传感器获取多模态数据(RGB、SAR、PAN、NIR、MS),这些模态来自不同的物理成像机制,提供高度互补的场景信息。然而,由于采集约束和环境因素,大规模共配准的多模态观测数据在实际中十分稀缺,导致系统性的模态缺失问题普遍存在。
现有跨模态翻译方法将每个模态对视为独立任务,需要构建 O(N²) 个方向特定的模型,训练和存储成本随传感器多样性增长而急剧膨胀;且各翻译器在模态特定偏置下独立优化,导致语义知识难以跨模态对共享,泛化能力受限。与此同时,现有多模态遥感数据集规模小、模态覆盖有限,无法支撑系统性的任意模态翻译学习。
数据
RST-1M
- 概述
- 首个百万级遥感任意模态翻译基准数据集
- 包含约 120 万对空间对齐的跨模态图像对,覆盖 7 种模态配对
- 支持 20 个有向模态翻译任务(14 个训练可见方向 + 6 个零样本不可见方向)
- 模态与分辨率
- RGB:256×256×3,约 42.5 万张
- SAR:256×256×1,约 25 万张
- NIR:256×256×1,约 20 万张
- MS:128×128×6,约 20 万张
- PAN:512×512×1,约 10 万张
- 数据来源
- SEN1-2:SAR-RGB 配对(Sentinel-1/2)
- SEN12MS:SAR、RGB、NIR、MS 配对(Sentinel-1/2)
- CACo:RGB、NIR、MS(Sentinel-2)
- SpaceNet-3 & SpaceNet-5:RGB-PAN 配对(WorldView-3)
- 构建策略
- 以 RGB 为枢轴模态桥接不连通的模态对,确保全局跨模态可达性
- 对 Sentinel-2 原始数据按标准波段配置派生 RGB、NIR 和 MS 图像
方法
整体框架:解耦式潜在扩散生成框架
Any2Any 将任意模态翻译分解为三个阶段:模态特定潜在投影、统一语义映射、流形校准。
阶段一:模态特定潜在投影
- 为每种模态独立训练一个变分自编码器(VAE),将异构传感器数据投影至统一的几何对齐潜在空间
- 编码器将各模态原始观测压缩为维度统一的潜在表示
- 解码器将潜在表示重建回对应模态图像
- 训练目标结合像素级重建损失、感知损失与 KL 散度正则化
阶段二:统一语义映射(潜在锚点机制)
- 冻结 VAE 参数,基于对齐的潜在空间训练共享 Diffusion Transformer(DiT)骨干网络
- 将含噪目标潜在与源模态潜在沿通道维拼接作为骨干输入
- 通过自适应层归一化(AdaLN)将时间步嵌入、源模态标识与目标模态标识融合为联合调制向量
- 采用 x₀ 预测重参数化(而非噪声预测),将去噪轨迹直接锚定至目标模态语义结构,避免跨模态结构退化
阶段三:流形校准(残差适配器)
- 为每个目标模态配置一个轻量级残差适配器,修正骨干预测与目标解码器流形之间的系统性分布偏差
- 适配器采用紧凑卷积网络结构,附带 SE 通道注意力模块
- 最终投影层零初始化,确保训练初期不破坏骨干预训练先验
- 通过停止梯度算子将适配器优化与骨干参数解耦
- 推理时为单次前向操作,保持 O(1) 计算开销
结果与分析
Any2Any 在全部 14 个模态翻译任务上均达到最优或接近最优性能,以单一统一模型显著超越需要训练 14 个独立模型的现有方法。此外,尽管仅在部分模态对上训练,模型对 6 个未见模态对展现出强零样本泛化能力,验证了共享潜在空间中语义表示的可迁移性。