ICML 2026 | 武大等提出Any2Any：首个遥感图像跨模态翻译统一转换框架

Amusi

发布于 2026-05-29 14:05:50

1120

文章被收录于专栏：CVerCVer

转载自：遥感与深度学习

题目：Any2Any: Unified Arbitrary Modality Translation for Remote Sensing

论文：https://arxiv.org/abs/2603.04114

数据：RST-1M（本文构建）

代码：https://github.com/MiliLab/Any2Any

年份：2026

单位：武汉大学、北京中关村学院、北京理工大学

创新点

背景

现代地球观测系统采用多种异构传感器获取多模态数据（RGB、SAR、PAN、NIR、MS），这些模态来自不同的物理成像机制，提供高度互补的场景信息。然而，由于采集约束和环境因素，大规模共配准的多模态观测数据在实际中十分稀缺，导致系统性的模态缺失问题普遍存在。

现有跨模态翻译方法将每个模态对视为独立任务，需要构建 O(N²) 个方向特定的模型，训练和存储成本随传感器多样性增长而急剧膨胀；且各翻译器在模态特定偏置下独立优化，导致语义知识难以跨模态对共享，泛化能力受限。与此同时，现有多模态遥感数据集规模小、模态覆盖有限，无法支撑系统性的任意模态翻译学习。

数据

RST-1M

概述
- 首个百万级遥感任意模态翻译基准数据集
- 包含约 120 万对空间对齐的跨模态图像对，覆盖 7 种模态配对
- 支持 20 个有向模态翻译任务（14 个训练可见方向 + 6 个零样本不可见方向）
模态与分辨率
- RGB：256×256×3，约 42.5 万张
- SAR：256×256×1，约 25 万张
- NIR：256×256×1，约 20 万张
- MS：128×128×6，约 20 万张
- PAN：512×512×1，约 10 万张
数据来源
- SEN1-2：SAR-RGB 配对（Sentinel-1/2）
- SEN12MS：SAR、RGB、NIR、MS 配对（Sentinel-1/2）
- CACo：RGB、NIR、MS（Sentinel-2）
- SpaceNet-3 & SpaceNet-5：RGB-PAN 配对（WorldView-3）

构建策略
- 以 RGB 为枢轴模态桥接不连通的模态对，确保全局跨模态可达性
- 对 Sentinel-2 原始数据按标准波段配置派生 RGB、NIR 和 MS 图像

方法

整体框架：解耦式潜在扩散生成框架

Any2Any 将任意模态翻译分解为三个阶段：模态特定潜在投影、统一语义映射、流形校准。

阶段一：模态特定潜在投影

为每种模态独立训练一个变分自编码器（VAE），将异构传感器数据投影至统一的几何对齐潜在空间
- 编码器将各模态原始观测压缩为维度统一的潜在表示
- 解码器将潜在表示重建回对应模态图像
- 训练目标结合像素级重建损失、感知损失与 KL 散度正则化

阶段二：统一语义映射（潜在锚点机制）

冻结 VAE 参数，基于对齐的潜在空间训练共享 Diffusion Transformer（DiT）骨干网络
- 将含噪目标潜在与源模态潜在沿通道维拼接作为骨干输入
- 通过自适应层归一化（AdaLN）将时间步嵌入、源模态标识与目标模态标识融合为联合调制向量
- 采用 x₀ 预测重参数化（而非噪声预测），将去噪轨迹直接锚定至目标模态语义结构，避免跨模态结构退化

阶段三：流形校准（残差适配器）

为每个目标模态配置一个轻量级残差适配器，修正骨干预测与目标解码器流形之间的系统性分布偏差
- 适配器采用紧凑卷积网络结构，附带 SE 通道注意力模块
- 最终投影层零初始化，确保训练初期不破坏骨干预训练先验
- 通过停止梯度算子将适配器优化与骨干参数解耦
- 推理时为单次前向操作，保持 O(1) 计算开销

结果与分析

Any2Any 在全部 14 个模态翻译任务上均达到最优或接近最优性能，以单一统一模型显著超越需要训练 14 个独立模型的现有方法。此外，尽管仅在部分模态对上训练，模型对 6 个未见模态对展现出强零样本泛化能力，验证了共享潜在空间中语义表示的可迁移性。