首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >ICML 2026 | 武大等提出Any2Any:首个遥感图像跨模态翻译统一转换框架

ICML 2026 | 武大等提出Any2Any:首个遥感图像跨模态翻译统一转换框架

作者头像
Amusi
发布2026-05-29 14:05:50
发布2026-05-29 14:05:50
1120
举报
文章被收录于专栏:CVerCVer

转载自:遥感与深度学习

题目:Any2Any: Unified Arbitrary Modality Translation for Remote Sensing

论文:https://arxiv.org/abs/2603.04114

数据:RST-1M(本文构建)

代码:https://github.com/MiliLab/Any2Any

年份:2026

单位:武汉大学、北京中关村学院、北京理工大学

创新点

  • 首次将遥感跨模态翻译任务形式化为任意到任意(Any-to-Any)的统一框架,将建模复杂度从 O(N²) 降至 O(1)
  • 构建了首个百万级多模态遥感数据集 RST-1M,覆盖五种传感器模态,支持任意模态对间的监督学习
  • 提出基于共享潜在扩散框架的 Any2Any 模型,通过潜在锚点机制将异构模态对齐至统一语义空间
  • 设计轻量级目标模态残差适配器,在不增加推理复杂度的前提下修正模态间的系统性分布偏差

背景

现代地球观测系统采用多种异构传感器获取多模态数据(RGB、SAR、PAN、NIR、MS),这些模态来自不同的物理成像机制,提供高度互补的场景信息。然而,由于采集约束和环境因素,大规模共配准的多模态观测数据在实际中十分稀缺,导致系统性的模态缺失问题普遍存在。

现有跨模态翻译方法将每个模态对视为独立任务,需要构建 O(N²) 个方向特定的模型,训练和存储成本随传感器多样性增长而急剧膨胀;且各翻译器在模态特定偏置下独立优化,导致语义知识难以跨模态对共享,泛化能力受限。与此同时,现有多模态遥感数据集规模小、模态覆盖有限,无法支撑系统性的任意模态翻译学习。

数据

RST-1M

  • 概述
    • 首个百万级遥感任意模态翻译基准数据集
    • 包含约 120 万对空间对齐的跨模态图像对,覆盖 7 种模态配对
    • 支持 20 个有向模态翻译任务(14 个训练可见方向 + 6 个零样本不可见方向)
  • 模态与分辨率
    • RGB:256×256×3,约 42.5 万张
    • SAR:256×256×1,约 25 万张
    • NIR:256×256×1,约 20 万张
    • MS:128×128×6,约 20 万张
    • PAN:512×512×1,约 10 万张
  • 数据来源
    • SEN1-2:SAR-RGB 配对(Sentinel-1/2)
    • SEN12MS:SAR、RGB、NIR、MS 配对(Sentinel-1/2)
    • CACo:RGB、NIR、MS(Sentinel-2)
    • SpaceNet-3 & SpaceNet-5:RGB-PAN 配对(WorldView-3)
  • 构建策略
    • 以 RGB 为枢轴模态桥接不连通的模态对,确保全局跨模态可达性
    • 对 Sentinel-2 原始数据按标准波段配置派生 RGB、NIR 和 MS 图像

方法

整体框架:解耦式潜在扩散生成框架

Any2Any 将任意模态翻译分解为三个阶段:模态特定潜在投影、统一语义映射、流形校准。

阶段一:模态特定潜在投影

  • 为每种模态独立训练一个变分自编码器(VAE),将异构传感器数据投影至统一的几何对齐潜在空间
    • 编码器将各模态原始观测压缩为维度统一的潜在表示
    • 解码器将潜在表示重建回对应模态图像
    • 训练目标结合像素级重建损失、感知损失与 KL 散度正则化

阶段二:统一语义映射(潜在锚点机制)

  • 冻结 VAE 参数,基于对齐的潜在空间训练共享 Diffusion Transformer(DiT)骨干网络
    • 将含噪目标潜在与源模态潜在沿通道维拼接作为骨干输入
    • 通过自适应层归一化(AdaLN)将时间步嵌入、源模态标识与目标模态标识融合为联合调制向量
    • 采用 x₀ 预测重参数化(而非噪声预测),将去噪轨迹直接锚定至目标模态语义结构,避免跨模态结构退化

阶段三:流形校准(残差适配器)

  • 为每个目标模态配置一个轻量级残差适配器,修正骨干预测与目标解码器流形之间的系统性分布偏差
    • 适配器采用紧凑卷积网络结构,附带 SE 通道注意力模块
    • 最终投影层零初始化,确保训练初期不破坏骨干预训练先验
    • 通过停止梯度算子将适配器优化与骨干参数解耦
    • 推理时为单次前向操作,保持 O(1) 计算开销

结果与分析

Any2Any 在全部 14 个模态翻译任务上均达到最优或接近最优性能,以单一统一模型显著超越需要训练 14 个独立模型的现有方法。此外,尽管仅在部分模态对上训练,模型对 6 个未见模态对展现出强零样本泛化能力,验证了共享潜在空间中语义表示的可迁移性。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-05-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 CVer 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档