媲美Nano Banana Pro！南科大&阶跃星辰等开源真实世界图像恢复之王RealRestorer

AI生成未来

发布于 2026-04-15 18:46:52

3010

作者：Yufeng Yang, Xianfang Zeng, Zhangqi Jiang等

解读：AI生成未来

该工作由南方科技大学、阶跃星辰和中科院深圳先进院等机构联合完成，并已同步发布论文、项目页、模型和基准测试。

文章链接： https://arxiv.org/pdf/2603.25502 项目链接：https://yfyang007.github.io/RealRestorer/ 模型链接： https://huggingface.co/RealRestorer/RealRestorer 基准测试： https://huggingface.co/datasets/RealRestorer/RealIR-Bench Git链接： https://github.com/yfyang007/RealRestorer

亮点直击
真实世界图像修复，不再只停留在“合成退化”，而是做一个更通用、更能落地的真实世界图像修复模型。
基于大规模图像编辑模型改造，兼顾“修得干净”和“内容不跑偏”，重点保留原图的场景结构、语义内容和细粒度细节，避免“修复过头”“内容变形”“语义漂移”等常见问题。
数据、模型、评测三位一体。论文不仅提出了模型本身，还构建了更贴近真实分布的数据生成流程，并推出了新的真实世界评测基准 RealIR-Bench，模型在开源方法中登顶。

总结速览

解决的问题

真实退化泛化差：传统图像修复方法往往在合成退化数据上训练和评估，一旦遇到真实拍摄中的复杂退化，泛化能力就会明显下降。
评测方式不够“真实”：很多修复任务依赖成对干净图像来算 PSNR、SSIM，但真实世界场景往往拿不到严格对齐的“真值图”，导致传统参考式指标并不能准确反映实际修复效果。
开源与闭源之间仍有明显差距：闭源图像编辑系统已经展现出较强的真实修复能力，但开源侧长期缺少一套可以媲美的方案。

提出的方案

核心框架：RealRestorer以开源图像编辑模型 Step1X-Edit 为基础，沿用其大规模 DiT 架构、QwenVL 文本编码器和 Flux-VAE 表征能力，只微调其中的 DiT 主干，将原本偏高层编辑的能力迁移到低层真实修复任务上。
核心思路：通过大规模的编辑模型的强大先验，配合合成退化数据和真实退化数据流水线，去训练一个强大的可以在真实世界场景泛化的图像修复模型。
关键技术点：
- 构建覆盖9类真实退化的大规模退化合成管线，引入更细粒度的噪声建模、分区域扰动和 web 风格退化过程，缩小合成分布与真实分布之间的差距。
- 额外采集真实退化图像，并借助高性能模型生成对应配对高质量无退化数据，以进一步贴近真实世界分布。
- 采用两阶段训练：第一阶段用约 100 万组合成退化数据做迁移训练，第二阶段再引入约 10 万组真实退化数据进行监督微调。并在第二阶段中使用 Progressively-Mixed 训练策略，保留少量合成数据，避免模型过拟合真实样本分布、损失跨任务泛化能力。

应用的技术

大规模图像编辑模型迁移。大规模图像编辑模型拥有更强的语义先验和内容建模能力，因此更有潜力应对复杂真实退化。
合成+真实混合数据构建。作者不是简单堆数据，而是同时使用合成退化对和真实退化对，以此兼顾可扩展性与真实性。
非参考评测基准。RealIR-Bench 不依赖配对真值图，而是引入 VLM 来评估 Restoration Score（RS），并结合 LPIPS 衡量内容一致性，最终得到综合的 Final Score（FS）。

达到的效果

开源SOTA：RealRestorer在 RealIR-Bench 上位居开源方法第一，并在总体排名中位列第三，并且非常接近顶级闭源模型。
多任务表现均衡：论文显示，RealRestorer在9类任务上都有较强表现，其中在去模糊和弱光增强上拿到最佳结果，在去摩尔纹上位列第二。整体上，它在开源模型中 5 项第一、2 项第二。
内容一致性更强：相比一些“修得很猛但内容跑偏”的生编辑模型方法，RealRestorer更加注重结构、语义和细节的保存，提升了真实应用中的可用性。
具备零样本泛化能力：除了论文重点覆盖的9类退化，作者还报告了对未见任务的 zero-shot 泛化能力，例如雪天去退化、老照片修复等场景。

方法

模型设计

RealRestorer基于 Step1X-Edit 进行微调，核心骨干为大规模 DiT，文本侧使用 QwenVL 编码器，图像则通过 Flux-VAE 映射到潜空间。训练时冻结 VAE 与文本编码器，仅微调 DiT 主体，把原本偏“生成/编辑”的能力，逐步迁移到“真实修复”任务上。

数据集构建

论文将训练数据分为两部分：

1. 合成退化数据（Synthetic Degradation Data） 从互联网收集干净图像，再对其进行高质量退化模拟。和传统简单退化不同，这套流程更加贴近真实拍摄中的复杂退化模式，并借助 SAM-2、MiDaS、VLM 和质量评估模型进行筛选与校验。 2. 真实退化数据（Real-World Degradation Data） 直接从网络采集真实退化图像，再生成对应的高质量参考图像，并通过 CLIP、水印检测、Qwen3-VL 以及低层指标做过滤和一致性检查，最后配合人工复核保证质量。

训练方案

RealRestorer采用两阶段训练：

第一阶段：迁移训练（Transfer Training）用大规模合成退化对，把图像编辑模型的高层先验迁移到图像修复任务中，建立基础修复能力。
第二阶段：监督微调（Supervised Fine-tuning）进一步引入真实退化数据，加强模型对真实复杂场景的适应能力。作者特别采用了渐进式混合训练，在二阶段训练的过程中加入部分合成退化数据对，让模型在靠近真实分布的同时，不丢掉合成数据带来的广泛泛化能力。

二阶段训练全程使用 1024×1024 高分辨率设置。

实验

RealIR-Bench 是完全由互联网采集的真实退化图像组成，共 464 张，覆盖9类退化，并通过人工过滤保证场景多样性、退化强度和图像质量。与传统“有真值”的合成测试集不同，它更强调真实环境下的修复能力。

评测方式：既看“修没修好”，也看“内容变没变”
论文没有只看 PSNR/SSIM，而是设计了两类互补指标：
R S（Restoration Score）：衡量退化去除效果；
LPIPS/LPS：衡量修复前后内容一致性；
FS（Final Score）：综合两者后的最终分数。

结果表现

实验表明，RealRestorer在 RealIR-Bench 上持续优于现有开源图像编辑模型，并取得与头部闭源系统接近的效果。

消融实验：两阶段训练不是“可选项”，而是性能关键

为了验证方案设计是否真的有效，作者对训练数据和训练阶段做了系统消融。结果显示，仅使用约 100 万组合成退化数据进行第一阶段训练时，模型虽然能够逐步学到基础修复能力，并在这一阶段达到 0.122 的 FS 峰值，但对复杂真实退化的泛化仍然不足，而且随着训练继续推进，还会因为合成数据分布有限而出现性能回落。

进一步引入约 10 万组真实退化数据后，模型在第二阶段能够快速超过第一阶段的最佳分数，并显著提升真实场景下的泛化能力。但如果继续在真实数据上训练过久，模型又会开始出现过拟合，因此作者采用了 early stopping 来控制最终 checkpoint。

作者还进一步比较了不同训练策略的差异。只用合成退化数据训练的模型，对复杂真实退化仍显得“修不干净”；只用真实退化数据训练的模型，则容易过拟合退化模式，出现物体形变、人物位置漂移、自然光源被误删、过度增强等问题。相比之下，RealRestorer 采用的两阶段方案在“退化去除能力”和“内容结构稳定性”之间取得了更好的平衡。

Progressively-Mixed 策略：防过拟合的关键一招

除了两阶段训练本身，论文还单独分析了 Progressively-Mixed 策略的作用。作者在第二阶段中保留少量合成退化数据，与真实退化数据混合训练，以避免模型过度贴合有限的真实样本分布。从可视化结果看，模型在结构一致性和内容保真方面也会更不稳定。换句话说，这个混合策略虽然简单，但对最终性能和观感都是真实有效的增益。

User Study：自动化指标和人眼判断基本一致

为了验证 RealIR-Bench 这套评测指标是否真的“符合人类直觉”，作者还做了用户研究。论文共招募 32 名参与者，对 5 个高表现模型生成的 3200 组结果进行排序评价，评价标准包括两项：一是修复质量，二是内容一致性。结果显示，从人工主观偏好来看，Nano Banana Pro 的第一名占比最高，为 32.02%；GPT-Image-1.5 排第二，为 23.83%；RealRestorer 以 21.54% 位列其后。这个排序趋势与论文中自动评测得到的总体结果基本一致，说明该 benchmark 和指标体系具备较好的可信度。

更进一步，作者还计算了自动指标与人工判断之间的相关性，包括 Kendall’s τ、Spearman 相关系数（SRCC）和 Pearson 相关系数（PLCC）。结果表明评价指标与人类感知之间达到了中等程度的一致性。对真实世界图像修复这类缺乏严格真值图的任务来说，这一点非常重要，因为它意味着 RealIR-Bench 不只是“能算分”，而是一定程度上能够反映真实用户的主观观感。

结论

RealRestorer的意义，不只是“又一个图像修复模型”，而是给开源社区补上了一块长期缺失的拼图：一个面向真实世界、多退化统一、兼顾修复质量与内容一致性，并且配套完整 benchmark 的开源修复方案。当然，RealRestorer也存在一些局限：由于基础模型本身需要 28 步去噪推理，计算成本仍然较高；面对镜子自拍、极端强退化、复杂物理一致性场景时，模型仍可能失效。