作者:Yufeng Yang, Xianfang Zeng, Zhangqi Jiang等
解读:AI生成未来

该工作由南方科技大学、阶跃星辰和中科院深圳先进院等机构联合完成,并已同步发布论文、项目页、模型和基准测试。
文章链接: https://arxiv.org/pdf/2603.25502 项目链接:https://yfyang007.github.io/RealRestorer/ 模型链接: https://huggingface.co/RealRestorer/RealRestorer 基准测试: https://huggingface.co/datasets/RealRestorer/RealIR-Bench Git链接: https://github.com/yfyang007/RealRestorer

RealRestorer基于 Step1X-Edit 进行微调,核心骨干为大规模 DiT,文本侧使用 QwenVL 编码器,图像则通过 Flux-VAE 映射到潜空间。训练时冻结 VAE 与文本编码器,仅微调 DiT 主体,把原本偏“生成/编辑”的能力,逐步迁移到“真实修复”任务上。


论文将训练数据分为两部分:
1. 合成退化数据(Synthetic Degradation Data) 从互联网收集干净图像,再对其进行高质量退化模拟。和传统简单退化不同,这套流程更加贴近真实拍摄中的复杂退化模式,并借助 SAM-2、MiDaS、VLM 和质量评估模型进行筛选与校验。 2. 真实退化数据(Real-World Degradation Data) 直接从网络采集真实退化图像,再生成对应的高质量参考图像,并通过 CLIP、水印检测、Qwen3-VL 以及低层指标做过滤和一致性检查,最后配合人工复核保证质量。
RealRestorer采用两阶段训练:
二阶段训练全程使用 1024×1024 高分辨率设置。
RealIR-Bench 是完全由互联网采集的真实退化图像组成,共 464 张,覆盖9类退化,并通过人工过滤保证场景多样性、退化强度和图像质量。与传统“有真值”的合成测试集不同,它更强调真实环境下的修复能力。
实验表明,RealRestorer在 RealIR-Bench 上持续优于现有开源图像编辑模型,并取得与头部闭源系统接近的效果。




消融实验:两阶段训练不是“可选项”,而是性能关键

为了验证方案设计是否真的有效,作者对训练数据和训练阶段做了系统消融。结果显示,仅使用约 100 万组合成退化数据进行第一阶段训练时,模型虽然能够逐步学到基础修复能力,并在这一阶段达到 0.122 的 FS 峰值,但对复杂真实退化的泛化仍然不足,而且随着训练继续推进,还会因为合成数据分布有限而出现性能回落。
进一步引入约 10 万组真实退化数据后,模型在第二阶段能够快速超过第一阶段的最佳分数,并显著提升真实场景下的泛化能力。但如果继续在真实数据上训练过久,模型又会开始出现过拟合,因此作者采用了 early stopping 来控制最终 checkpoint。
作者还进一步比较了不同训练策略的差异。只用合成退化数据训练的模型,对复杂真实退化仍显得“修不干净”;只用真实退化数据训练的模型,则容易过拟合退化模式,出现物体形变、人物位置漂移、自然光源被误删、过度增强等问题。相比之下,RealRestorer 采用的两阶段方案在“退化去除能力”和“内容结构稳定性”之间取得了更好的平衡。
Progressively-Mixed 策略:防过拟合的关键一招
除了两阶段训练本身,论文还单独分析了 Progressively-Mixed 策略的作用。作者在第二阶段中保留少量合成退化数据,与真实退化数据混合训练,以避免模型过度贴合有限的真实样本分布。从可视化结果看,模型在结构一致性和内容保真方面也会更不稳定。换句话说,这个混合策略虽然简单,但对最终性能和观感都是真实有效的增益。
User Study:自动化指标和人眼判断基本一致
为了验证 RealIR-Bench 这套评测指标是否真的“符合人类直觉”,作者还做了用户研究。论文共招募 32 名参与者,对 5 个高表现模型生成的 3200 组结果进行排序评价,评价标准包括两项:一是修复质量,二是内容一致性。结果显示,从人工主观偏好来看,Nano Banana Pro 的第一名占比最高,为 32.02%;GPT-Image-1.5 排第二,为 23.83%;RealRestorer 以 21.54% 位列其后。这个排序趋势与论文中自动评测得到的总体结果基本一致,说明该 benchmark 和指标体系具备较好的可信度。
更进一步,作者还计算了自动指标与人工判断之间的相关性,包括 Kendall’s τ、Spearman 相关系数(SRCC)和 Pearson 相关系数(PLCC)。结果表明评价指标与人类感知之间达到了中等程度的一致性。对真实世界图像修复这类缺乏严格真值图的任务来说,这一点非常重要,因为它意味着 RealIR-Bench 不只是“能算分”,而是一定程度上能够反映真实用户的主观观感。

RealRestorer的意义,不只是“又一个图像修复模型”,而是给开源社区补上了一块长期缺失的拼图: 一个面向真实世界、多退化统一、兼顾修复质量与内容一致性,并且配套完整 benchmark 的开源修复方案。 当然,RealRestorer也存在一些局限:由于基础模型本身需要 28 步去噪推理,计算成本仍然较高;面对镜子自拍、极端强退化、复杂物理一致性场景时,模型仍可能失效。
[1] RealRestorer: Towards Generalizable Real-World Image Restoration with Large-Scale Image Editing Models