新突破！上海交大等提出Evo-Depth：为VLA补上轻量隐式深度一环

Amusi

发布于 2026-05-20 14:52:48

2320

文章被收录于专栏：CVerCVer

一句话推荐： 上海交大等单位提出的 Evo-Depth，用约 0.9B 参数，在仿真与真机上同时兼顾性能与部署效率，为资源受限场景下的 VLA 提供了一条轻量化空间增强路线。

《Evo-Depth: A Lightweight Depth-Enhanced Vision-Language-Action Model》

代码：github.com/MINT-SJTU/Evo-Depth

论文：https://arxiv.org/abs/2605.14950

Vision-Language-Action（VLA）把视觉、语言与动作串在一起，被视作可扩展机器人学习的重要方向。现实任务里，精定位、细摆放、遮挡与前后关系往往决定成败——而大量 VLA 仍主要依赖二维视觉，空间 grounding 不足时，成功率会出现明显下滑。

怎么补空间？

显式 3D（深度、点云）能补几何，却常带来额外传感与重建链路，并对噪声与标定误差敏感；隐式 3D 从 RGB 学能省硬件，但不少路线依赖较重的基础模型，训练与推理成本偏高。

Evo-Depth 瞄准的正是中间地带：不显式增加硬件负担，同时尽量保留实时部署能力，并把「深度感」以紧凑方式写进策略里。

问题切得比较准： 针对 VLA 在精细操作场景中的空间瓶颈，给出一条相对清晰的模块化路径（隐式深度编码 → 空间增强 → 动作学习对齐），而不是单纯依赖更大的模型规模。
不仅关注 benchmark： 除了 Meta-World、VLA-Arena、LIBERO 等基准结果外，论文还同步报告了显存占用与推理频率，方便和真实部署场景进行对照。
开源链路完整： 官方仓库 MINT-SJTU/Evo-Depth 与工程实现相互对应，配套训练与评测脚本，降低了从阅读论文到实际复现的门槛。

Evo-Depth（Evo-Depth: A Lightweight Depth-Enhanced Vision-Language-Action Model）的核心思路是：

从多视角 RGB 提取紧凑的隐式深度表征，再以轻量方式融入视觉–语言通路，最后通过 flow-matching 动作专家输出连续动作。

Evo-Depth 模型结构图

Evo-Depth 模型结构图：多视角 RGB、语言指令和机器人状态作为输入，经深度增强的视觉语言动作框架后生成连续动作。

整个系统主要由三部分组成：

IDEM 负责从多视角图像中提取隐式深度特征，强调空间布局与相对几何关系，而不是显式生成高成本的 3D 中间表示。

论文中，IDEM 骨干约 0.13B 参数，并结合多视角深度预训练初始化，在轻量条件下引入与深度相关的归纳偏置。

SEM 将隐式深度作为一种调制信号，用于增强视觉–语言表征。

相比直接增加独立深度分支，这种融合方式更克制：

多模块联合训练通常容易出现优化不稳定的问题。

为此，作者采用 Progressive Alignment Training，通过分阶段训练方式逐步完成：

动作头则采用了当前 VLA 中较常见的 flow-matching 路线。

在约 0.9B 总参数设置下，论文报告的结果包括（完整对比见原文）：

维度	论文报告结果
仿真	Meta-World 84.4%、VLA-Arena 41.1%、LIBERO 95.4%、LIBERO-Plus 69.6%
真机	平均成功率约 90%
部署侧	约 3.2 GB GPU 显存、约 12.3 Hz 推理频率