一句话推荐: 上海交大等单位提出的 Evo-Depth,用约 0.9B 参数,在仿真与真机上同时兼顾性能与部署效率,为资源受限场景下的 VLA 提供了一条轻量化空间增强路线。
《Evo-Depth: A Lightweight Depth-Enhanced Vision-Language-Action Model》
代码:github.com/MINT-SJTU/Evo-Depth
论文:https://arxiv.org/abs/2605.14950
Vision-Language-Action(VLA)把视觉、语言与动作串在一起,被视作可扩展机器人学习的重要方向。现实任务里,精定位、细摆放、遮挡与前后关系往往决定成败——而大量 VLA 仍主要依赖二维视觉,空间 grounding 不足时,成功率会出现明显下滑。
怎么补空间?
显式 3D(深度、点云)能补几何,却常带来额外传感与重建链路,并对噪声与标定误差敏感;隐式 3D 从 RGB 学能省硬件,但不少路线依赖较重的基础模型,训练与推理成本偏高。
Evo-Depth 瞄准的正是中间地带:不显式增加硬件负担,同时尽量保留实时部署能力,并把「深度感」以紧凑方式写进策略里。
MINT-SJTU/Evo-Depth 与工程实现相互对应,配套训练与评测脚本,降低了从阅读论文到实际复现的门槛。Evo-Depth(Evo-Depth: A Lightweight Depth-Enhanced Vision-Language-Action Model)的核心思路是:
从多视角 RGB 提取紧凑的隐式深度表征,再以轻量方式融入视觉–语言通路,最后通过 flow-matching 动作专家输出连续动作。

Evo-Depth 模型结构图
Evo-Depth 模型结构图:多视角 RGB、语言指令和机器人状态作为输入,经深度增强的视觉语言动作框架后生成连续动作。
整个系统主要由三部分组成:
IDEM 负责从多视角图像中提取隐式深度特征,强调空间布局与相对几何关系,而不是显式生成高成本的 3D 中间表示。
论文中,IDEM 骨干约 0.13B 参数,并结合多视角深度预训练初始化,在轻量条件下引入与深度相关的归纳偏置。
SEM 将隐式深度作为一种调制信号,用于增强视觉–语言表征。
相比直接增加独立深度分支,这种融合方式更克制:
多模块联合训练通常容易出现优化不稳定的问题。
为此,作者采用 Progressive Alignment Training,通过分阶段训练方式逐步完成:
动作头则采用了当前 VLA 中较常见的 flow-matching 路线。
在约 0.9B 总参数设置下,论文报告的结果包括(完整对比见原文):
维度 | 论文报告结果 |
|---|---|
仿真 | Meta-World **84.4%**、VLA-Arena **41.1%**、LIBERO **95.4%**、LIBERO-Plus 69.6% |
真机 | 平均成功率约 90% |
部署侧 | 约 3.2 GB GPU 显存、约 12.3 Hz 推理频率 |
相比只关注 benchmark 分数,论文也给出了部署侧开销与实时性指标。
对于需要真正运行在机器人控制回路中的 VLA 来说,这部分信息往往同样重要。
Evo-Depth 想解决的问题其实很直接:
在不显著增加系统负担的情况下,提升 VLA 的空间能力。
相比纯二维 VLA,它补充了空间信息;相比更重的 3D 路线,它又尽量保留了部署效率。
对于正在做机器人操作、空间智能或 VLA 系统的团队来说,这类“性能—成本—实时性”之间的折中方案,可能会越来越重要。