1 VLA技术路线 目前主流的VLA模型主要基于三类核心技术路线,它们的根本差异在于如何处理机器人动作的生成: 自回归路线 将连续动作离散化为Token,再用类似处理文本的方式,从左到右逐个预测这些动作 WALL-A 自变量机器人 端到端统一 + 世界模型 参数规模最大,首创“世界模型+VLA”深度融合,零样本泛化能力极强。 追求极致零样本通用性,覆盖多种复杂操作的场景。 对现有VLA模型的高效推理加速。局限:是加速框架,非独立模型。 VLA-Pilot 理想汽车 端到端融合 专为自动驾驶设计,能像人类司机一样处理复杂路况。 自动驾驶,非通用机器人场景。 WALL-A:追求零样本泛化的超大模型 自变量机器人的WALL-A 首创了“世界模型+VLA”深度融合的联合框架 ,通过世界模型进行时空状态预测和因果推理,帮助模型内化物理常识。 它们能对现有VLA模型进行高效加速,但对特定架构的适配性需要验证。
π0 (Pi0)、扩散VLA (dVLA) 强化学习路线 将VLA模型与强化学习结合,通过与环境交互试错来优化策略,提升在未知环境中的适应力。 智平方 GOVLA、地平线 HoloBrain-0 自回归模型是VLA的奠基性技术,扩散模型是当前研究的热点,尤其在提升生成效率和“思考”能力方面优势明显。 3D VLA系列 (Avi, GraphCoT-VLA):尝试让模型直接基于3D点云或体素而非2D图像进行推理,以更精准地执行需要空间理解的任务。 VLA原理概述 VLA模型的核心,可以理解为一个从“感知”到“决策”再到“执行”的智能闭环,目标是让机器像人一样,通过“眼睛”(视觉)和“耳朵”(语言)来理解世界,并用“身体”(动作)去执行任务。 VLA模型代表了机器人向通用智能迈进的关键一步,其强大的泛化能力和理解能力使其在家庭服务、柔性制造、特种作业等领域拥有广阔前景,然而,当前VLA模型仍面临 精度、效率、推理能力和数据效率 等核心挑战。
该模型基于大型视觉语言模型(VLM)进行设计,并采用组件化架构,具有专门的动作模块以根据VLM输出执行动作预测。 与现有的VLAs相比,CogACT模型在模拟评估和真实机器人实验中的成功率分别超过OpenVLA和RT-2-X模型。 论文方法 1.1 方法描述 该研究旨在开发一种视觉语言模型(VLA),使不同的机器人能够根据视觉观察和语言指令执行各种任务。为此,他们将模型分为三个部分:视觉模块、语言模块和动作模块。 在每个设置中,他们都评估了四个任务的成功率,并将结果与现有的VL模型进行了比较。实验结果表明,他们的模型在所有任务和设置中都表现最好,甚至比专门为特定机器人设计的模型表现更好。 方法创新点 该论文的主要贡献在于提出了一种全新的VLA模型架构——CogACT,通过将认知信息提取出来并作为条件引导动作预测过程,从而解决了现有VLAs在处理连续、多模态、时间相关且需要高精度的动作信号时存在的问题
尽管相关技术取得了显著进展,但在实际部署中,尤其是在高频率和精细操作等任务中,VLA 模型仍受到推理速度瓶颈的严重制约。 图 1:不同解码方法加速效果对比 Method 图 2:CEED-VLA 模型架构示意图 我们提出的框架首先通过预训练的 VLA 模型(例如 LLaVA-VLA和OpenVLA)进行Jacobi Decoding Consistency Training 对于目标 VLA 模型 ,为了捕捉 Jacobi 轨迹中的内在一致性以进行一致性训练,我们首先通过在机器人数据集C上使用 Jacobi Decoding对模型 混合标签的自回归监督损失(Mixed-label AR Supervision): 为了保留模型常规的自回归生成能力,CEED-VLA混合使用教师模型的数据以及Ground-truth数据进行监督,以保证动作精确性 下图展示了 CEED-VLA 模型的实验效果。得益于推理频率的提高,机械臂动作更加顺畅,成功完成了灵巧操作任务。 图 11:CEED-VLA 在真实世界中的实验结果。
在文中,作者直指目前具身智能领域流行的 VLA(视觉 - 语言 - 动作)模型趋势。 作为 VLA 概念的共同开创者,他们现在却表示要「抛弃」VLA 乃至世界模型的标签定义,因为在他们看来,过于在意工具的标签,反而会限制通往物理 AGI 的想象力。 让我们看看他是怎么说的。 在 2026 年初,「世界模型」正迎来属于它的高光时刻;而在 2023 至 2025 年间,风头正劲的则是「视觉 - 语言 - 动作模型」(VLA)。追逐热点与潮流,本就是学术研究领域的常态。 在 Generalist,我们从未将自家模型归类为 VLA 或世界模型。这绝非偶然。 在过去一年多的时间里,我们一直在积极尝试融合来自不同领域的思想 —— 涵盖了所谓的「视觉语言动作模型」(VLA)、「世界模型」(World Models),乃至更为前沿的探索方向。
一、模型级优化:让大脑转得更快、更轻巧 这类方案主要对VLA模型本身进行改造,以降低计算复杂度和内存占用。 知识蒸馏 (Knowledge Distillation) 用大模型(教师)教一个小模型(学生) 将大VLA模型的知识迁移到层数更少、参数更小的模型 从7B参数(OpenVLA)压缩至1B参数(MiniVLA 自蒸馏一步生成 (SnapFlow) 将流匹配VLA的多步去噪压缩为单步 针对pi0等流匹配模型,提出即插即用的自蒸馏方法 1步生成最终动作 优点:专为pi0等高性能模型优化,推理延迟显著降低。 一致性蒸馏+早退解码 (CEED-VLA) 减少迭代步数 + 提前终止推理 一致性蒸馏训练+早退解码策略 实现4倍推理加速 优点:可即插即用,无需修改模型权重,性能无损耗。 二、系统级优化:让信息流跑得更快更稳 这类方案主要从VLA模型与机器人系统的交互方式入手,优化整体数据流和控制架构。
该模型采用了两层框架,将视觉、语言和行动模型(VLA)与运动技能相结合。通过预先生成具有空间信息的语言中间动作(例如,“向前移动75厘米”),然后将其作为输入传递给视觉运动强化学习策略以执行任务。 该模型采用了高效的预训练视觉语言模型(VLM)来处理视频输入,并将其与低级运动控制器相结合,以实现精确的关节运动控制。这种模型设计的优势在于其能够适应不同的环境并具有较强的泛化能力。 1.2 方法改进 在本文中,作者通过以下方式改进了传统的视觉语言导航模型: 1)使用图像编码器:传统的视觉语言导航模型通常使用图像编码器来处理视频输入。 然而,由于缺乏大规模、高质量的视频文本数据集,这些模型的性能受到了限制。因此,本文采用了基于图像的语言模型(如VILA),它们在理解连续视频序列方面表现出色。 3)提高模型的效率:通过单阶段训练策略,减少了训练时间,并且可以直接在环境中探索新的策略,从而提高了模型的效率。
虽然 VLAs 在各种任务和场景中表现抢眼,但大家在模型设计上却走了很多不同的路,比如用什么架构、怎么选数据、怎么调训练策略等等,这导致领域内对 “怎么做好一个 VLA” 还没有统一的答案。 我们围绕四个关键问题,对 VLA 的设计展开了深度探索,下面就带你看看答案! 1. 为什么要用 VLA 模型? 怎么设计一个靠谱的 VLA 架构? 这里面讲究可不少!比如: 动作空间:用连续动作空间比离散的好很多。 历史信息:加多步历史信息后,模型的操作更稳准狠。 究其原因,主要得益于它们经过了扎实且全面的视觉语言预训练,从而为模型提供了强大的先验知识和理解能力。 这一发现让我们更加确信:选对基座模型,就是让 VLA 模型起飞的关键一步! 这些结论为未来 VLA 模型的训练策略指明了方向。
LeRobot 始终秉持着用优质、强大的视觉 - 语言 - 动作模型(VLA)赋能开发者社区的使命,而 X-VLA 的推出,正是这一使命的重要落地。 近日LeRobot 社区正式引入这款全新 VLA 模型 ——X-VLA,作为首个基于软提示(Soft-Prompt)的跨载体视觉 - 语言 - 动作机器人基础模型,它真正实现了 “一个模型适配任意机器人 )的突破,让研究者看到了将基础模型架构延伸到机器人实体控制的可能,视觉 - 语言 - 动作(VLA)模型应运而生。 而 X-VLA 从大模型的提示学习(Prompt Learning) 和元学习(Meta-Learning) 中汲取灵感,提出了全新的解决方案:让 VLA 模型像 LLM 学习不同任务一样,通过 “提示 纯 Transformer 架构,兼顾扩展性与性能 X-VLA 完全基于 Transformer 编码器构建,这一架构让模型能够自然地随模型规模和数据集多样性进行扩展。
AerialVLA的设计目标是同时移除这两个依赖,用一个统一的VLA模型完成从感知到动作的端到端映射。 二、AerialVLA的三个核心设计AerialVLA以OpenVLA-7B为骨干模型,该模型包含SigLIP+DINOv2双视觉编码器和Llama 2 7B语言模型。 这说明端到端VLA模型在泛化能力上具有明显优势。作为参考,人类操作者在Seen场景中的SR为94.51%,SPL为77.84%。 五、总结与思考AerialVLA展示了一条将通用VLA模型适配到无人机导航任务的可行路径:通过极简视觉输入、模糊方向提示和数值标记化三个设计,移除了对oracle引导和外部检测器的依赖,在Unseen 极简输入的启示:5视图反而不如2视图,在训练数据有限(420,000帧)时更多视角带来的信息增量不足以抵消过拟合风险,对其他VLA任务的视觉输入设计有参考价值。
近期,新加坡国立大学邵林团队发表了一项突破性研究 VLA-OS,首次系统性地解构和分析了机器人 VLA 模型进行任务规划和推理,进行了任务规划表征与模型范式的统一对比。 图 1 VLA-OS 整体概览 一、疑云密布:VLA 模型在进行任务规划时到底该怎么做? 图 3 展示了一些代表性工作: 图 3 Integrated-VLA 的一些工作 使用分层的范式(Hierarchical-VLA), 即一个上层模型负责任务规划,另一个下层模型负责策略学习,二者之间没有梯度回传 发现 1:VLA 模型结构和训练算法仍然很影响性能,VLA 的 scale up 时刻还未到来。 我们首先针对 VLA-OS 模型进行了性能测试。 图 21 VLA 的模型可扩展性 我们可以观察到,随着模型规模的增大,各种 VLA 范式的性能并未随之提升,反而在模型规模超过 3B 时出现下降的趋势。
1;i>=0;i–) printf(” %d”,a[i]); printf(“\n”); return 0; } 上面程序中的数组a是一个变长数组(variable-length array,简称VLA
第二章:基于VLA模型的端到端技术架构 元戎启行推出搭载VLA(Vision-Language-Action)模型的端到端智能驾驶解决方案,替代传统模块化架构。 第五章:技术领先性与行业价值 架构优势: 相比传统依赖传感器堆叠和规则代码的专家系统,VLA模型实现了从感知到控制的端到端闭环,降低了系统复杂度和运维成本。
,展示了 VLA 模型在真实设备上实时部署的巨大潜力。 ,但这类数据的采集成本高昂、耗时耗力,且场景和任务多样性有限,这严重制约了 VLA 模型的扩展性和泛化能力。 提出的方案 为了解决上述问题,提出了 GigaBrain-0,一个由世界模型驱动的 VLA 基础模型。 设计 GigaBrain-0 模型架构: 这是一个端到端的 VLA 模型,其特点是: 融合 RGBD 输入: 同时利用颜色和深度信息,以增强对场景三维几何的理解。 表 1:各 VLA 模型训练数据使用情况比较。
SOP:让机器人实现在真实世界中的分布式持续学习 在过去几年里,基于互联网海量数据预训练的 VLA(视觉 - 语言 - 动作)模型,虽然赋予了机器人一定的通用泛化能力,但始终面临一个难以逾越的鸿沟:「懂 它将 VLA 的后训练从「单机单打独斗」转变为「在线、集群、并行」的集团军作战。形象地说,SOP 构建了一个「多机平行现实 → 云端集中学习 → 模型即时回流」的超级闭环。 破解灾难性遗忘:泛化与精度的共存 传统的单机在线训练往往面临一个两难:为了精通某项任务(如叠衣服),模型很容易退化成只懂这一件事的专家,丧失了通用的 VLA 能力。 因为它是在更广阔的分布中同时进行多任务学习,而非按顺序一个个学,从而确保了 VLA 的通用性不会因针对某一任务的性能提升而受损。 如果说 VLA 模型让机器人第一次具备了通用的理解与行动能力,那么 SOP 所做的是让众多机器人的经验共同驱动智能的快速成长。它让训练不再被锁死在过去的数据集中,而是让机器智能在每一次交互中不断成长。
如果从零开始应用VLA确实是一个系统工程,不必被“大模型”的声势吓住,关键在于根据你最看重的目标,选择一条最合适的路径。 模型选择 :首选 VLA-Pilot 这类“即插即用”的免微调模型,可以直接用预训练模型在机器人上做零样本测试。 第二步:数据采集 VLA模型对数据的数量和质量极其敏感,这一步是决定项目成败的核心。 加载预训练模型 从模型仓库(如Hugging Face)下载一个预训练好的VLA模型权重作为起点,例如 openvla-7b 。 对于清洁这种接触任务,可以考虑引入一个 传统PID控制器 来处理力控,让VLA模型负责高层决策(如“沿着壁面移动”),形成混合控制架构,这样既能发挥VLA的智能,又能保证力控的精准稳定。
近日,国内具身智能代表性创企——智平方,联合头部高校发布了一款全新的VLA模型——Fast-in-Slow(FiS-VLA)。 或许你一定好奇,VLA为何成为了具身智能的「新范式」? VLA超进化 谷歌RT-2成关键节点 若想破除这一疑问,前提是必须理解VLA模型的重要性。 他们与北大等顶尖机构一起,率先将Mamba引入VLA架构模型,推出了革命性的轻量化结构RoboMamba。 这一突破,直接让VLA模型实现了效率与推理泛化能力的重大飞跃。 π系列仅是VLA模型技术模型技术分支的一种:采用扩散架构。 除此之外,随着不同玩家的布局,在VLA全新范式下,已经分化出不同的技术路径。 如今,VLA模型加持下的人形机器人,已经进车间打工了。 站在2025年全新节点上,VLA模型不仅仅是技术的突破,更是人类迈向AGI的坚实一步。
SmolVLA:模型与应用,是 LeRobot 团队基于该框架发布的一个具体的 VLA 模型,一个能够“看得懂、听得懂、能行动”的机器人“大脑” 身份定位:基于 LeRobot 平台构建的具体模型,一个仅有 4.5 亿参数的 VLA 模型。 二、快速落地具体步骤 要以最快速度落地一个VLA模型,将“纸上谈兵”变为现实,最佳路径是从一个开源、轻量、社区活跃的模型入手。 EfficientVLA 是一个专为VLA模型设计的推理加速框架,从模型结构层面减少不必要的计算,通过裁剪冗余的网络层和处理更少的图像信息,来降低计算量。 其效果非常显著:能将VLA模型的推理速度提升超过1.5倍,同时任务成功率仅下降0.6%,几乎可以忽略不计。
VLA模型的理论框架 形式化定义与核心组件 从数学角度来看,VLA模型可以被形式化为一个从多模态输入空间到动作空间的映射函数。 端到端VLA架构深度解析 端到端VLA框架代表了将感知、推理与规划统一于单一模型的技术路线。 同时,VLA相关研究的快速推进和演化,也为VLA的量产落地提供了更清晰的技术实现路径。 亟待解决的技术挑战 实时性约束是VLA模型面临的首要工程挑战。 构建专门为驾驶场景设计的基础模型,或者开发更有效的领域适配技术,是提升VLA系统可靠性的关键。 长尾场景的泛化是自动驾驶领域的老问题,在VLA模型上以新的形式呈现。 在VLA模型中,这种风险更是关乎驾驶安全,模型可能生成一个完全虚构的推理过程来为其错误决策辩护。
新智元报道 编辑:定慧 【新智元导读】谷歌首发具身智离线模型Gemini Robotics On-Device,实现VLA多模态大模型在具身机器人本地离线运行。 但这次谷歌不卷商业大模型了,而是转而发布了首个在具身机器人上「本地&离线」就能运行的VLA模型——Gemini Robotics On-Device! 简单梳理一下这个系列,Gemini Robotics是谷歌3月份就推出的VLA系列模型,VLA指的是视觉-语言-动作模型。 Gemini Robotics重点是将多模态大模型的能力「带到」现实世界。 Gemini Robotics On-Device的泛化性能,与其旗舰版Gemini Robotics模型及之前最佳的设备端模型相比,On-Device远超之前最佳模型,并接近旗舰模型。 机器人爱好者福利,SDK已开源 Gemini Robotics On-Device也是一款首次提供用于微调的VLA模型。