在文中,作者直指目前具身智能领域流行的 VLA(视觉 - 语言 - 动作)模型趋势。 作为 VLA 概念的共同开创者,他们现在却表示要「抛弃」VLA 乃至世界模型的标签定义,因为在他们看来,过于在意工具的标签,反而会限制通往物理 AGI 的想象力。 让我们看看他是怎么说的。 在 Generalist,我们从未将自家模型归类为 VLA 或世界模型。这绝非偶然。 事实上,我们正是 VLA 概念的共同开创者之一;自 2023 年起,我们便持续在机器人领域发表关于世界模型的研究成果,而我们在这一领域的实际探索与耕耘,更是早在数年前便已启动。 在过去一年多的时间里,我们一直在积极尝试融合来自不同领域的思想 —— 涵盖了所谓的「视觉语言动作模型」(VLA)、「世界模型」(World Models),乃至更为前沿的探索方向。
OpenHelix以及LLaVA-VLA的研究团队。 尽管相关技术取得了显著进展,但在实际部署中,尤其是在高频率和精细操作等任务中,VLA 模型仍受到推理速度瓶颈的严重制约。 /CEED-VLA/ 论文链接: https://arxiv.org/pdf/2506.13725 代码链接: https://github.com/OpenHelix-Team/CEED-VLA 图 1:不同解码方法加速效果对比 Method 图 2:CEED-VLA 模型架构示意图 我们提出的框架首先通过预训练的 VLA 模型(例如 LLaVA-VLA和OpenVLA)进行Jacobi Decoding 下图展示了 CEED-VLA 模型的实验效果。得益于推理频率的提高,机械臂动作更加顺畅,成功完成了灵巧操作任务。 图 11:CEED-VLA 在真实世界中的实验结果。
图 1 VLA-OS 整体概览 一、疑云密布:VLA 模型在进行任务规划时到底该怎么做? 图 2 展示了一些端到端的 VLA 代表性工作。 图 2 一些端到端的 VLA 模型(ActionOnly-VLA) 然而,目前可用于训练 VLA 的数据集相比起 LLM 和 VLM 来说还非常少。 图 7 VLA-OS 可组合模块家族 然后,我们针对三个 VLA 的任务规划范式,设计了可组合的 VLA-OS 模型家族,首次实现三大范式的公平对比。 针对三种 VLA 范式(ActionOnly-VLA、Integrated-VLA、Hierarchical-VLA),我们组合使用 VLA-OS 的标准模块,构建了对应的 VLA-OS 模型实现,如图所示 发现 13:相比不含任务规划的范式(ActionOnly-VLA),包含任务规划的 VLA 范式(Integrated-VLA 与 Hierarchical-VLA)在前向迁移能力上更强,但遗忘速度也更快
当前,VLA领域百花齐放,主要可以从 技术架构、核心能力和应用场景 三个维度来理解。 π0 (Pi0)、扩散VLA (dVLA) 强化学习路线 将VLA模型与强化学习结合,通过与环境交互试错来优化策略,提升在未知环境中的适应力。 3D VLA系列 (Avi, GraphCoT-VLA):尝试让模型直接基于3D点云或体素而非2D图像进行推理,以更精准地执行需要空间理解的任务。 VLA原理概述 VLA模型的核心,可以理解为一个从“感知”到“决策”再到“执行”的智能闭环,目标是让机器像人一样,通过“眼睛”(视觉)和“耳朵”(语言)来理解世界,并用“身体”(动作)去执行任务。 VLA模型代表了机器人向通用智能迈进的关键一步,其强大的泛化能力和理解能力使其在家庭服务、柔性制造、特种作业等领域拥有广阔前景,然而,当前VLA模型仍面临 精度、效率、推理能力和数据效率 等核心挑战。
1;i>=0;i–) printf(” %d”,a[i]); printf(“\n”); return 0; } 上面程序中的数组a是一个变长数组(variable-length array,简称VLA
核心方法 :开源模型 + 高质量微调,行业实践证明,这是提升VLA模型在新场景下性能的黄金组合。 高效的Sim2Real迁移是关键,相关技术如 Sim2Real-VLA 、已有突破。 选定VLA微调框架 :推荐从以下成熟的框架中选择: OpenVLA :基于Llama 2,生态完善,社区活跃,是目前最流行的开源VLA框架之一,OpenVLA-OFT是其改进版本,提供了正交微调(OFT 第二步:数据采集 VLA模型对数据的数量和质量极其敏感,这一步是决定项目成败的核心。 对于清洁这种接触任务,可以考虑引入一个 传统PID控制器 来处理力控,让VLA模型负责高层决策(如“沿着壁面移动”),形成混合控制架构,这样既能发挥VLA的智能,又能保证力控的精准稳定。
从美国RT-2的开创性突破,到中国最新FiS-VLA「快慢双系统」,VLA正以光速硬核进化。 2025年,具身智能可真是太火了。 近日,国内具身智能代表性创企——智平方,联合头部高校发布了一款全新的VLA模型——Fast-in-Slow(FiS-VLA)。 放眼全球,VLA的热潮不止于此。 VLA技术加速机器人从实验室走向物理世界,并催生出了各具特色的技术分支。 这不仅印证了VLA的巨大潜力,也预示着,它正在重塑智能机器人与人类交互的未来。 或许你一定好奇,VLA为何成为了具身智能的「新范式」? VLA超进化 谷歌RT-2成关键节点 若想破除这一疑问,前提是必须理解VLA模型的重要性。 短短三年的时间,VLA技术完成了从实验室走向工业落地的华丽蜕变。 随着GROOT N1、Helix、FiS-VLA等模型的部署,VLA将在人形机器人、智能制造等领域大放异彩。
VLA模型的理论框架 形式化定义与核心组件 从数学角度来看,VLA模型可以被形式化为一个从多模态输入空间到动作空间的映射函数。 VLA模型主干网络的设计哲学 VLM主干网络是VLA系统的"大脑",它承担着将异构输入融合为统一表示、理解场景语义、进行因果推理等核心任务。 端到端VLA架构深度解析 端到端VLA框架代表了将感知、推理与规划统一于单一模型的技术路线。 同时,VLA相关研究的快速推进和演化,也为VLA的量产落地提供了更清晰的技术实现路径。 亟待解决的技术挑战 实时性约束是VLA模型面临的首要工程挑战。 结语 VLA模型代表了自动驾驶研究的一次范式跃迁。从最早的ALVINN到今天的VLA,自动驾驶系统经历了从简单反射到复杂推理的演进。
核心作用:为整个 VLA 生态系统提供了标准化的数据处理、模型训练和部署流程,是一个通用的“操作系统”。 4.5 亿参数的 VLA 模型。 conda create -n vla_env python=3.10 conda activate vla_env git clone https://github.com/huggingface/lerobot.git # server.py from vla import VLA model = VLA.load("your_finetuned_smolvla") model.serve_zmq("tcp://*:5555 其效果非常显著:能将VLA模型的推理速度提升超过1.5倍,同时任务成功率仅下降0.6%,几乎可以忽略不计。
论文方法 1.1 方法描述 该研究旨在开发一种视觉语言模型(VLA),使不同的机器人能够根据视觉观察和语言指令执行各种任务。为此,他们将模型分为三个部分:视觉模块、语言模块和动作模块。 方法创新点 该论文的主要贡献在于提出了一种全新的VLA模型架构——CogACT,通过将认知信息提取出来并作为条件引导动作预测过程,从而解决了现有VLAs在处理连续、多模态、时间相关且需要高精度的动作信号时存在的问题
VLA用于清洁控制, 研发周期约12-18个月 ,核心风险集中在数据准备(占30%时间)和安全验证(占40%时间),可以采用"确定性框架+VLA增量"的架构,避免纯端到端方案。 VLA清洁控制的研发, 最难的不是模型本身,而是数据获取、安全设计和泛化验证 ,成功关键在于"不要追求完美模型,而是构建可迭代、可降级、可解释的工程体系"。 (1-2个月) 1.1 关键任务 任务 输出物 形态调研报告 支持型号清单(目标50-100种) 清洁效果量化标准 ATP检测流程 + 通过阈值 硬件约束定义 传感器清单 + 算力预算 + 尺寸限制 VLA 50lux到500lux) 未考虑水位变化对视觉的影响 1.3 最佳实践 实践 说明 形态聚类 按几何相似性聚类,每类选3-5个代表 能力分级 定义L1(基础清洁)到L4(自适应清洁)等级 硬件解耦 VLA 只做路径规划,执行层用确定性算法 降级2:VLA只做异常检测,清洁用预设轨迹 降级3:完全切换到3D扫描+预设轨迹方案 3 最佳实践清单 架构层面 分层决策,VLA不直接控制电机 安全监控层独立于VLA
一、模型级优化:让大脑转得更快、更轻巧 这类方案主要对VLA模型本身进行改造,以降低计算复杂度和内存占用。 一致性蒸馏+早退解码 (CEED-VLA) 减少迭代步数 + 提前终止推理 一致性蒸馏训练+早退解码策略 实现4倍推理加速 优点:可即插即用,无需修改模型权重,性能无损耗。 二、系统级优化:让信息流跑得更快更稳 这类方案主要从VLA模型与机器人系统的交互方式入手,优化整体数据流和控制架构。 方案名称 核心原理 实现方式 关键数据 优缺点总结 异步控制 解耦"思考"与"行动" 慢速的VLA负责高层规划,快速的控制器负责低层执行 将推理帧率从1.4Hz提升至22.1Hz,超越实时要求 优点:VLA 力觉融合 (ForceVLA / CRAFT) 将力/触觉作为VLA的第一模态输入 在VLA框架中融合力传感器信息,用于课程微调 在插拔等任务中成功率提升23.2% 优点:专为接触任务设计,提升成功率和安全性
该文介绍了在C语言C99标准中的变长数组(VLA)的相关知识,以及其在编译器中的实现和用法。具体包括变长数组在C语言中的定义和声明方式,以及其在编译器中的实现和用法。同时,还介绍了在GNU C下变长数组的使用和注意事项。
该模型采用了两层框架,将视觉、语言和行动模型(VLA)与运动技能相结合。通过预先生成具有空间信息的语言中间动作(例如,“向前移动75厘米”),然后将其作为输入传递给视觉运动强化学习策略以执行任务。
正好最近在看VLA(Vision-Language-Action)模型相关技术,VLA的核心目标就是解决感知、语言和行动之间的断层问题。本文主要和大家讨论下VLA相关技术~1. 到这儿终于引入我们的主题VLA。5. RT-2介绍了如何通过将 VLM 预训练与机器人数据相结合来训练VLA模型,验证了再机器人领域能够利用VLM模型的能力来提升VLA模型的泛化能力。 模型,支持有效微调,推动机器人技术发RT-2提出了VLA模型,openVLA也同样具有里程碑意义,因为他开源了通用机器人VLA模型和训练代码。 2025年来看,VLA将长链式的端到端VLA系统拆分为视觉语言理解(VLM)与动作执行两个子模块,也正在成为一个重要探索方向。
1 VLA与传统控制方案对比 维度 VLA方案 确定性编程方案(3D扫描+预设轨迹) 贴合精度 动态适应好,但不够稳定 针对已知型号精度极高,未知型号差 开发周期 12-18个月起步 6-9个月可落地 ) 光照与视觉条件恶劣 内部光照不均、反光、水雾遮挡,视觉输入质量差 VLA强依赖视觉,输入退化 → 动作退化 水面反射可能造成深度估计错误 → 末端扎入水中 2. 泛化性陷阱 VLA的"泛化"是统计意义上的,不是物理意义上的 训练集未覆盖的形态,贴合效果可能从85%骤降至40%以下 用户实际一旦超出分布,体验断崖式下跌,且 用户无法判断原因 2. 计算资源与成本 端侧运行VLA需要较强算力(至少8GB显存GPU或等效NPU) 增加BOM成本200-500元,对消费级产品敏感 2. 可解释性差 VLA是端到端黑盒,出问题难以调试 用户投诉"这块没刷干净",无法定位是模型问题、视觉问题还是机械问题 3 提前规避 把不确定性封装在确定性框架内,让VLA的失败可检测、可恢复、可解释,VLA
二、VLA发展历程 VLA 的出现,本质上是对传统机器人系统与多模态模型局限性的回应。 在此背景下,视觉、语言与动作的统一建模逐渐成为研究重点,VLA 技术应运而生,并大致经历四个阶段: 1.探索融合的雏形阶段(2018–2021) 最早的VLA概念雏形,可追溯到2018年由Meta FAIR 三、VLA的关键技术突破 VLA范式的核心技术突破主要集中在三个关键维度: 1. 四、以RT-2、π0.5为例拆解VLA技术 1.1. RT-2(Robotics Transformer 2) RT-2是当前 VLA技术的重要代表之一。 五、VLA的挑战和商业前景 VLA技术在近两年实现了快速迭代与突破,其整体可行性已得到验证,行业发展重心正由技术原理探索逐步转向规模化落地与复杂场景稳定运行。
这篇文章就是要带你一起看看,我们是如何用 RoboVLMs 解锁 VLA 的无限可能! 四大灵魂拷问:RoboVLMs 是怎么炼成的? 我们围绕四个关键问题,对 VLA 的设计展开了深度探索,下面就带你看看答案! 1. 为什么要用 VLA 模型? 简单说,通过实验,我们发现设计合理的 VLA 不仅能轻松搞定常见的操作任务,还能在陌生场景中稳稳发挥。 怎么设计一个靠谱的 VLA 架构? 这里面讲究可不少!比如: 动作空间:用连续动作空间比离散的好很多。 历史信息:加多步历史信息后,模型的操作更稳准狠。 这些结论为未来 VLA 模型的训练策略指明了方向。
LeRobot 始终秉持着用优质、强大的视觉 - 语言 - 动作模型(VLA)赋能开发者社区的使命,而 X-VLA 的推出,正是这一使命的重要落地。 近日LeRobot 社区正式引入这款全新 VLA 模型 ——X-VLA,作为首个基于软提示(Soft-Prompt)的跨载体视觉 - 语言 - 动作机器人基础模型,它真正实现了 “一个模型适配任意机器人 而 X-VLA 从大模型的提示学习(Prompt Learning) 和元学习(Meta-Learning) 中汲取灵感,提出了全新的解决方案:让 VLA 模型像 LLM 学习不同任务一样,通过 “提示 X-VLA 的核心创新:软提示解锁跨载体通用能力 X-VLA 是一个基于软提示、融合流匹配(Flow-Matching)的 VLA 框架,其核心设计是将每一种机器人硬件配置视为一个 “任务”,用一组可学习的嵌入向量 VLA 赋能社区的使命。
AerialVLA的设计目标是同时移除这两个依赖,用一个统一的VLA模型完成从感知到动作的端到端映射。 这说明端到端VLA模型在泛化能力上具有明显优势。作为参考,人类操作者在Seen场景中的SR为94.51%,SPL为77.84%。 五、总结与思考AerialVLA展示了一条将通用VLA模型适配到无人机导航任务的可行路径:通过极简视觉输入、模糊方向提示和数值标记化三个设计,移除了对oracle引导和外部检测器的依赖,在Unseen 极简输入的启示:5视图反而不如2视图,在训练数据有限(420,000帧)时更多视角带来的信息增量不足以抵消过拟合风险,对其他VLA任务的视觉输入设计有参考价值。