首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Gemini Robotics 1.5实现物理世界AI代理

Gemini Robotics 1.5实现物理世界AI代理

原创
作者头像
用户11764306
发布2026-05-06 12:21:13
发布2026-05-06 12:21:13
1630
举报

模型发布:Gemini Robotics 1.5 将 AI 代理带入物理世界

我们正在推动一个物理代理的新时代——使机器人能够感知、规划、思考、使用工具并采取行动,以更好地解决复杂的多步骤任务。

今年早些时候,我们从 Gemini Robotics 模型系列开始,在将 Gemini 的多模态理解能力带入物理世界方面取得了令人难以置信的进展。

今天,我们朝着推进智能、真正通用的机器人方向又迈进了一步。我们推出了两个模型,通过高级思考能力解锁代理体验:

  • Gemini Robotics 1.5 – 这是我们最强大的视觉-语言-动作模型,能将视觉信息和指令转化为机器人执行任务所需的电机命令。该模型在采取行动之前会进行思考,并展示其思考过程,帮助机器人更透明地评估和完成复杂任务。它还能跨不同本体进行学习,加速技能学习。
  • Gemini Robotics-ER 1.5 – 这是我们最强大的视觉-语言模型,能够对物理世界进行推理,原生调用数字工具,并创建详细的多步骤计划以完成任务。该模型目前在空间理解基准测试中达到了最先进的性能。

这些进展将帮助开发者构建更强大、更通用的机器人,使其能够主动理解环境,以通用方式完成复杂的多步骤任务。

从今天起,开发者可通过 Google AI Studio 中的 Gemini API 使用 Gemini Robotics-ER 1.5。Gemini Robotics 1.5 目前仅向特定合作伙伴开放。

Gemini Robotics 1.5:为物理任务解锁代理体验

大多数日常任务需要上下文信息和多个步骤才能完成,这对当今的机器人来说极具挑战性。

例如,如果一个机器人被问到“根据我的位置,你能把这些物品分类到正确的堆肥、可回收和垃圾桶中吗?”,它需要搜索互联网上相关的当地回收指南,观察面前的物品,根据这些规则找出如何分类,然后执行所有必要的步骤将它们完全归位。为了帮助机器人完成这类复杂的多步骤任务,我们设计了两个在一个代理框架中协同工作的模型。

我们的具身推理模型 Gemini Robotics-ER 1.5 像一个高级大脑一样协调机器人的活动。该模型擅长在物理环境中进行规划和逻辑决策。它具有最先进的空间理解能力,能以自然语言交互,评估自身成功率和进度,并能原生调用如搜索引擎等工具来查找信息,或使用任何第三方用户定义的函数。

然后,Gemini Robotics-ER 1.5 为每一步操作向 Gemini Robotics 1.5 提供自然语言指令,后者利用其视觉和语言理解能力直接执行具体动作。Gemini Robotics 1.5 还帮助机器人思考其行为,以更好地解决语义复杂的任务,甚至可以用自然语言解释其思考过程——使其决策更加透明。

这两个模型都基于核心 Gemini 模型系列构建,并使用不同的数据集进行了微调,以专门化各自的角色。当它们结合使用时,提升了机器人泛化到更长任务和更多样化环境的能力。

理解自身环境

Gemini Robotics-ER 1.5 是第一个为具身推理优化的思考模型。它在学术和内部基准测试中均达到了最先进的性能,这些基准测试的灵感来自我们可信测试者计划中的真实用例。

我们在 15 个学术基准测试上评估了 Gemini Robotics-ER 1.5,包括具身推理问答和指向基准,测量了模型在指向、图像问答和视频问答方面的性能。

行动前思考

传统的视觉-语言-动作模型直接将指令或语言计划转化为机器人的运动。Gemini Robotics 1.5 现在不仅能翻译指令或计划,还能在行动前进行思考。这意味着它可以生成内部的自然语言推理和分析序列,以执行需要多个步骤或需要更深层次语义理解的任务。

例如,在完成“按颜色分类我的衣物”这样的任务时,视频中的机器人会在不同层面上进行思考。首先,它理解按颜色分类意味着将白色衣物放入白色箱子,其他颜色放入黑色箱子。然后它思考要采取的步骤,比如拿起红色毛衣并放入黑色箱子,以及涉及的详细动作,比如将毛衣移近以便更容易抓取。在这种多层次的思考过程中,视觉-语言-动作模型可以决定将较长的任务分解为机器人能够成功执行的更简单的短片段。这也有助于模型泛化到解决新任务,并增强对环境变化的鲁棒性。

跨本体学习

机器人有各种形状和大小,具有不同的感知能力和自由度,这使得从一个机器人学到的动作难以迁移到另一个机器人上。Gemini Robotics 1.5 显示出显著的跨不同本体学习的能力。它可以将从一个机器人学到的动作迁移到另一个机器人,而无需针对每个新本体对模型进行专门化。这一突破加速了新行为的学习,帮助机器人变得更聪明、更有用。

例如,我们观察到仅在训练期间向 ALOHA 2 机器人展示的任务,也能在 Apptronik 的人形机器人 Apollo 和双臂 Franka 机器人上正常工作,反之亦然。

如何负责任地推进 AI 与机器人技术

在解锁具身 AI 全部潜力的同时,我们正主动开发新的安全和对齐方法,以便在以人为中心的环境中负责任地部署具身 AI 机器人。责任与安全委员会以及负责任开发与创新团队与机器人团队合作,确保这些模型的开发符合我们的 AI 原则。

Gemini Robotics 1.5 通过高级语义推理实现了全面的安全方法,包括在行动前思考安全性、通过与现有 Gemini 安全策略对齐确保与人类的尊重对话,以及在需要时触发机器人机载的低级安全子系统。为了指导 Gemini Robotics 模型的安全开发,我们还发布了升级版的 ASIMOV 基准测试,这是一个用于评估和提升语义安全性的综合数据集集合。

迈向在物理世界中解决通用人工智能的里程碑

Gemini Robotics 1.5 标志着向在物理世界中解决通用人工智能迈出了重要里程碑。通过引入代理能力,我们正在超越对指令做出反应的模型,转而创建能够真正推理、规划、主动使用工具和泛化的系统。这是构建能够以智慧和灵巧应对物理世界复杂性,并最终变得更有帮助并融入我们生活的机器人的基础性一步。FINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档