人类首个机器人专用模型出现:Gemini Robotics (视觉-语言-动作)
浏览次数:119次 发布时间:2025-03-20
机器人迎来gpt时刻,谷歌发布先进的VLA模型(视觉-语言-动作),首个专为机器人设计的模型,推出具身智能领域的测评标准ERQA,这个将会持续影响人类AIGC发展,咱们拭目以待。
Gemini Robotics 是基于Gemini 2.0 的模型,专为机器人设计,它将人工智能带入物理世界。
在谷歌 DeepMind,已经在如何通过跨文本、图像、音频和视频的多模态推理解决复杂问题方面取得了进展。然而,到目前为止,这些能力在很大程度上局限于数字领域。为了让 AI 在物理世界中变得有用和有帮助,它们必须展示“具身”推理——类似于人类的理解周围世界并做出反应的能力——以及安全地采取行动来完成事情。
2025-03-13,谷歌推出了两个基于 Gemini 2.0 的新 AI 模型(云端+设备端),为新一代有益的机器人奠定了基础。
第一个是 Gemini Robotics,这是一个基于 Gemini 2.0 的高级视觉-语言-动作(VLA)模型,通过添加物理动作作为新的输出模式,旨在直接控制机器人。
第二个是 Gemini Robotics-ER,这是一个具有高级空间理解的 Gemini 模型,使机器人学家能够利用 Gemini 的具身推理(ER)能力运行自己的程序。
这两个模型使各种机器人能够执行比以往更广泛的现实世界任务。同时与 Apptronik 合作,利用 Gemini 2.0 构建下一代类人机器人。谷歌还在与一些精选的信任测试者合作,以引导 Gemini Robotics-ER 的未来。
Gemini Robotics: 最先进的视觉-语言-动作模型
人工智能模型要成为对人类有用和有帮助,需要具备三个主要特点:它们必须是通用的,这意味着它们能够适应不同的情况;它们必须是交互式的,这意味着它们能够快速理解和回应指令或环境中的变化;它们还必须是灵巧的,这意味着它们能够做人们通常用双手和手指做的事情,比如小心地操作物体。
尽管谷歌之前的工作在这些领域取得了进展,但 Gemini Robotics 代表了在三个轴向上性能的实质性飞跃,使其更接近真正通用的机器人。
Gemini Robotics 利用 Gemini 对世界的理解,能够泛化到新情境并解决各种任务,包括训练中从未见过的任务。Gemini Robotics 还擅长处理新物体、多样化的指令和新的环境。在技术报告中,展示了与最先进的视觉-语言-动作模型相比,Gemini Robotics 在综合泛化基准测试中的平均性能超过翻倍。
交互性:
为了在我们的动态物理世界中运行,机器人必须能够无缝地与人类及其周围环境互动,并能够即时适应变化。
因为建立在 Gemini 2.0 的基础上,Gemini Robotics 具有直观的交互性。它利用了 Gemini 的高级语言理解能力,能够理解和回应用日常对话语言和不同语言表述的命令。
它能够理解和响应比我们之前的模型更广泛的自然语言指令,根据输入调整其行为。它还持续监控其周围环境,检测环境或指令的变化,并相应地调整其动作。这种控制,或称为“可操控性”,能更好地帮助人们在各种环境中与机器人助手协作,从家庭到工作场所。
灵巧:
构建一个有用的机器人的第三个关键支柱是灵活的操作。许多人类轻松完成的家务任务需要惊人的精细运动技能,而这些技能对于机器人来说仍然过于困难。相比之下,Gemini Robotics 可以处理极其复杂的多步骤任务,例如折纸或把零食装进 Ziploc 袋,这些任务需要精确的操作。
多种实现方式:
最后,由于机器人形状和尺寸各异,Gemini Robotics 也被设计成易于适应不同类型的机器人。主要在双臂机器人平台 ALOHA 2 的数据上训练了该模型,但还展示了它能够控制基于许多学术实验室使用的 Franka 臂的双臂平台。Gemini Robotics 甚至可以针对更复杂的实体进行专门化,例如 Apptronik 开发的人形 Apollo 机器人,目标是完成现实世界任务
提升 Gemini 的世界理解

与 Gemini Robotics 合作,我们推出了名为 Gemini Robotics-ER(简称“具身推理”)的高级视觉-语言模型。该模型增强了 Gemini 对世界的理解,对机器人技术至关重要,特别是在空间推理方面,并允许机器人学家将其与现有的低级控制器连接起来。
Gemini Robotics-ER 显著提升了 Gemini 2.0 现有的指向和 3D 检测能力。结合空间推理和 Gemini 的编码能力,Gemini Robotics-ER 可以即时实现全新的功能。例如,当展示一个咖啡杯时,模型可以直观地推断出合适的两指抓握方式来抓取杯柄,以及安全的接近路径。
Gemini Robotics-ER 可以一键完成控制机器人所需的全部步骤,包括感知、状态估计、空间理解、规划和代码生成。在这样的端到端设置中,该模型的成功率比 Gemini 2.0 提高了 2 倍至 3 倍。而在代码生成不足的情况下,Gemini Robotics-ER 甚至可以利用上下文学习的力量,遵循少量人类演示的模式,提供解决方案。
将继续推进人工智能和机器人技术
随着探索人工智能和机器人技术的持续潜力,在研究中采取了一种分层、全面的方法来应对安全问题,从低级运动控制到高级语义理解。
机器人及其周围人员的物理安全是机器人科学中的一个长期、基础性的关注点。这就是为什么机器人学家有如避免碰撞、限制接触力的大小以及确保移动机器人的动态稳定性等经典安全措施。Gemini Robotics-ER 可以与这些针对每个特定实体的“低级”安全关键控制器接口。在 Gemini 的核心安全功能基础上,使 Gemini Robotics-ER 模型能够理解在特定情境下,一个潜在的动作是否安全执行,并生成适当的响应。
为了推进学术界和工业界的机器人安全研究,还在发布一个新的数据集,以评估和改进具身人工智能和机器人中的语义安全。在之前的工作中,展示了受艾萨克·阿西莫夫的机器人三大定律启发的机器人宪法如何帮助提示LLM为机器人选择更安全的任务。自那时起,谷歌开发了一个框架,可以自动生成数据驱动的宪法——直接用自然语言表达的规定——以引导机器人的行为。这个框架将允许人们创建、修改和应用宪法,以开发更安全且更符合人类价值观的机器人。最后,新的 ASIMOV 数据集将帮助研究人员严格衡量机器人行为在现实场景中的安全影响。