最新的具身智能大脑亮相,波士顿机器狗展现出非凡能力。
Gemini Robotics的第三代模型注重空间推理功能。
今日谷歌DeepMind发布了Gemini Robotics-ER 1.6这一全新机器人推理系统。
Gemini Robotics-ER 1.6是该系列中第三个以空间推理为重点发展的模型。
谷歌在九年前出售了波士顿动力公司,今年的CES展会上宣布重新合作,并发布了这款最新的机器人系统作为双方新合作的第一个重要成果。
AlphaGo的研发者哈萨比斯也在第一时间分享了这个消息。
Gemini Robotics-ER 1.6的主要功能是充当机器人的高级大脑,负责环境感知和任务规划,而非直接控制机械动作。
与上一代相比,新模型在空间推理、物品计数以及任务完成检测方面都有显著提升,并且新增了仪表识别的功能。
Laura Graesser 和 Peng Xu 在技术博客中介绍了 Gemini Robotics-ER 1.6 的核心改进。
文章指出,机器人要想真正发挥作用,必须具备理解物理世界的能力,而不仅仅是执行预设指令。

ER 1.6 的设计目的是为了使机器人大脑能够更好地理解和解释其所处的环境。
在Spot机器人演示中,它展示了如何读取工厂压力表上的数字。
仪表识别技术通过三个步骤实现:放大、定位和调用世界知识来解析数值。
经过改进后,ER 1.6 的仪表识别成功率达到了93%,而之前仅为23%。

波士顿动力公司的Spot副总裁Marco da Silva表示,这些新能力将使Spot能够更自主地应对现实中的挑战。
Pointing技术是实现更高水平空间推理的关键要素之一。
这项技术让机器人大脑可以精确指出特定物体的位置和数量,并避免错误识别不存在的物品。
ER 1.6 在这项任务上的表现比其前身更准确,能够正确识别工具的数量并区分存在的与不存在的对象。
仪表识别
另一项改进是成功检测功能,帮助机器人确定何时完成任务。
新系统通过结合多个摄像头的视角来做出决策,以应对复杂的现实环境。
ER 1.6 能够根据不同的场景提供一致的答案,例如判断蓝色笔是否已经放入黑色笔筒中。
哈萨比斯表示,谷歌的目标是成为“机器人的Android操作系统”,为所有机器人制造商提供智能解决方案。
Gemini Robotics-ER 1.6 的研发团队包括Laura Graesser和Peng Xu两位专家。

Laura Graesser 曾在牛津大学获得学士学位,并且合著了一本关于强化学习的教科书。
她早期的工作重点之一是开发能够快速响应乒乓球挑战的机器人系统。
Pointing,空间推理的基石
仪表识别能做到这一步,背后是Pointing能力的支撑。
Pointing是ER模型从初代就在练的基本功。简单说,就是让模型用「点」来表达它对空间的理解,哪里有什么,有几个,怎么移动,抓哪里最合适。
ER 1.5在这一任务上表现不佳:给它一张工具图,它数错了锤子数量,漏掉了剪刀,还把图里根本不存在的手推车给「指」了出来。
ER 1.6则能把这些全部答对,锤子2把、剪刀1把、画笔1支、钳子6把,一个不差。更关键的是,对于图里没有的东西,它知道不去指。
成功检测,知道什么时候停
ER 1.6还有一个升级,成功检测。
知道任务何时结束,和知道如何开始,同样是自主性的核心。
以前的系统,做完一个动作就算完了。但真实场景里有遮挡、有光线变化、有模糊指令,「做完了」这件事本身就需要判断。
ER 1.6强化了多视角推理,机器人通常有多个摄像头,头顶一个、手腕一个,系统需要把这些视角合并成一个连贯的判断。
比如开头的那个demo:把蓝色笔放进黑色笔筒,任务完成了吗?
ER 1.6能从多个角度的画面里,给出一个可靠的答案。
顺带一提,这也是谷歌迄今最安全的机器人模型。
在对抗性空间推理任务里,ER 1.6对安全指令的遵循程度优于所有前代版本。
不处理液体、不搬运超过20公斤的物体,这类物理安全约束,ER 1.6能通过Pointing等空间输出做出更准确的判断。

在基于真实伤害报告的安全隐患识别测试里,ER系列比Gemini 3.0 Flash高出6%(文字场景)和10%(视频场景)。
谷歌与波士顿动力
看到Spot,你可能会好奇,为啥谷歌要用波士顿动力的狗?
事情是这样的:
谷歌2013年收购波士顿动力,2017年卖给软银,理由是看不到商业闭环。
2020年现代汽车以8.8亿美元接盘。然后2025年11月,波士顿动力的前CTO Aaron Saunders离职,加入了谷歌DeepMind。
2026年1月CES,两家在现代汽车的发布会上宣布正式合作,目标是把Gemini Robotics部署到Atlas人形机器人上。

卖出去九年,又回来了。
哈萨比斯的说法是,谷歌不做硬件,要成为「机器人领域的Android」,给所有机器人厂商提供大脑。
这次ER 1.6发布,署名了两位作者,Laura Graesser和Peng Xu。
Laura Graesser是牛津本科、NYU硕士出身,2018年加入Google,2023年至今在DeepMind做机器人研究,还合著过一本强化学习教科书《Foundations of Deep Reinforcement Learning》。

她早期的研究方向之一,是让机器人打乒乓球,系统需要在100毫秒内完成感知、计算和击球动作。

Peng Xu是DeepMind机器人基础模型方向的研究员,专注机器人学习与大模型的结合,不仅参与过上面的机器人打乒乓球,也是RT-1、RT-2、Cap(Code as policy)、Gemini robotics等一系列著名工作的作者之一。

参考链接
[1]https://deepmind.google/blog/gemini-robotics-er-1-6/
[2]https://deepmind.google/models/gemini-robotics/gemini-robotics/

henry