
新智元报道
最近,一款名为宇树的人形机器人引起了广泛关注:它安装了OpenClaw后竟然能够理解空间和时间!这一发现让机器人界沸腾起来,仿佛《终结者》中的天网即将成为现实。
今天早上全球的开源机器人社区被一条重大消息震撼到了!

当这台装备有OpenClaw的宇树机器人在房间内移动时,它的感知系统由激光雷达、双目摄像头和RGB相机组成。所有这些传感器的数据都被整合进了一个智能算法中。
令人惊叹的是,它成为了首个能够理解物理空间与时间关系的机器人!
不仅如此,这款机器人还具备了识别周围环境的能力,并能记住发生在特定时间和地点的事情。
这种能力被称作Spatial Agent Memory(空间智能体记忆),标志着机器人的认知水平向前迈出了一大步。
开源项目OpenClaw正是推动这一突破的关键因素之一。
该项目的创始人Peter Steinberger随即转发了相关成果,进一步验证了其重大意义。
这一成就标志着具身智能领域的一个重要里程碑——机器人的感知能力得到了显著提升。

天网,刚刚开源了?
随后,在社交媒体上引发了激烈的讨论。
网友们对此意见不一:有人对这一技术突破感到兴奋,认为这是边缘AI的重要进步;


但也有人担心这种“全知全能”的监视功能可能带来的负面影响。


其中一位网友甚至建议应当考虑军事订单的可能性。

更为重要的是,这一切的实现都是通过开源的方式完成的。这意味着任何人都可以利用OpenClaw来提升自己机器人的能力。

事实上,在这次展示视频中使用的是宇树机器人作为硬件平台,但该系统其实可以在任何支持激光雷达和摄像头的设备上运行。

这种灵活性使得它不仅可以应用于人形机器人,还可以集成到无人机或四足机器人等其他类型的机器中去。
甚至理论上来说,只要你的旧iPhone具备相应的硬件功能,就可以用来开发出一个具有时空感知能力的新机器人。
总而言之,任何能够运行OpenClaw的设备都将具备这种先进的记忆和理解世界的能力。
它还能实现全动态障碍物避让以及SLAM(即时定位与地图构建)功能,并且无需依赖ROS系统。
开源机器人技术的发展正在迈向一个全新的阶段,仿佛预示着未来的“天网”时代即将来临。

如果有一天你家里的机器人开始告诉你关于家庭成员生活习惯的信息,你会不会感到一丝不安?
当它不仅能描述过去发生的事件,还能预测未来可能发生的事情时,这种感觉就更加强烈了。
这种能力来自于一种新的技术——SpatialRAG黑科技,让机器人的大脑拥有了三维的“云脑”。
通过这种方式,机器人不再只是简单的记录视频,而是构建了一个能够理解物理世界的模型。
相比之下,以前的机器人缺乏对空间的理解和持续的记忆功能,因此显得不够聪明。
此外,传统的RAG技术只能搜索文字信息,而机器人的挑战在于处理大量的图像、深度数据以及三维空间等复杂信息流。
为了克服这些困难,研究人员开发了一种全新的方法——Spatial Agent Memory(空间智能体记忆)和SpatialRAG。
这套系统的创新之处在于将视频、雷达检测结果和其他传感器数据整合在一起,形成一个由体素构成的世界模型。
每个体素都被赋予了具体的空间坐标和语义标签,从而构建了一个多维向量存储库来记录对象的位置、时间等信息。
这种方式使得机器人第一次拥有了全面的时空记忆能力,并能够回答诸如“钥匙丢在哪里”、“谁最常去厨房”等问题。
随着这项技术的发展,人们开始质疑其潜在的应用和伦理问题。一方面有人担心这会引发类似电影《终结者》中的情节;另一方面也有人持乐观态度认为它将带来更多便利。
开发团队迅速回应了这些担忧,解释说他们的系统不仅高效而且稳定,并且完全有能力应对现实生活中的各种挑战。
此外,OpenClaw还提供了一系列基础设施支持,使得机器人能够更加灵活地处理复杂任务并保持高性能运行状态。


一位工程师表示,在现实环境中让机器人正常工作比单纯研究理论更为困难。因为真实世界充满了传感器冲突、光照变化等各种难题。

这项技术的出现可能标志着人类进入了真正的机器人时代,而这一切都始于开源社区的努力和创新精神。
当然,对于未来而言,如何平衡技术创新与伦理责任是需要深入探讨的问题之一。
他们祭出了杀手锏——Spatial Agent Memory(空间智能体记忆)和SpatialRAG。


这套系统的核心逻辑非常硬核:它把视频、雷达检测、帧图像、里程计全部揉在一起,构建成一个体素(Voxel)化的世界。
每一个空间小方块(体素)都被打上了空间矢量嵌入和语义标签。结果就是,机器人的大脑变成了一个包含对象、房间、几何、时间、图像、点云的多维向量存储库。
可以说,这就是让机器人理解物理世界所需要的记忆骨架。
依靠这个系统,机器人可以在object(物体)、room(房间)、semantic(语义)、geometry(几何)、time(时间)、image(图像)、pointcloud(点云)等多个维度搜索,由此第一次拥有了完整的空间记忆。
因此,现在它能回答这些直击灵魂的问题了。
比如「我钥匙丢哪儿了?」「上周一谁来过我家?」「谁在厨房待的时间最长?」「垃圾该什么时候倒?」
网友质疑:天网降临,还是老头漫步?
这项成果一出,评论区直接炸锅了。
有吐槽派怀疑说,这延迟不得卡死?是派100岁老爷爷来帮我做家务吗?
但技术团队火速打脸表示:「不,它并不是20Hz跑实时控制,而是高层智力协调器。它负责指挥,动作运行可以异步,完全不卡顿!」

还有人质疑道:为什么不用专用ML模型,而是要用LLM和Cron这种鲁布·戈德堡机械呢?
对此,开发者表现得非常坦诚:「把LLM装到硬件上确实容易,但让它维持一个持续的、关于什么时间、什么地点发生了什么的物理上下文,才是最难的。」
而OpenClaw提供的,不仅仅是一个输入接口,而是包含了一整套代理基础设施(Agent Infrastructure):子代理编排、MCP(多点协作协议)处理、工具安全审计、插件系统。
这让它比原生的Claude代码更适合作为机器人的「前额叶」。

另外在评论区,一位机器人工程师说了一句非常真实的话:最难的不是空间理解,而是让系统在现实世界稳定运行。
现实世界的问题,包括传感器冲突、光照变化、动态障碍、数据噪声和硬件故障等,而仿真世界,永远不会让你面对这些问题。

具身智能的最后一公里
很多人说,「具身」是意识的关键。这次尝试告诉我们:让LLM上硬件不难,难的是让它产生持久的、跨越时空的物理上下文。
当机器人开始理解因果,开始记住位置,它就不再是一个会走路的音箱,而是一个真正的「物理代理」。
或许,天网不会突然降临,但事情可能是这样的:机器人学会看见世界,记住世界,最后学会改变世界。
而当这些能力全部开源的时候,任何人都可以构建一个机器人大脑。

有一天,当我们回头看这一刻,可能会意识到:这就是机器人时代真正开始的地方。
家用机器人的时代,可能真的要被这只「开源爪子」挠开了。
参考资料:
https://x.com/stash_pomichter/status/2028645216505549168
