最近,机器人视觉技术再次取得突破性进展,能够实时进行无限帧视频的3D重建。
这一创新成果是由开源社区发布的顶尖方案。
一项新的研究显示,机器人的三维空间感知能力已经迈上了一个新台阶。
来体验一下这种全新的感觉:
视频链接已提供。
对此可能有人会问:这有什么实际用途?

实际上,这一模型可以应用于扫地机器人或自动驾驶系统中。前者可以边清扫边创建房间的3D地图;后者则能在驾驶时实时分析道路情况。
这项技术与《火影忍者》中的白眼能力有异曲同工之妙——全方位无死角透视和细节捕捉。
最新开源项目LingBot-Map由蚂蚁灵波团队研发,专为流式3D重建设计。
该模型在速度、准确性和资源消耗上都有显著改进,解决了此前的不可能三角问题。
这种实时3D建模并不简单

△图源由AI生成
在探讨“为何流式3D重建难以实现”的话题之前,有必要先区分传统离线3D重建和在线流式3D重建的概念。

两者在技术层面上有着本质的区别。
离线的3D重建需要预先收集大量数据并集中计算资源进行全局建模,这导致了效率低下、占用大量存储空间等问题。因此这种方法不适用于实时决策的应用场景。
相比之下,在线流式3D重建则能够满足即时性的需求:即拍即建模,边感知边做决策,与人类的视觉逻辑高度一致。
然而实际操作中面临着三大挑战:
首先,大量数据存储会导致显存超载;
其次,少量数据缓存可能导致记忆丧失;
最后,要在速度和精度之间找到平衡点。
以往大多数流式方案要么依赖测试时优化,要么使用未来帧信息进行全局校准,或者加入人工设计的关键帧规则。这些方法都不是端到端的纯推理过程。
LingBot-Map则采取了严格的自回归路径:仅依赖历史帧信息推断当前帧,没有任何后处理或对未来的依赖,并且没有人为优化规则。
由于这种严格约束,LingBot-Map必须像蒙着眼睛的人一样依靠记忆来导航迷宫。
蚂蚁灵波团队成功克服了这一技术难题。

△图源由AI生成
LingBot-Map的设计灵感来自于人类大脑的运作方式。
比如在城市中行走时,人们能够记住关键位置而不迷失方向。这种机制也被LingBot-Map所采用。
具体而言,LingBot-Map的核心技术是几何上下文注意力(Geometric Context Attention,GCA)。
通过这个机制,模型可以高效地管理记忆信息。
首先是一个锚点(Anchor),帮助机器人定位“我从哪里来”;
然后是一个位姿参考窗口(Pose-reference Window),让机器人记住“我周围的环境是什么样子”;
最后是轨迹记忆(Trajectory Memory),记录下“我已经走过的路”。
这些机制共同作用,使得LingBot-Map能够在处理超长视频序列时保持稳定性能,同时大幅度减少显存消耗。
实验数据显示,在多个权威基准测试中,LingBot-Map超越了其他流式模型的表现,成为行业的领先者。
难,是真的难。
在长时间序列的重建任务中,其精度和速度都有显著提升。
像人一样选择性记忆
在Oxford Spires、ETH3D等数据集上,LingBot-Map展示了卓越的性能优势。
此外,在主流分辨率下,模型运行所需的显存也相对较低,适用于消费级设备。
相较于传统方法,LingBot-Map在速度和精度方面实现了重大突破。
这种高效的表现证明了GCA机制的有效性。
除了技术上的优势之外,LingBot-Map的开源也具有重要的行业意义。
它标志着蚂蚁灵波团队构建了一个完整的具身智能技术栈——从感知到控制,形成了闭环的技术链条。
这项创新为机器人、AR/VR和自动驾驶领域提供了强大的技术支持。
因此可以说,LingBot-Map的问世是机器理解物理世界的又一重要进展。
蚂蚁灵波团队的持续开放源代码工作表明,具身智能技术的应用正在加速进入现实世界。
其次是位姿参考窗口(Pose-reference Window),用来记住“我身边有什么”。
因为光有起点是不够的,要想走得稳,还得看清脚下的路。
于是团队便在LingBot-Map里设置了位姿参考窗口,它只保留最近的k帧的完整高维特征。
这部分记忆虽然是短期的,但信息极其丰富密集,这样就可以确保模型能够精准地捕捉局部的几何细节,让当前帧能够丝滑地与前几帧拼接在一起,让每一步都踩得极准。
最后就是轨迹记忆(Trajectory Memory),起到记住“我走过的路”的作用。
这也是LingBot-Map中非常关键的一个步骤。
对于那些既不是起点、也不在眼前,属于很久以前的中间历史画面,模型不再存储它们庞大具体的图像像素细节。
取而代之的是,它将这些历史帧的宏大信息,极致压缩成了区区6个极简的Token(包含相机、锚点和寄存器 Token),并打上时间戳(位置编码)。
对比传统因果注意力,LingBot-Map的单帧信息增长量直接降低80倍,哪怕处理万帧长视频,显存消耗也几乎恒定。

三大模块协同发力,便是LingBot-Map打破不可能三角的关键原因了。
那么这套打法效果又如何呢?
实测拿下新SOTA
从论文中呈现的实验结果来看,LingBot-Map已经在多项权威基准测试中,全面碾压其它流式模型,稳坐SOTA之位。
首先是长序列稳定性。
在10000+帧的超长视频序列测试中,模型全程保持稳定重建质量,没有出现任何明显的轨迹漂移。要知道,同类纯自回归模型往往几百帧就开始扭曲,万帧稳定的表现,直接刷新了行业纪录。

其次是速度与精度双突破。
在518×378的主流分辨率下,推理速度达到20FPS,比同类流式方法基线快了近一倍,完全满足机器人、自动驾驶的实时性需求。
在Oxford Spires、ETH3D、Tanks & Temples等权威数据集测试中,轨迹误差降低约77%,3D点云建模精度、全局一致性远超所有流式竞品,甚至比部分离线优化模型表现更优。

除此之外,模型运行显存仅需13.28GB,普通消费级显卡即可流畅部署,彻底告别对高端专业显卡的依赖。
对比同类方案动辄30GB+的显存需求,LingBot-Map实现了“技术顶尖、落地亲民”,让流式3D重建具备了规模化商用的基础。
而且效率测试的数据更加直观。
对比全历史帧缓存方案,LingBot-Map用64帧窗口设计,将推理速度从3.12FPS提升至19.95FPS,显存从36.06GB压缩至13.28GB,速度提升6倍、显存降低63%,同时精度反而更高,印证了GCA记忆机制的优越性。

在看完LingBot-Map背后的技术和展现的效果之后,还有一个话题值得聊一聊:
LingBot-Map的开源绝不是为了单点刷榜、秀肌肉。
补齐另一块具身智能关键拼图
若是大家长期关注蚂蚁灵波,就不难发现它在下一盘大棋。
仅仅在今年1月,蚂蚁灵波便已经陆续开源了多款模型:
从感知世界的LingBot-Depth,到理解物理规律的LingBot-World,再到控制身体的LingBot-VLA和全球首个具身世界模型LingBot-VA。
而今天LingBot-Map的开源,则补齐了“边走边记、理解并重建连续真实三维空间”的关键拼图。
这就意味着蚂蚁灵波正式构建了“感知-建模-模拟-控制”全链路具身智能技术栈,从看懂世界、建模世界,到理解世界、操控身体,形成了完整的技术闭环。
此举对全产业落地来说,亦是有着重要的价值。举三个例便一目了然了:
- 机器人:仓库巡检、家庭服务,机器人不再需要昂贵的激光雷达,单靠摄像头就能边走边建图,真正实现低成本、大规模部署。
- AR/VR:戴上眼镜,虚拟物体可以零延迟、不漂移地叠加在真实桌面上,虚实融合的体验将被拉满。
- 自动驾驶/无人机:城市级大场景的实时建模成为可能,为纯视觉的自动驾驶方案提供了更强大的时空理解能力。
因此,综上所述,LingBot-Map的出现,可以说是机器理解真实物理世界迈出的关键一步。
与此同时,蚂蚁灵波的持续开源,也让我们清晰地看到,具身智能的规模化落地,正在以前所未有的速度向我们驶来。
Hugging Face:
https://huggingface.co/robbyant/lingbot-map
ModelScope:
https://www.modelscope.cn/models/Robbyant/lingbot-map
GitHub:
https://github.com/Robbyant/lingbot-map
Paper:
https://arxiv.org/abs/2604.14141
Homepage:
https://technology.robbyant.com/lingbot-map

十三