最近，机器人视觉技术再次取得突破性进展，能够实时进行无限帧视频的3D重建。

十三 2026-04-16 20:33:23 量子位

这一创新成果是由开源社区发布的顶尖方案。

一项新的研究显示，机器人的三维空间感知能力已经迈上了一个新台阶。

来体验一下这种全新的感觉：

视频链接已提供。

对此可能有人会问：这有什么实际用途？

实际上，这一模型可以应用于扫地机器人或自动驾驶系统中。前者可以边清扫边创建房间的3D地图；后者则能在驾驶时实时分析道路情况。

这项技术与《火影忍者》中的白眼能力有异曲同工之妙——全方位无死角透视和细节捕捉。

最新开源项目LingBot-Map由蚂蚁灵波团队研发，专为流式3D重建设计。

该模型在速度、准确性和资源消耗上都有显著改进，解决了此前的不可能三角问题。

这种实时3D建模并不简单

△图源由AI生成

在探讨“为何流式3D重建难以实现”的话题之前，有必要先区分传统离线3D重建和在线流式3D重建的概念。

两者在技术层面上有着本质的区别。

离线的3D重建需要预先收集大量数据并集中计算资源进行全局建模，这导致了效率低下、占用大量存储空间等问题。因此这种方法不适用于实时决策的应用场景。

相比之下，在线流式3D重建则能够满足即时性的需求：即拍即建模，边感知边做决策，与人类的视觉逻辑高度一致。

然而实际操作中面临着三大挑战：

首先，大量数据存储会导致显存超载；

其次，少量数据缓存可能导致记忆丧失；

最后，要在速度和精度之间找到平衡点。

以往大多数流式方案要么依赖测试时优化，要么使用未来帧信息进行全局校准，或者加入人工设计的关键帧规则。这些方法都不是端到端的纯推理过程。

LingBot-Map则采取了严格的自回归路径：仅依赖历史帧信息推断当前帧，没有任何后处理或对未来的依赖，并且没有人为优化规则。

由于这种严格约束，LingBot-Map必须像蒙着眼睛的人一样依靠记忆来导航迷宫。

蚂蚁灵波团队成功克服了这一技术难题。

△图源由AI生成

LingBot-Map的设计灵感来自于人类大脑的运作方式。

比如在城市中行走时，人们能够记住关键位置而不迷失方向。这种机制也被LingBot-Map所采用。

具体而言，LingBot-Map的核心技术是几何上下文注意力（Geometric Context Attention，GCA）。

通过这个机制，模型可以高效地管理记忆信息。

首先是一个锚点（Anchor），帮助机器人定位“我从哪里来”；

然后是一个位姿参考窗口（Pose-reference Window），让机器人记住“我周围的环境是什么样子”；

最后是轨迹记忆（Trajectory Memory），记录下“我已经走过的路”。

这些机制共同作用，使得LingBot-Map能够在处理超长视频序列时保持稳定性能，同时大幅度减少显存消耗。

实验数据显示，在多个权威基准测试中，LingBot-Map超越了其他流式模型的表现，成为行业的领先者。

难，是真的难。

在长时间序列的重建任务中，其精度和速度都有显著提升。

像人一样选择性记忆

在Oxford Spires、ETH3D等数据集上，LingBot-Map展示了卓越的性能优势。

此外，在主流分辨率下，模型运行所需的显存也相对较低，适用于消费级设备。

相较于传统方法，LingBot-Map在速度和精度方面实现了重大突破。

这种高效的表现证明了GCA机制的有效性。

除了技术上的优势之外，LingBot-Map的开源也具有重要的行业意义。

它标志着蚂蚁灵波团队构建了一个完整的具身智能技术栈——从感知到控制，形成了闭环的技术链条。

这项创新为机器人、AR/VR和自动驾驶领域提供了强大的技术支持。

因此可以说，LingBot-Map的问世是机器理解物理世界的又一重要进展。

蚂蚁灵波团队的持续开放源代码工作表明，具身智能技术的应用正在加速进入现实世界。

其次是位姿参考窗口（Pose-reference Window），用来记住“我身边有什么”。

因为光有起点是不够的，要想走得稳，还得看清脚下的路。

于是团队便在LingBot-Map里设置了位姿参考窗口，它只保留最近的k帧的完整高维特征。

这部分记忆虽然是短期的，但信息极其丰富密集，这样就可以确保模型能够精准地捕捉局部的几何细节，让当前帧能够丝滑地与前几帧拼接在一起，让每一步都踩得极准。

最后就是轨迹记忆（Trajectory Memory），起到记住“我走过的路”的作用。

这也是LingBot-Map中非常关键的一个步骤。

对于那些既不是起点、也不在眼前，属于很久以前的中间历史画面，模型不再存储它们庞大具体的图像像素细节。

取而代之的是，它将这些历史帧的宏大信息，极致压缩成了区区6个极简的Token（包含相机、锚点和寄存器 Token），并打上时间戳（位置编码）。

对比传统因果注意力，LingBot-Map的单帧信息增长量直接降低80倍，哪怕处理万帧长视频，显存消耗也几乎恒定。

三大模块协同发力，便是LingBot-Map打破不可能三角的关键原因了。

那么这套打法效果又如何呢？

实测拿下新SOTA

从论文中呈现的实验结果来看，LingBot-Map已经在多项权威基准测试中，全面碾压其它流式模型，稳坐SOTA之位。

首先是长序列稳定性。

在10000+帧的超长视频序列测试中，模型全程保持稳定重建质量，没有出现任何明显的轨迹漂移。要知道，同类纯自回归模型往往几百帧就开始扭曲，万帧稳定的表现，直接刷新了行业纪录。

其次是速度与精度双突破。

在518×378的主流分辨率下，推理速度达到20FPS，比同类流式方法基线快了近一倍，完全满足机器人、自动驾驶的实时性需求。

在Oxford Spires、ETH3D、Tanks & Temples等权威数据集测试中，轨迹误差降低约77%，3D点云建模精度、全局一致性远超所有流式竞品，甚至比部分离线优化模型表现更优。

除此之外，模型运行显存仅需13.28GB，普通消费级显卡即可流畅部署，彻底告别对高端专业显卡的依赖。

对比同类方案动辄30GB+的显存需求，LingBot-Map实现了“技术顶尖、落地亲民”，让流式3D重建具备了规模化商用的基础。

而且效率测试的数据更加直观。

对比全历史帧缓存方案，LingBot-Map用64帧窗口设计，将推理速度从3.12FPS提升至19.95FPS，显存从36.06GB压缩至13.28GB，速度提升6倍、显存降低63%，同时精度反而更高，印证了GCA记忆机制的优越性。

在看完LingBot-Map背后的技术和展现的效果之后，还有一个话题值得聊一聊：

LingBot-Map的开源绝不是为了单点刷榜、秀肌肉。

补齐另一块具身智能关键拼图

若是大家长期关注蚂蚁灵波，就不难发现它在下一盘大棋。

仅仅在今年1月，蚂蚁灵波便已经陆续开源了多款模型：

从感知世界的LingBot-Depth，到理解物理规律的LingBot-World，再到控制身体的LingBot-VLA和全球首个具身世界模型LingBot-VA。

而今天LingBot-Map的开源，则补齐了“边走边记、理解并重建连续真实三维空间”的关键拼图。

这就意味着蚂蚁灵波正式构建了“感知-建模-模拟-控制”全链路具身智能技术栈，从看懂世界、建模世界，到理解世界、操控身体，形成了完整的技术闭环。

此举对全产业落地来说，亦是有着重要的价值。举三个例便一目了然了：

机器人：仓库巡检、家庭服务，机器人不再需要昂贵的激光雷达，单靠摄像头就能边走边建图，真正实现低成本、大规模部署。
AR/VR：戴上眼镜，虚拟物体可以零延迟、不漂移地叠加在真实桌面上，虚实融合的体验将被拉满。
自动驾驶/无人机：城市级大场景的实时建模成为可能，为纯视觉的自动驾驶方案提供了更强大的时空理解能力。

因此，综上所述，LingBot-Map的出现，可以说是机器理解真实物理世界迈出的关键一步。

与此同时，蚂蚁灵波的持续开源，也让我们清晰地看到，具身智能的规模化落地，正在以前所未有的速度向我们驶来。

Hugging Face：
https://huggingface.co/robbyant/lingbot-map

ModelScope：
https://www.modelscope.cn/models/Robbyant/lingbot-map

GitHub：
https://github.com/Robbyant/lingbot-map

Paper：
https://arxiv.org/abs/2604.14141

Homepage：
https://technology.robbyant.com/lingbot-map

最近，机器人视觉技术再次取得突破性进展，能够实时进行无限帧视频的3D重建。

十三 2026-04-16 20:33:23 量子位

这一创新成果是由开源社区发布的顶尖方案。

一项新的研究显示，机器人的三维空间感知能力已经迈上了一个新台阶。

来体验一下这种全新的感觉：

视频链接已提供。

对此可能有人会问：这有什么实际用途？

实际上，这一模型可以应用于扫地机器人或自动驾驶系统中。前者可以边清扫边创建房间的3D地图；后者则能在驾驶时实时分析道路情况。

这项技术与《火影忍者》中的白眼能力有异曲同工之妙——全方位无死角透视和细节捕捉。

最新开源项目LingBot-Map由蚂蚁灵波团队研发，专为流式3D重建设计。

该模型在速度、准确性和资源消耗上都有显著改进，解决了此前的不可能三角问题。

这种实时3D建模并不简单

△图源由AI生成

在探讨“为何流式3D重建难以实现”的话题之前，有必要先区分传统离线3D重建和在线流式3D重建的概念。

两者在技术层面上有着本质的区别。

相比之下，在线流式3D重建则能够满足即时性的需求：即拍即建模，边感知边做决策，与人类的视觉逻辑高度一致。

然而实际操作中面临着三大挑战：

首先，大量数据存储会导致显存超载；

其次，少量数据缓存可能导致记忆丧失；

最后，要在速度和精度之间找到平衡点。

LingBot-Map则采取了严格的自回归路径：仅依赖历史帧信息推断当前帧，没有任何后处理或对未来的依赖，并且没有人为优化规则。

由于这种严格约束，LingBot-Map必须像蒙着眼睛的人一样依靠记忆来导航迷宫。

蚂蚁灵波团队成功克服了这一技术难题。

△图源由AI生成

LingBot-Map的设计灵感来自于人类大脑的运作方式。

比如在城市中行走时，人们能够记住关键位置而不迷失方向。这种机制也被LingBot-Map所采用。

具体而言，LingBot-Map的核心技术是几何上下文注意力（Geometric Context Attention，GCA）。

通过这个机制，模型可以高效地管理记忆信息。

首先是一个锚点（Anchor），帮助机器人定位“我从哪里来”；

然后是一个位姿参考窗口（Pose-reference Window），让机器人记住“我周围的环境是什么样子”；

最后是轨迹记忆（Trajectory Memory），记录下“我已经走过的路”。

这些机制共同作用，使得LingBot-Map能够在处理超长视频序列时保持稳定性能，同时大幅度减少显存消耗。

实验数据显示，在多个权威基准测试中，LingBot-Map超越了其他流式模型的表现，成为行业的领先者。

难，是真的难。

在长时间序列的重建任务中，其精度和速度都有显著提升。

像人一样选择性记忆

在Oxford Spires、ETH3D等数据集上，LingBot-Map展示了卓越的性能优势。

此外，在主流分辨率下，模型运行所需的显存也相对较低，适用于消费级设备。

相较于传统方法，LingBot-Map在速度和精度方面实现了重大突破。

这种高效的表现证明了GCA机制的有效性。

除了技术上的优势之外，LingBot-Map的开源也具有重要的行业意义。

它标志着蚂蚁灵波团队构建了一个完整的具身智能技术栈——从感知到控制，形成了闭环的技术链条。

这项创新为机器人、AR/VR和自动驾驶领域提供了强大的技术支持。

因此可以说，LingBot-Map的问世是机器理解物理世界的又一重要进展。

蚂蚁灵波团队的持续开放源代码工作表明，具身智能技术的应用正在加速进入现实世界。

其次是位姿参考窗口（Pose-reference Window），用来记住“我身边有什么”。

因为光有起点是不够的，要想走得稳，还得看清脚下的路。

于是团队便在LingBot-Map里设置了位姿参考窗口，它只保留最近的k帧的完整高维特征。

最后就是轨迹记忆（Trajectory Memory），起到记住“我走过的路”的作用。

这也是LingBot-Map中非常关键的一个步骤。

对于那些既不是起点、也不在眼前，属于很久以前的中间历史画面，模型不再存储它们庞大具体的图像像素细节。

取而代之的是，它将这些历史帧的宏大信息，极致压缩成了区区6个极简的Token（包含相机、锚点和寄存器 Token），并打上时间戳（位置编码）。

对比传统因果注意力，LingBot-Map的单帧信息增长量直接降低80倍，哪怕处理万帧长视频，显存消耗也几乎恒定。

三大模块协同发力，便是LingBot-Map打破不可能三角的关键原因了。

那么这套打法效果又如何呢？

实测拿下新SOTA

从论文中呈现的实验结果来看，LingBot-Map已经在多项权威基准测试中，全面碾压其它流式模型，稳坐SOTA之位。

首先是长序列稳定性。

其次是速度与精度双突破。

在518×378的主流分辨率下，推理速度达到20FPS，比同类流式方法基线快了近一倍，完全满足机器人、自动驾驶的实时性需求。

除此之外，模型运行显存仅需13.28GB，普通消费级显卡即可流畅部署，彻底告别对高端专业显卡的依赖。

对比同类方案动辄30GB+的显存需求，LingBot-Map实现了“技术顶尖、落地亲民”，让流式3D重建具备了规模化商用的基础。

而且效率测试的数据更加直观。

在看完LingBot-Map背后的技术和展现的效果之后，还有一个话题值得聊一聊：

LingBot-Map的开源绝不是为了单点刷榜、秀肌肉。

补齐另一块具身智能关键拼图

若是大家长期关注蚂蚁灵波，就不难发现它在下一盘大棋。

仅仅在今年1月，蚂蚁灵波便已经陆续开源了多款模型：

从感知世界的LingBot-Depth，到理解物理规律的LingBot-World，再到控制身体的LingBot-VLA和全球首个具身世界模型LingBot-VA。

而今天LingBot-Map的开源，则补齐了“边走边记、理解并重建连续真实三维空间”的关键拼图。

此举对全产业落地来说，亦是有着重要的价值。举三个例便一目了然了：

机器人：仓库巡检、家庭服务，机器人不再需要昂贵的激光雷达，单靠摄像头就能边走边建图，真正实现低成本、大规模部署。
AR/VR：戴上眼镜，虚拟物体可以零延迟、不漂移地叠加在真实桌面上，虚实融合的体验将被拉满。
自动驾驶/无人机：城市级大场景的实时建模成为可能，为纯视觉的自动驾驶方案提供了更强大的时空理解能力。

因此，综上所述，LingBot-Map的出现，可以说是机器理解真实物理世界迈出的关键一步。

与此同时，蚂蚁灵波的持续开源，也让我们清晰地看到，具身智能的规模化落地，正在以前所未有的速度向我们驶来。

Hugging Face：
https://huggingface.co/robbyant/lingbot-map

ModelScope：
https://www.modelscope.cn/models/Robbyant/lingbot-map

GitHub：
https://github.com/Robbyant/lingbot-map

Paper：
https://arxiv.org/abs/2604.14141

Homepage：
https://technology.robbyant.com/lingbot-map

最新突破！机器人掌握宁次“白眼”技能，实现实时三维重建无限细节！

最近，机器人视觉技术再次取得突破性进展，能够实时进行无限帧视频的3D重建。

相比之下，在线流式3D重建则能够满足即时性的需求：即拍即建模，边感知边做决策，与人类的视觉逻辑高度一致。

像人一样选择性记忆

实测拿下新SOTA

补齐另一块具身智能关键拼图

最新突破！机器人掌握宁次“白眼”技能，实现实时三维重建无限细节！

最近，机器人视觉技术再次取得突破性进展，能够实时进行无限帧视频的3D重建。

相比之下，在线流式3D重建则能够满足即时性的需求：即拍即建模，边感知边做决策，与人类的视觉逻辑高度一致。

像人一样选择性记忆

实测拿下新SOTA

补齐另一块具身智能关键拼图

相关文章

相关文章