在具身智能领域,研究者们正面临视觉仿真算力瓶颈的挑战。为了应对这一难题,新一代的GS-Playground通用多模态仿真框架应运而生,它突破了传统平台的限制,实现了高吞吐量并行物理仿真的创新。
真机部署“零微调”
清华大学AIR DISCOVER Lab与多家企业合作,共同研发了这项技术。
视觉在机器人如何理解和与自然环境交互中扮演着至关重要的角色,因此成为了推动具身人工智能研究向前发展的核心要素。
在探索这一领域的过程中,研究人员发现了一个难以解决的矛盾:要么追求高保真的视觉效果但牺牲训练速度,要么加快训练进程却不得不接受图像质量上的妥协。此外,手动建模效率低下且耗时,而现有的平台兼容性问题也阻碍了创新的步伐。
为了克服这些障碍并促进具身智能领域的进一步发展,清华大学AIR DISCOVER Lab联合多家企业提出了GS-Playground这一仿真框架。
GS-Playground旨在为视觉导向的机器人学习提供新一代的基础设施解决方案。它首次实现了高吞吐量物理仿真与高质量图像渲染的高度融合,同时保证了稳定性和准确性。
此成果已被国际顶级学术会议Robotics: Science and Systems (RSS 2026) 接受发表。
△图1. GS-Playground概述
在设计之初,GS-Playground就被定位为通用型全场景具身智能仿真平台。它能够兼容各种机器人形态,并支持在Windows/Linux/macOS等操作系统上运行。

平台的核心组件包括自研的跨平台并行物理引擎和统一的接口规范,这使得现有的模拟项目可以轻松迁移至新的平台上。
为了实现接触密集型任务中的稳定反馈,GS-Playground从底层开发了一套高性能并行物理引擎。这一设计在复杂场景中表现出色,能够提供精确且稳定的动力学模型。
通过引入约束岛和接触流形热启动机制等优化策略,进一步提升了大规模并行训练的效率。
实验数据表明,在Franka Panda抓取测试及多自由度人形机器人复杂交互环境中,GS-Playground的表现优于其他主流方案。
为了解决大量高保真场景同时渲染所带来的内存和算力挑战,团队研发了一种全新的批量3DGS渲染技术。
这项创新不仅大幅降低了显存占用,还保持了高质量的视觉效果。在单张NVIDIA RTX 4090 GPU上,能够以640×480分辨率实现每秒最高10000帧的数据输出。
△图2. GS-Playground与Isaac Sim的光线追踪渲染器对比
GS-Playground还提供了一套全自动化的“图像到物理”工作流程,使得从真实场景转换为数字仿真模型变得快速且简单。此外,团队开发了Bridge-GS数据集和InteriorGS泛化性验证项目,进一步证明了这一解决方案的广泛适用性。
通过结合三大核心技术的应用,GS-Playground实现了从重建到训练再到部署的全链路闭环过程。
在真机迁移能力方面,平台支持数千个并行环境的同时运行,并且能够直接将模拟环境中训练出的操作策略部署于真实的机器人上。
△图3. GS-Playground系统架构
清华大学智能产业研究院DISCOVER Lab通过正式开源GS-Playground全栈框架,旨在推动具身智能领域的研究和技术创新。未来将不断优化和完善该平台的功能,助力大规模端到端视觉驱动机器人策略学习的发展与应用落地。
项目主页:
在27自由度人形机器人复杂多体交互基准中,当单环境扩展到50个机器人时,GS-Playground CPU后端仍能保持1015 FPS的稳定吞吐,相比MuJoCo实现32倍加速,相比MjWarp实现约600倍提升。
自研内存高效Batch 3DGS渲染技术:打破保真与效率的行业不可能三角
数千个高保真3DGS场景同时渲染带来的内存与算力挑战,一直是制约视觉驱动机器人大规模训练的核心卡点。
针对刚体仿真环境,团队首先设计了专属优化的高效剪枝策略。
该策略可将高斯点数量减少90%以上,同时峰值信噪比(PSNR)下降幅度不足0.05,视觉差异几乎无法被视觉运动策略感知。
这一技术在大幅降低显存占用的同时,几乎无损地保留了场景的视觉质量,为大规模高保真并行仿真奠定了核心基础。
在此基础上,团队研发了面向批处理深度优化的批量3DGS渲染器,实现了多场景大规模高斯渲染的并行处理。
在单张NVIDIA RTX 4090 GPU上,渲染器在640×480分辨率下可实现最高10000 FPS的突破性吞吐量,最多可同时渲染2048个场景,不仅显著提升了单位算力的渲染效率,更能完美适配大批次强化学习的训练工作流,让大规模并行训练不再受限于渲染性能。

△Figure 2. Rendering throughput comparison between GS-Playground and Isaac Sim’s ray-tracing renderer across varying resolutions
此外,团队还提出了刚性连杆高斯运动学(RLGK)机制,将3D高斯簇与物理引擎中的对应刚体进行精准绑定,确保视觉表征与物理对象的位姿能偶实时同步更新,实现了零额外开销的状态同步。
即便是在机器人快速运动、频繁接触交互的动态场景中,渲染器依然能够实现无伪影的动态画面输出,从根源上解决了动态场景中的渲染时间一致性与视觉伪影问题,保障了训练数据的稳定性与可靠性。
自动化“Sim-Ready”Real2Sim工作流:降低 Real2Sim门槛
传统仿真场景的构建,始终是机器人研发流程中效率最低、成本最高的环节之一。
无论人工建模多么精细,却始终无法完全复刻真实环境的视觉细节与物理特性,感知与物理的双重鸿沟成为了制约sim-to-real跨域迁移的核心卡点。
针对这一行业痛点,GS-Playground设计了一套全自动化的“图像到物理”Real2Sim工作流,仅需输入单张RGB图像,即可在数分钟内完成仿真就绪(Sim-Ready)数字资产的全流程创建,实现了真实场景到数字孪生的快速转换,同时保证视觉真实感与物理一致性。

△Figure 3. GS-Playground System Architecture
- 左:自动化图像到物理仿真管线,通过目标分割、背景补绘、三维高斯溅射 / 网格重建,从RGB输入构建可直接用于仿真的资源。
- 中:物理与渲染仿真核心,包含CPU/GPU物理后端、集成传感器与激光雷达仿真,以及经过剪枝优化与刚性连杆运动学适配的批量三维高斯溅射渲染。
- 右:下游应用,包括操作任务、导航任务以及大规模并行强化学习。
基于这套成熟的自动化工作流,团队还构建了Bridge-GS数据集,在Bridge-v2数据集的基础上,补充了场景与物体级的3DGS表征、物体级网格模型、6D位姿数据与校准后的相机参数,为行业提供了标准化的高质量仿真数据集。
同时团队在InteriorGS数据集上完成了完整的泛化性验证,充分证明了该管线对不同室内场景的强适配能力与泛化性能。
全链路端到端验证:实现零微调的无缝仿真到真实迁移
基于三大核心技术的深度协同,GS-Playground完整构建了从真实场景重建、大规模并行训练,到真机部署的全链路端到端闭环,真正实现了“重建即训练、训练即部署”的研发流程革新。
在策略训练与真机迁移的核心能力上,平台可稳定支持数千个并行环境同时运行,为四足机器人、人形机器人、工业机械臂等全品类机器人,提供大规模视觉强化学习训练支撑。
仅在GS-Playground仿真环境中完成训练的视觉驱动策略,无需任何额外的微调与适配,就能直接部署到真实机器人上稳定运行:
- 四足和人形机器人的运动策略均可zero-shot部署到真机;
- 视觉导航任务实现了零样本的真机直接部署;
- 机械臂抓取任务在零微调的前提下,真实场景成功率达到90%。

△Figure 4.Real-world deployment of policies trained in GS-Playground
这一系列实验结果,充分证明了平台实现了真正无壁垒的仿真到真实迁移,也验证了其在打通具身智能感知与物理跨域鸿沟上的核心价值。
开源赋能:与全球社区共同推动具身智能创新
GS-Playground作为行业内首个实现高吞吐量并行物理仿真与高保真批量3DGS渲染深度融合的全栈仿真框架,从根源上突破了长期制约视觉驱动机器人学习的算力、显存与资产生成三大核心瓶颈。
其自动化Real2Sim工作流,大幅降低了高保真仿真环境的构建成本;
全维度的实验验证也充分证明,平台在足式运动、自主导航、机器人操作等机器人主流任务中,能够同时弥合物理与感知层面的仿真到现实鸿沟,实现真正的零微调真机部署。
未来,GS-Playground还将持续迭代优化,不断拓展能力边界。
清华大学智能产业研究院DISCOVER Lab始终致力于推动具身智能领域的前沿研究与技术创新,我们将正式开源GS-Playground的全栈框架,提供一套高性能、易使用、高泛化性的核心基础设施,助力大规模端到端视觉驱动机器人策略学习的进一步发展与产业落地。
项目主页:
https://gsplayground.github.io
论文链接:
https://arxiv.org/abs/2604.25459
仓库链接:
https://github.com/discoverse-dev/gs_playground

听雨