在具身人工智能研究领域,正经历着从传统感知模式向视觉主导的全面转型。
视觉在机器人与环境互动中扮演关键角色,被视为解锁通用机器人智能、促进仿真到现实无缝过渡的重要工具。
然而,在追求高保真度的同时,研究人员常常面临计算资源和训练效率之间的权衡困境:
高质量的视觉渲染需求大量算力;构建精细模型耗时且低效;现有平台存在兼容性问题,阻碍了具身智能研究的发展。
为应对这些挑战,清华大学智能产业研究院(AIR)DISCOVER Lab与多家技术企业合作,推出了GS-Playground多模态仿真框架。
这一创新系统专为视觉驱动的机器人学习设计,实现了高效并行物理模拟和高保真度渲染的完美结合,确保在提供精确且稳定仿真的同时,也支持大规模、高效的视觉训练及无缝迁移至实际应用的能力。
该研究成果已被2026年国际顶级机器人会议RSS接受发表。
GS-Playground概述图
普适性兼容:构建统一的具身智能仿真平台基础

从设计之初,GS-Playground就被定位为适用于各种场景的通用仿真平台,它配备了自主研发的跨平台并行物理引擎,支持CPU和GPU双后端以及Windows、Linux、macOS三大操作系统环境,并能直接适配市面上流行的四足机器人、全尺寸人形机器人及多自由度工业机械臂等设备。
平台涵盖了机器人的运动控制、自主导航与精密操作等多个核心任务场景。
在接口设计上,平台API全面支持行业标准的MuJoCo MJCF格式,实现了现有仿真项目的快速迁移和低适配成本。
研发高性能并行物理引擎:提供接触密集型机器人学习所需的稳定动力学
对于视觉驱动的学习而言,“看到真实”只是开始,确保从复杂接触、摩擦到多体耦合的持续稳定反馈是关键。
为此,GS-Playground开发了高性能并行物理引擎,采用广义坐标系下的速度-冲量动力学模型,并通过混合互补问题(MCP)建模接触与摩擦,并使用投影高斯-赛德尔求解器进行高效计算。
相较于传统方法依赖软接触正则化处理,这种方法更注重静摩擦保持、刚性约束和大时间步长下的稳定性,在足式运动、机械臂抓取及密集多体接触等任务中表现尤为出色。
为应对大规模并行训练的需求,团队引入了约束岛并行化与接触流形热启动技术:
前者将刚体交互系统分解成多个独立的子问题进行并行求解;后者利用前一帧已收敛的状态作为当前计算起点,显著加快了复杂场景下的迭代过程。
实验表明,自研物理引擎在稳定性和吞吐量方面均表现出色。
在Franka Panda机器人动态抓取测试中,GS-Playground CPU后端在不同时间步长下保持了极高的成功率;而在27自由度人形机器人的多体交互场景中,平台展示出卓越的性能扩展能力。
自研内存高效Batch 3D GS渲染技术:打破高保真与效率之间的行业瓶颈
高密度环境下的大规模并行训练面临显著的显存和计算挑战。为解决这一问题,团队设计了专门针对刚体仿真的优化策略。
该策略大幅减少了Gauss点的数量,同时保持场景视觉质量和物理特性,有效降低了内存占用。
此外,团队还开发了一款深度优化的批量渲染器,能够在单张NVIDIA RTX 4090 GPU上实现高吞吐量和多场景并行处理。
新机制确保了动态场景中的渲染效果与实际物理环境的一致性,避免了视觉伪影问题。
自动化“Sim-Ready”Real2Sim流程:简化真实到仿真转换
传统仿真模型的创建耗时且昂贵。GS-Playground提供了一种全自动化的图像转物理仿真方法,通过输入单张RGB图像快速生成用于仿真的高质量数字资产。
这一创新显著降低了高保真环境构建的成本,并保证了视觉真实感和物理一致性。
GS-Playground系统架构图
左侧展示的是自动化管线,通过目标分割、背景重建及三维高斯渲染技术从单张RGB图像生成仿真所需的资源;
中间部分展示了物理与渲染仿真的核心组件,包括CPU和GPU后端支持、传感器模拟以及经过优化的批量渲染器;

右侧则是下游应用,涵盖机器人操作任务、导航任务及大规模并行强化学习。
基于该自动化流程,团队创建了Bridge-GS数据集,在现有基础上增加了场景与物体级别的三维高斯表示等信息,为行业提供了高质量仿真数据资源;
InteriorGS数据集的验证测试也证实了其强大的适应性和泛化能力。
完整端到端闭环:实现无微调的真实环境部署
GS-Playground通过整合三大核心技术,构建了一个从真实场景重建、大规模并行训练到真机部署的完整闭环系统。
平台能够支持数千个并行环境同时运行,并为各类机器人提供强大的视觉强化学习训练能力;
在完成仿真环境下的训练后,无需进一步调整即可直接应用于实际设备中:
四足和人形机器人的运动策略可以实现零样本部署;导航任务同样具备零样本的部署能力。

机械臂抓取任务在没有额外微调的情况下,在真实场景中的成功率高达90%。
- 这些实验结果证明了平台实现了无缝仿真到现实迁移,并展示了其解决感知与物理跨域问题的核心价值。
- 开源支持:推动全球具身智能研究
- GS-Playground作为首个实现高吞吐量并行物理模拟和大规模三维渲染技术融合的全栈框架,解决了长期以来限制视觉驱动机器人学习的关键瓶颈。
自动化Real2Sim流程显著降低了高质量仿真环境构建的成本;
多项实验验证了其在主流任务中的出色表现,包括足式运动、自主导航和机械臂操作等。
未来,GS-Playground将继续优化升级,并扩展更多功能。
清华大学智能产业研究院DISCOVER Lab将通过正式开源整个平台框架,为大规模端到端视觉驱动机器人策略学习的发展提供关键基础设施支持。
GS-Playground项目主页:https://gsplayground.github.io
论文链接:https://arxiv.org/abs/2604.25459
仓库地址:https://github.com/discoverse-dev/gs_playground
- 清华大学智能产业研究院DISCOVER Lab致力于推动具身智能领域的创新与研究,期待通过开源进一步促进该领域的发展和应用。
- 视觉导航任务实现了零样本的真机直接部署;
- 机械臂抓取任务在零微调的前提下,真实场景成功率达到90%。

Figure 4.Real-world deployment of policies trained in GS-Playground
这一系列实验结果,充分证明了平台实现了真正无壁垒的仿真到真实迁移,也验证了其在打通具身智能感知与物理跨域鸿沟上的核心价值。
开源赋能:与全球社区共同推动具身智能创新
GS-Playground作为行业内首个实现高吞吐量并行物理仿真与高保真批量3DGS渲染深度融合的全栈仿真框架,从根源上突破了长期制约视觉驱动机器人学习的算力、显存与资产生成三大核心瓶颈。
其自动化Real2Sim工作流,大幅降低了高保真仿真环境的构建成本;
全维度的实验验证也充分证明,平台在足式运动、自主导航、机器人操作等机器人主流任务中,能够同时弥合物理与感知层面的仿真到现实鸿沟,实现真正的零微调真机部署。
未来,GS-Playground还将持续迭代优化,不断拓展能力边界。
清华大学智能产业研究院DISCOVER Lab始终致力于推动具身智能领域的前沿研究与技术创新,我们将正式开源GS-Playground的全栈框架,提供一套高性能、易使用、高泛化性的核心基础设施,助力大规模端到端视觉驱动机器人策略学习的进一步发展与产业落地。
项目主页:
https://gsplayground.github.io
论文链接:
https://arxiv.org/abs/2604.25459
仓库链接:
https://github.com/discoverse-dev/gs_playground
