新一代具身智能仿真框架已开源,突破了视觉仿真的算力瓶颈。
此次发布旨在与全球社区共同推进该领域的创新工作。
清华大学AIR DISCOVER实验室的研究人员开发了一套新的仿真基础设施,专注于机器人学习中的高吞吐量并行物理仿真和高保真渲染技术。
在具身人工智能领域,视觉感知已经成为一种以信息密度著称的新范式,对实现通用机器人智能至关重要。
视觉是使机器能够模仿人类自然交互的关键因素,而其核心在于如何高效地从仿真环境中获取高质量的数据,并将这些数据用于实际操作中。
然而在研究过程中,科研人员面临的主要挑战之一就是需要在高保真度和快速训练之间做出取舍:前者带来了巨大的计算成本和内存消耗;后者则可能导致人工建模效率低下以及现有平台的兼容性问题严重限制了创新的可能性。
针对上述难题,清华大学智能产业研究院(AIR)DISCOVER实验室联合多家企业开发了一款名为GS-Playground的新仿真框架。
该系统专为视觉为中心的机器人学习而设计,首次实现了物理仿真与高保真渲染技术的有效结合,在确保必要的精确度和稳定性的同时,大幅提升了大规模训练中所需的渲染效率及环境支持能力。
作为一套专为视觉中心的机器人学习打造的新一代仿真基础设施,GS-Playground首次实现了高吞吐量并行物理仿真与高保真视觉渲染的深度融合,在保证物理仿真所需的高精度与强稳定性的同时,提供了大规模视觉驱动策略训练与仿真到现实迁移所需的渲染效率与环境支撑。
GS-Playground已被接受发表于国际顶尖会议RSS 2026(机器人科学与系统)上。

△ 图1:GS-Playground概述
平台设计之初即致力于打造一个适用于所有场景的通用仿真训练平台,能够兼容各种类型的机器人模型,并在不同操作系统中实现开箱即用的功能。
它全面覆盖了机器人的运动控制、自主导航以及高精度操作等核心任务领域,并且在接口设计上与行业标准MuJoCo MJCF格式保持一致,便于现有项目的快速迁移。
在此基础上,平台全面覆盖机器人运动控制、自主导航、高接触精度操作三大核心任务场景。
在接口设计上,平台API全面兼容行业通用的MuJoCo MJCF格式,可实现现有仿真项目的零摩擦快速迁移,最大程度降低研究者的适配成本。
GS-Playground自研的高性能并行物理引擎是其关键组件之一,它能够提供稳定可靠的动力学反馈,适用于复杂环境下的机器人学习任务。
该物理引擎采用了广义坐标下的速度冲量模型,并通过投影高斯赛德尔求解器实现了接触与摩擦问题的有效处理,特别适合于足式运动和机械臂抓取等动态场景的应用。
针对这一核心瓶颈,GS-Playground从底层自研了一套高性能并行物理引擎,采用广义坐标下的速度-冲量动力学公式,将接触与摩擦统一建模为混合互补问题(MCP),并通过投影高斯-赛德尔(PGS)求解器实现稳定求解。
此外,团队还引入了约束岛并行化及接触流形热启动机制来支持大规模的平行训练需求。
实验结果显示,在Franka Panda机械手摇晃测试中,GS-Playground CPU后端实现了比其他主流方案更好的性能;而在人形机器人多体交互场景下,其吞吐量也显著高于竞争对手。
前者将彼此独立的刚体交互系统拆分为多个约束岛并行求解,后者利用上一帧已收敛的接触冲量作为当前帧初值,将稳定堆叠场景中的PGS迭代次数从50次以上降低到10次以内,大幅提升复杂接触场景下的收敛效率。
高效批处理三维渲染技术的应用是突破保真与效率双重挑战的关键所在。
团队通过优化算法实现了内存占用的大幅减少,并且在保持高视觉质量的同时提高了单位算力下的渲染速度,从而为大规模训练提供了坚实的硬件支持基础。
在27自由度人形机器人复杂多体交互基准中,当单环境扩展到50个机器人时,GS-Playground CPU后端仍能保持1015 FPS的稳定吞吐,相比MuJoCo实现32倍加速,相比MjWarp实现约600倍提升。
自研内存高效Batch 3DGS渲染技术:打破保真与效率的行业不可能三角
为了进一步降低真实世界到仿真的门槛,GS-Playground引入了自动化的图像转物理仿真工作流程,仅需输入一张RGB图即可快速创建用于仿真的数字资产。
这一创新不仅简化了建模过程,还确保了从现实环境转换为虚拟模型时的准确性和一致性。
该策略可将高斯点数量减少90%以上,同时峰值信噪比(PSNR)下降幅度不足0.05,视觉差异几乎无法被视觉运动策略感知。
△ 图3:GS-Playground系统架构
该系统的完整工作流程包括自动化的图像转物理仿真管线、核心物理与渲染仿真功能以及下游应用,如操作任务、导航任务和大规模并行强化学习等。
此外,团队还基于Bridge-v2数据集构建了新的Bridge-GS数据集,并在InteriorGS数据集中验证了系统的泛化能力。

△Figure 2. Rendering throughput comparison between GS-Playground and Isaac Sim’s ray-tracing renderer across varying resolutions
GS-Playground的全链路端到端设计实现了从现实场景重建、大规模训练直至最终部署的一体化流程,确保仿真策略可以直接应用于实际机器人设备上运行。
实验结果表明,在四足机器人和人形机器人的运动控制任务中,以及机械臂抓取任务中均达到了零微调下的高成功率水平。
自动化“Sim-Ready”Real2Sim工作流:降低 Real2Sim门槛
开源计划:未来我们将不断优化和完善GS-Playground框架,并推动其在具身智能领域的应用与发展。
项目主页:
针对这一行业痛点,GS-Playground设计了一套全自动化的“图像到物理”Real2Sim工作流,仅需输入单张RGB图像,即可在数分钟内完成仿真就绪(Sim-Ready)数字资产的全流程创建,实现了真实场景到数字孪生的快速转换,同时保证视觉真实感与物理一致性。

△Figure 3. GS-Playground System Architecture
- 左:自动化图像到物理仿真管线,通过目标分割、背景补绘、三维高斯溅射 / 网格重建,从RGB输入构建可直接用于仿真的资源。
- 中:物理与渲染仿真核心,包含CPU/GPU物理后端、集成传感器与激光雷达仿真,以及经过剪枝优化与刚性连杆运动学适配的批量三维高斯溅射渲染。
- 右:下游应用,包括操作任务、导航任务以及大规模并行强化学习。
基于这套成熟的自动化工作流,团队还构建了Bridge-GS数据集,在Bridge-v2数据集的基础上,补充了场景与物体级的3DGS表征、物体级网格模型、6D位姿数据与校准后的相机参数,为行业提供了标准化的高质量仿真数据集。
同时团队在InteriorGS数据集上完成了完整的泛化性验证,充分证明了该管线对不同室内场景的强适配能力与泛化性能。
全链路端到端验证:实现零微调的无缝仿真到真实迁移
基于三大核心技术的深度协同,GS-Playground完整构建了从真实场景重建、大规模并行训练,到真机部署的全链路端到端闭环,真正实现了“重建即训练、训练即部署”的研发流程革新。
在策略训练与真机迁移的核心能力上,平台可稳定支持数千个并行环境同时运行,为四足机器人、人形机器人、工业机械臂等全品类机器人,提供大规模视觉强化学习训练支撑。
仅在GS-Playground仿真环境中完成训练的视觉驱动策略,无需任何额外的微调与适配,就能直接部署到真实机器人上稳定运行:
- 四足和人形机器人的运动策略均可zero-shot部署到真机;
- 视觉导航任务实现了零样本的真机直接部署;
- 机械臂抓取任务在零微调的前提下,真实场景成功率达到90%。

△Figure 4.Real-world deployment of policies trained in GS-Playground
这一系列实验结果,充分证明了平台实现了真正无壁垒的仿真到真实迁移,也验证了其在打通具身智能感知与物理跨域鸿沟上的核心价值。
开源赋能:与全球社区共同推动具身智能创新
GS-Playground作为行业内首个实现高吞吐量并行物理仿真与高保真批量3DGS渲染深度融合的全栈仿真框架,从根源上突破了长期制约视觉驱动机器人学习的算力、显存与资产生成三大核心瓶颈。
其自动化Real2Sim工作流,大幅降低了高保真仿真环境的构建成本;
全维度的实验验证也充分证明,平台在足式运动、自主导航、机器人操作等机器人主流任务中,能够同时弥合物理与感知层面的仿真到现实鸿沟,实现真正的零微调真机部署。
未来,GS-Playground还将持续迭代优化,不断拓展能力边界。
清华大学智能产业研究院DISCOVER Lab始终致力于推动具身智能领域的前沿研究与技术创新,我们将正式开源GS-Playground的全栈框架,提供一套高性能、易使用、高泛化性的核心基础设施,助力大规模端到端视觉驱动机器人策略学习的进一步发展与产业落地。
项目主页:
https://gsplayground.github.io
论文链接:
https://arxiv.org/abs/2604.25459
仓库链接:
https://github.com/discoverse-dev/gs_playground

Jay