
林谷颖是卡内基梅隆大学(CMU)的一名博士生,在李旻辰教授的指导下,他的论文已被 ICLR 2026 接收。研究团队还包括 CMU 的 Jun-Yan Zhu 教授、Michael Liu 和其他成员如高睿晗、陈瀚可等;香港大学(HKU)的 Taku Komura 教授和黄可蒙也参与其中,以及来自香港科技大学(HKUST)的刘缘教授。
当前,3D AIGC 已能快速生成场景,但距离实际应用还有一定差距。很多看起来不错的虚拟环境,在物理模拟中却暴露出物体悬空、重叠等问题,并且容易在碰撞时散开。
造成这种现象的原因在于,以往大多数文生三维方法着重于视觉效果的优化,而忽略了物理合理性的重要性。一旦进入实际应用中,这些场景在接触与支撑关系以及整体稳定性方面往往存在问题。
针对这一挑战,CMU、HKU 和 HKUST 的研究团队提出了 PAT3D(Physics-Augmented Text-to-3D Scene Generation),旨在让生成的三维环境不仅视觉上合理,在物理特性上也能达到实际应用的标准。

图 1 展示了 PAT3D 不仅关注视觉效果,更注重场景在模拟中的物理合理性。

- 研究题目为“PAT3D: Physics-Augmented Text-to-3D Scene Generation”。
- 目前的研究成果可以在这里查阅:https://openreview.net/pdf?id=iIRxFkeCuY
- 该论文由 Guying Lin、Kemeng Huang、Michael Liu 等人共同完成,作者分别来自 CMU、HKU 和 HKUST。
- 这项研究在卡内基梅隆大学、香港大学和香港科技大学展开合作进行。
- 更多详细信息可以在项目主页上找到:https://simulation-intelligence.github.io/PAT3D/
- 源代码可以在 GitHub 上获取,地址为 https://github.com/Simulation-Intelligence/PAT3D
PAT3D 是如何实现的?
该技术可以归纳为三个步骤。
首先进行三维物体与空间关系提取。系统通过文本描述生成参考图像,并使用视觉语言模型识别场景中的各个元素,如物体类别、材质和相对位置,然后将其分割成多个区域。接下来,它单独处理每个对象的三维创建过程,而不是一次性构建整个场景。
接下来是布局初始化阶段。PAT3D 使用单目深度估计技术将二维参考图转化为初步三维结构,并利用视觉语言模型生成“场景树”,描述物体间沿重力方向的支持关系。在此基础上,它对初始布局进行修正,确保同级对象无水平叠加、父子节点垂直分离。
在第三个阶段,即优化调整过程中,PAT3D 引入了 libuipc 的可微分刚体仿真器,使物体能够在重力和接触力的作用下达到稳定状态。但仅靠物理模拟无法完全保留文本描述的语义信息。
为解决这一问题,该系统采用了基于物理模拟闭环优化的方法:通过定义语义损失并将其反馈至初始布局调整过程,确保最终生成场景既符合物理规则又尽可能贴近原始描述。
图 2 显示了从物体生成到关系理解、再到布局初始化和物理优化的完整流程图示。

下面是一个具体实例的生成演示视频。
实验结果表明,PAT3D 不仅提高了场景的稳定性,在关键物理性能指标上也表现出色:继续模拟位移为零,物体穿插比例同样为零,物理合理性评分高达88.5分。与现有的其他方法相比,它在复杂接触场景中表现更加优秀。
实验结果说明了什么?
图 3 对比了 PAT3D 与其他技术在场景质量和物理合理性的定量评价结果。

更具直观性的是,在处理书本、杯子等复杂的物体堆叠时,PAT3D 能够有效避免悬空和坍塌现象,并减少摆放错位。通过不断调整初始布局,它确保了最终稳定状态下的三维场景仍保持与文本描述的高度一致。
图 4 展示了在复杂接触环境中的物理合理性比较分析。

这项工作的意义何在?
相较于仅仅提供静态图像展示,PAT3D 的成果可以直接应用于实际任务中。论文展示了三个重要的应用场景:场景编辑、动画制作和机器人仿真。
在场景编辑方面,用户可以自由删除或添加物体而不影响整体物理稳定性;这为未来的三维内容创作提供了更多的灵活性。
图 5 显示了在进行增删操作后仍能保持物理一致性的场景编辑功能。值得一提的是,此处的仿真采用的是准静态模式。

对于动画制作而言,由于生成的场景已经满足基本的物理约束条件,因此可以直接用于后续动画创作环节,无需额外的手动调整与修正,极大地提高了工作效率。
图 6 展示了 PAT3D 为动画制作提供的直接可用场景实例。

在机器人仿真领域,由于生成环境本身不存在漂浮、重叠或碰撞不合理等问题,因此可以准确地用于测试机器人的抓取和搬运策略,从而提高其训练与评估的准确性。
图 7 展示了成功与失败的抓取情况对比。左侧为成功的抓取实例,右侧则展示了未成功的案例。

PAT3D 的出现不仅提升了生成结果的质量,更使其迈向实际应用成为可能。随着技术不断进步,未来将能够更好地应对语义、结构和物理特性等多个方面的挑战。
此外,PAT3D 的开源代码为研究者提供了便利的复现平台,并为进一步探索与拓展该领域奠定了坚实基础。
同时,PAT3D 的成功也让我们看到将物理仿真用于 3D 生成任务的巨大潜力。更可贵的是,其源代码已在 Apache-2.0 许可下开源,这不仅降低了研究复现与二次开发的门槛,也为社区进一步验证、扩展和落地这一路线提供了坚实基础。
