
机器之心编辑部
在人工智能时代,我们已经习惯了通过说话来解决各种问题:无论是请求一个表格还是完成复杂的任务,只要用语言说明清楚目标和限制条件,“小龙虾”就可以自动执行。
现在,只需掌握语言技能就能操作越来越复杂的技术系统。大模型之所以能够迅速融入各个行业领域,关键在于它们建立在一个成熟且广泛使用的文本接口之上。
但是,当问题涉及到空间时情况就变得不那么简单了。例如,如果要修改一个房间的布局或让机器人在新的仓库环境中学会搬运货物,仅仅通过说话来“生成画面”是不够的。每次移动墙壁或者改变灯光的位置都需要重新渲染整个环境的话,效率和可靠性都会受到严重影响。
这篇文章探讨的是当人工智能开始参与空间设计和现实世界任务时,它与人类和其他系统交流的通用接口是什么?作者认为答案是三维(3D)技术。3D 不仅仅是一种视觉呈现方式,更像是一种结构化的表达形式,可以被生成、检查、修改,并且能够进行版本管理。

围绕这一核心类比展开讨论:神经图形学如同编程语言,用于描述空间的结构;模拟引擎则像是芯片,在执行规则和物理定律时发挥作用;而世界模型开始承担起编写“空间代码”的角色。理解这一点实际上是在了解一个更大的变化——当空间本身变成可编程的媒介后,人类与机器合作的方式将会被重新定义。
接下来是博客的具体内容介绍:
3D —— 空间中的「代码」
我们可以通过将三维表示与程序进行对比来理解它在空间领域的作用。程序是一种持久的抽象,旨在描述可以由处理器执行的基本逻辑。几十年来,程序推动了现代世界的发展。如今,人工智能模型对于生成和推理编程语言变得非常熟练;随后,这些代码可以在没有大语言模型的情况下运行。
人与机器之间
- 程序是人机之间极其强大的接口之一。当AI系统生成代码时,人类可以对其进行检查、修改,并将其集成到更大的系统中。这促进了复合工作流程的形成:程序员和人工智能编程智能体能够共同改进解决方案。
- 同样地,三维表示也可以发挥类似的作用。当世界模型生成一个三维场景或物体后,人们可以在熟悉的工具里打开它进行编辑、调整约束条件并重新运行模拟以纠正错误。
机器与机器之间
- 程序还可以作为机器与机器之间的接口。由AI生成的程序可以被插入编译器、执行环境和现有软件基础设施中使用。由于遵循既定抽象原则,代码能够与其他工具无缝协作。
- 类似地,三维输出也能够集成到渲染引擎、模拟系统、物理求解器以及机器人软件栈等系统中。当世界模型生成结构化的三维表示而非像素时,它便可以参与到现有的工作流程中,并与编辑软件和模拟引擎对接。
在这两种情况下,关键在于将状态外化为其他系统可以使用的结构化组件。
想象一下,在“代码”领域的一种替代方法。与其让大语言模型编写程序,不如让它直接成为执行的程序本身。例如,我们可以提示大语言模型:“对这个包含一百万个数字的列表进行排序。”该模型有能力完全在其令牌流中模拟这一过程。
但这种用法很少见,除非是作为一种“小把戏”,并且我们也不期望它们在这种任务上表现出色。为什么呢?因为程序提供了一个精确、紧凑且可检查和操作的接口,而直接让大语言模型执行则无法保证这些特性。
另一种方法是将学习到的世界模型与外部工具分开使用:由世界模型生成并解释结构化表示,并通过3D界面进行编辑或导出。鉴于基于LLM的编程的发展轨迹,我们预测这些模型可能能够比现有的库和引擎构建更适合其用途的定制逻辑。
在这种分解系统中,三维成为人机之间强大的接口,提供了可控、可重复且互操作性的输入与输出。
既然我们将3D比作代码,让我们探讨一下为什么它是人类与机器交互的强大媒介,能够描述物理和虚拟世界并与之互动的原因。
对于机器而言:许多软件系统已经在空间维度上运行,例如模拟器、机器人软件栈、游戏引擎、CAD工具和GIS系统都是通过几何体、变换、材质等进行操作。如果世界模型以相同的结构化语言生成输出,它就可以直接连接到现有的工作流程。
对于人类来说:三维交互对人而言也很自然。我们一生中醒着的时间都在空间中导航:伸手、行走、操纵物体……我们的思维方式围绕持久的物体和关系构建:“椅子在桌子下面”,“门廊连接这些房间”。当系统暴露出这种显式的结构时,它们便与人们的思考方式一致。
这种将三维表示从渲染分离的做法反映了代码和执行之间的区别。只需修改一次源代码然后重新运行程序,而不是从头开始重写每一个输出画面。
如果3D扮演着类似于代码作为人机接口的角色,那么发展轨迹就很清楚了:世界变得“可编程”,成为一种可以由人类与机器共同生成、编辑、组合和分享的媒介。
这正是我们在WorldLabs努力的方向:
Marble是一个多模态的世界模型,旨在重建、生成并模拟三维世界。它可以接受文本、图像、视频或粗糙的三维布局作为输入,并创建持久性的可导航环境。这些世界可以被编辑和扩展,导出为Gaussian splats、网格或者视频格式,并集成到下游工具中。
Marble的3D调节接口称为Chisel,旨在将3D作为一种粗粒度控制层的概念推进一步。它允许创作者使用墙壁、平面、体积以及导入的资产来勾勒结构轮廓,然后将其作为输入提供给我们的模型以生成丰富详细的视觉效果。这种方式分离了布局与样式,让用户能够对构图和外观进行显式的控制。
RTFM Spark探索的是渲染层。RTFM正在试验“学习型渲染”,从简单的结构化输入中产生复杂的视觉效果(如反射和阴影)。Spark是一个高性能的Gaussian splatting渲染器,它集成了WebGL技术,将神经图形带入实时网络环境中。
- 状态管理(存在什么)
- 这个领域正在快速发展。世界模型越来越多地参与到混合架构栈之中:生成结构化的世界(“代码”),通过神经图形学(“语言”)进行表达,并在模拟引擎(“芯片”)内部执行。这标志着向可编程、数据驱动的空间系统迈进的范式转移,该系统能够支持逼真的环境、数字孪生体、机器人技术、培训项目以及全新的应用类别。
- 人类、智能体和软件之间的可靠沟通与协作需要一个精确、紧凑、可检查且可以操作的接口。而这正是三维技术所扮演的角色。
总结来说,3D是连接人机交互的重要桥梁,它让空间设计变得更为直观和高效。通过这种技术,我们可以期待创造出更多创新的应用场景,在未来的科技发展中发挥重要作用。
但折叠这个架构栈会引入一个根本性的权衡。当内存、动态和渲染都纠缠在一个单一网络内部时,创造和消费之间的界限就模糊了。运行时的物理交互(踢球)和非物理编辑(拆除墙壁)变成了同一类型的输入。使用我们上面的类比,编辑代码变得与执行代码无法区分。虽然这作为训练大规模模型的目标很方便,但这种混为一谈削弱了有关物理一致性、可回放性和确定性的保证。
另一种替代方案是因式分解或混合运行时:学习到的世界模型生成和解释结构,但在 3D 接口和表示的媒介作用下,有针对性地使用类似于现有引擎组件的外部工具。鉴于基于 LLM 的编程的发展轨迹,这些模型很可能能够比现成的库和引擎构建出更适合其用例的定制逻辑。但我们预测,在用于感知、生成和推理的组件与那些「规则至关重要」的组件之间,依然会存在明显的区分。
在因式分解的系统中,3D 成为人机之间一个强大的接口,暴露出可控、可重复且可互操作的输入和输出。
3D 是人机接口
鉴于我们将 3D 比作代码,让我们探讨一下为什么 3D 是人机之间交互的一门强大媒介,能够描述物理和虚拟世界并与之互动。
对于机器:许多软件系统已经在空间维度上运行:模拟器、机器人软件栈、游戏引擎、CAD 工具和 GIS 系统都通过几何体、变换、材质、轨迹和约束来进行交互。如果世界模型以相同的结构化语言生成输出,它就可以直接接入现有的流水线。
同样重要的是,机器越来越需要相互交流空间意图。规划智能体可能会标记目标区域,安全监视器可能会标记禁区,感知模块可能会标注不确定的几何体,渲染模块可能会请求新的视角:这些都是空间概念。
如果所有的空间推理都纠缠在一个单一的庞大模型中,实现这一目标的一种方法可能是共享隐向量。但这是一种很强的假设,需要共享模型或者至少共享隐空间。在异构的模块化环境中,这种假设不成立。哪怕是语言,对于传达几何和约束而言也是一种效率低下的交换格式;而结构化的 3D 则是一种更为自然的通用语。
导出能力同样重要。当一个世界模型能够将其「思想」外化为具体的表示(如 splats、网格、视频)时,它们就成了可以被检查、验证、进行版本控制、测试和重用的构件 —— 可组合的流水线应运而生。
对于人:3D 交互对人类来说也是很自然的。我们一生中醒着的时间都在空间中导航:伸手、行走、操纵、对齐……我们的心智模型是围绕持久的物体和关系构建的:「椅子在桌子下面」,「门廊连接着这些房间」。当系统暴露出这种显式的结构时,它们便与我们原有的思考方式对齐了。
这与纯粹基于图像的工作流形成了鲜明的对比。在 2D 动画中,每一帧都必须重绘,实际上相当于每秒将世界重建几十次。而在 3D 中,世界被构建一次,随后只需移动相机、改变光照、让物体动起来即可。单次空间编辑会自动传播到渲染出的每一帧。
这种将空间 3D 表示与渲染分离的做法,恰恰反映了代码与执行之间的分离。你只需修改一次源代码然后重新运行,而不是从头重写每一个输出。
迈向未来
如果 3D 扮演着类似于代码作为人机接口的角色,那么发展轨迹就很清晰了:世界变得「可编程」,成为一种人与机器都能生成、编辑、组合和分享的媒介。
这正是我们在 World Labs 努力建设的方向:
- Marble是一个多模态世界模型,旨在重建、生成和模拟 3D 世界。它可以从文本、图像、视频或粗略的 3D 布局中创建持久的、可导航的世界。这些世界可以被编辑、扩展、导出(作为 Gaussian splats、网格或视频),并集成到下游工具中。
- Marble 的 3D 调节接口是一个名为Chisel的实验性功能,它推进了将 3D 作为粗粒度控制层的理念。它允许创作者使用墙壁、平面、体积和导入的资产来勾勒出结构轮廓,然后将这些作为输入提供给我们的模型,从而在上面生成丰富详细的视觉效果。将布局和样式分离,让用户能够对构图和外观进行显式的控制。
- RTFMSpark探索了渲染层。RTFM 正在对「学习型渲染(learned rendering)」进行实验,能从简单的结构化输入中产生复杂的视觉效果(如反射和阴影)。Spark 是一款高性能的 Gaussian splatting 渲染器,它集成了 WebGL,将神经图形学带入了实时的 Web 环境中。
这一领域正在快速演变。世界模型将越来越多地参与到混合架构栈中:生成结构化的世界(「代码」),通过神经图形学(「语言」)进行表达,并在模拟引擎(「芯片」)内部执行。这是一场向可编程、数据驱动的空间系统迈进的范式转移,该系统能够支持逼真的环境、数字孪生、机器人、培训、设计以及全新的应用类别。其核心前提始终不变:人类、智能体和软件之间可靠的沟通与协作,需要一个精确、紧凑、可检查且可操纵的接口。
那个接口,就是 3D。
原文链接:https://www.worldlabs.ai/blog/3d-as-code 这里是原始文章的链接,供您参考更多信息。
