
在人工智能领域,世界模型正逐步成为实现“思考、推演和规划”能力的关键路径,不再局限于“理解当前状态”,而是致力于让模型能够在内部模拟世界的发展过程,从而支持预测、规划和决策等功能。
最近,中国科学院沈阳自动化研究所联合 MBZ、NTU,以及陶大程、Ming-Hsuan Yang 和 Philip Torr 等专家,系统性地整理了世界模型的构建模式、方法、关键功能及其相互关系,并且从更广阔的视角概述了现有主要世界模型及其核心数学公式的进化历程。同时,该研究提供了一个更为全面和完整的基准数据集、评估标准、模拟平台以及跨模型的性能对比。调研的最新进展截止到2026年1月。
世界模型的核心目标在于通过学习环境状态与观测的演变规律,构建一个能够进行未来预测、内部仿真、规划搜索及行动决策的框架。与许多仅聚焦于单一场景或单一方法路径的文章不同,这篇综述从整体视角系统性地回顾了世界模型在人工智能中的发展,将现有方法归纳为四大分支:观测层面的生成式世界模型、潜在空间的世界模型、强化学习驱动的世界模型以及对象中心的世界模型。
进一步地,论文详细梳理了世界模型在机器人技术、自动驾驶、科学发现、虚拟游戏仿真、基于 GUI 的智能体,以及可解释性与可信性等领域的应用,并总结了基准数据集、评测指标、物理引擎和仿真平台,同时对不同方法的性能进行了对比。此外,论文还探讨了世界模型迈向更通用智能过程中面临的关键障碍,包括长期的时间一致性、因果推理、物理与语义约束以及泛化与扩展性等问题。

- 论文题目:《学习构建世界模型:人工智能中世界模型的综述》
- 项目地址:
- 世界模型的发展随着视频生成、多模态基础模型和大规模训练的进步,正日益成为构建通用智能系统的重要途径。
- 论文地址:
- 最近,世界模型的研究迅速扩展,但相关讨论散见于视频生成、机器人学习、自动驾驶、强化学习、物体表示学习等不同的社区,技术路线和评估标准也缺乏统一。
1. 研究动机
世界模型天然地连接了感知、推理、控制与行动,是迈向更高层次智能系统的关键模式。
本篇综述的独特之处,在于它不仅从技术分类和数学化建模的角度对世界模型进行了全面的分析,而且还涵盖了世界模型在多个实际应用中的进展,包括机器人技术、自动驾驶、科学发现等。
通过清晰的技术分类和数学化的建模方式,该综述将现有的世界模型分为观测层面的生成式模型、潜在空间模型、强化学习驱动的模型以及对象中心的模型,并对各种世界模型进行了深入和系统的概述。
除了四类基础世界模型和对未来的展望,本文还系统回顾了世界模型在机器人技术、自动驾驶、科学发现、虚拟游戏仿真、基于 GUI 的智能体,以及可解释性与可信性等领域的应用。
本文以统一建模视角,将世界模型理解为一种基于历史状态、动作和观测来预测未来环境状态的函数,并将其核心作用置于仿真、规划与决策这一连续链条中进行讨论。
从基础世界模型的发展时间表来看,世界模型的发展历程清晰可见。
本文系统性地分析了世界模型,并提出了一种新的分类方式,包括观测层面的生成式模型、潜在空间模型、强化学习驱动模型以及对象中心模型,同时对世界模型的建模范式、方法和关键功能进行了深入的概述。
本文详细介绍了世界模型在机器人技术、自动驾驶、科学发现等领域的应用,并总结了基准数据集、评估指标、物理引擎和仿真平台,同时对不同方法的实验结果进行了对比。

图表展示了基础世界模型的发展历程。
3. 基础世界模型
本文认为,当前许多世界模型本质上仍然是强大的预测器,距离具备解释性、可验证性和可证伪性的科学世界模型还有很长的路要走。未来的理想方向是将符号知识、可验证方程和神经表示相结合,让模型不仅能预测“会发生什么”,还能解释“为什么”。
长时间预测时的误差累积、视觉漂移、物理交互失真,仍然是世界模型的关键瓶颈。未来的研究需要在层次化时间建模、记忆机制、因果表示学习以及反事实评估等方面继续推进。

很多模型在视觉上表现得非常逼真,但仍可能违反物理定律或在对象关系和语义演化上存在不一致。为了使世界模型更好地服务于机器人技术、自动驾驶和实际决策,需要引入更多的物理启发性先验、可微仿真器、符号知识和结构化语义图。

当前不少世界模型仍局限于狭窄任务或特定环境,训练成本也很高。未来值得关注的方向包括多模态大规模预训练、数据高效学习、参数高效微调、持续学习和真实世界部署验证。更多研究方向可以参考原始论文。
- 观测层生成式世界模型
直接在观测层面建模未来世界的路线,将世界模型与图像、视频、语言以及更高维场景生成紧密联系起来。观测层生成式世界模型能够直接生成未来观测结果,因此在仿真表现和结果呈现上具有鲜明优势,也构成了当前世界模型研究中最直观、最具生成色彩的一类基础范式。
- 潜空间世界模型
相较于直接重建未来观测,这一路线更强调内部表征、动态推演与高效预测。它在世界模型研究中提供了另一种更偏「抽象建模」的视角,也体现出从表层生成走向内部机制建模的研究趋势。先压缩到高维潜表示,再在潜空间中建模环境动态,更强调高效预测与规划。
- 强化学习驱动的世界模型
通过引入动态建模与奖励建模,使世界模型不再停留于「预测未来」,而是能够在 imagined rollouts 的基础上参与策略优化与行动选择。由此,这一范式体现了世界模型与智能体决策闭环之间的联系。
- 对象中心的世界模型
强调以对象为基本单位来组织和理解环境,把复杂场景表示为一组可交互、可组合的对象结构,在可解释性、组合泛化与结构建模方面呈现出更鲜明的研究价值。
- 预期的世界模型世界模型
不仅需要其内部从当前仅依赖观测数据的「黑盒式」预测,转向基于符号化方程、具备因果可验证性且能持续更新的科学理论架构。表 2 清晰地对比了未来的世界模型与现有世界模型的区别。

表 2.未来与现有世界模型的范式比较
4. 世界模型的应用场景
本文将世界模型的应用系统地扩展到多个重要方向,不仅覆盖机器人、自动驾驶和科学发现,还纳入了虚拟游戏模拟、GUI 智能体,以及可解释性与可信性分析,体现出世界模型正从单一任务建模走向更广泛的通用智能场景。
- 机器人
本文将世界模型视为连接感知、预测、推理与行动的核心中枢,并从操作、导航、策略学习和运动控制四个方向展开,强调其在部分可观测、强物理交互环境中的基础作用。机器人操作中的世界模型不只是感知模块的补充,而是直接参与控制闭环的关键组成部分。论文从控制——感知循环的角度重新组织这一方向,突出世界模型在动作想象、规划搜索、统一动作建模和未来观测预测中的不同角色。另外,从导航——推理循环出发,概括了世界模型如何支持前瞻式想象、记忆建模、神经符号推理、测试时适应以及基于信念的建模,从而帮助机器人在动态环境中实现更稳健的长期导航。

表 3.用于机器人操作的世界模型分类

表 4.用于机器人导航的世界模型分类
- 自动驾驶
本文从「世界模型如何进入驾驶决策闭环」的角度重新梳理自动驾驶中的相关研究,将其概括为连接交通场景建模、行为推演与行动选择的关键模块,并从预测建模、动作条件想象和决策中心集成三个方向展开,强调其在不确定交通环境中对未来场景预判和规划决策的支撑作用。其中,预测建模将世界模型视为环境演化预测器,突出其在场景动态学习、预训练和数据生成中的基础价值;动作条件想象则进一步让模型根据候选动作或高层意图推演不同未来结果,从而支持反事实分析和行为比较;而决策中心集成则把世界模型直接嵌入规划与策略学习过程,使其从被动预测器转变为闭环自动驾驶中的主动决策。

表 5.用于自动驾驶的世界模型分类

图 3.用于科学 (a)、虚拟游戏模拟 (b) 和基于 GUI 的智能体 (c) 的世界模型分类
- 科学发现
本文将世界模型在科学中的应用概括为从「面向交互的环境模拟」进一步走向「面向复杂系统的数据驱动科学建模」,并从社会科学与社会经济系统、物理与自然科学两个方向展开,强调其在部分可观测系统中进行长期预测、模拟推演和不确定性分析的潜力。其中,社会科学与社会经济系统部分主要体现世界模型对群体行为模拟和政策评估的支持作用,而物理与自然科学部分则更突出其作为受物理约束的模拟器,在长期预测、规划与科学发现中的价值。整体来看,这一部分展示了世界模型正在从智能体控制工具扩展为更广义的科学建模框架,但同时也面临数据偏差、可验证性、物理保真度和跨训练分布泛化等挑战。
- 虚拟游戏模拟
虚拟游戏模拟作为世界模型最自然也最经典的应用场景之一,本文从 2D 像素级观测预测和 3D 网格级观测预测两个方向展开,体现出游戏世界模型从画面级未来生成逐步走向具备几何结构、交互能力与语义一致性的虚拟世界构建。在 2D 路线中,本文强调当前主流方法仍以像素层面的未来观测预测为核心,但其目标已经从早期偏任务导向的游戏模拟,逐渐转向更通用、更生成式的交互世界建模;而在 3D 路线中,研究重点进一步转向显式几何表示和可探索空间生成,使世界模型能够支撑更具物理 grounding 和空间一致性的虚拟环境。
- GUI 智能体
本文认为,世界模型能够显著增强 GUI 智能体的多步决策能力,因为它使智能体可以在执行前先对界面变化进行内部模拟,从而完成前瞻规划、方案比较与错误修正。围绕这一点,论文将 GUI 智能体划分为 Web agents 与操作系统/桌面 agents 两类:前者面对大状态空间和延迟反馈,更强调基于内部 rollouts 的搜索、推理与多步执行优化;后者则更突出把世界模型作为系统级内部模拟器,以支持不经真实执行的预判、规划和设备控制。整体来看,这一部分强调了 GUI 场景中视觉与符号动态共同作用的特殊性,也说明世界模型正在成为界面智能体实现长期决策的重要基础。
- 可解释与可信的世界模型
本文在应用部分的最后,将世界模型的讨论从性能与功能进一步推进到内部机制与可靠性层面,并从可解释性与面向安全的可信性两个方向展开,强调世界模型不仅要「预测得准」,还要具备能够支撑长期泛化的结构化内部表征,以及在关键任务中保持稳定可靠的安全保证。其中,可解释性方向主要关注模型内部是否真正形成了可用于长期推理和开放世界泛化的因果性世界表征,而不是依赖表面相关性获取预测优势;面向安全的可信性方向则强调,即便模型规模扩大可以提升稳定性,它们仍可能在分布偏移、对抗扰动和部分可观测条件下出现失效。整体上,这一部分揭示了世界模型在预测精度、因果真实性、可解释性与可扩展性之间的核心张力。
5. 基准
很多综述只做文献罗列,但这篇文章还专门梳理了预训练视频基准、下游任务 benchmark、面向世界模型的一般性评测指标、物理引擎与仿真平台,以及不同世界模型之间的性能比较。作者尤其强调,未来评测不应只看短期预测误差,还应纳入泛化能力、因果推理能力和长期一致性等更贴近世界模型本质的指标。

表 5.用于物理引擎和仿真平台总结

表 6.WorldScore 数据集上观测级生成 WMs 的性能比较
6. 挑战与未来方向
- 走向「科学建模」,而不是只做黑箱预测
作者明确指出,当前很多世界模型本质上还是基于相关性的强大预测器,距离「可解释、可验证、可证伪」的科学世界模型还有很大距离。未来更理想的方向,是把符号知识、可验证方程和神经表示结合起来,让模型不仅会预测「会发生什么」,还能够回答「为什么会这样」。
- 长时程一致性与因果推理
长时间滚动预测时的误差累积、视觉漂移、物理交互失真,依然是世界模型的核心瓶颈。论文认为,未来需要在层次化时序建模、记忆机制、因果表示学习、反事实评测等方面继续推进。
- 物理与语义约束的融合
很多模型在视觉上已经很逼真,但仍可能违反物理规律,或者在对象关系和语义演化上不自洽。要让世界模型真正服务机器人、自动驾驶和现实决策,就需要更多地引入 physics-informed priors、可微仿真器、符号知识和结构化语义图。
- 泛化与可扩展性
目前不少世界模型依旧局限在狭窄任务或特定环境中,训练成本也很高。论文提出,未来值得关注的方向包括:多模态大规模预训练、数据高效学习、参数高效微调、持续学习,以及真实世界部署验证。
更多的研究方向内容可以查阅原始论文。
