当前的AI领域,“世界模型”是一个炙手可热的话题。
无论是李飞飞,还是杨立昆,抑或是英伟达,都在谈论这一概念。然而,尽管它们都使用“世界模型”这个词,所指的内容却大相径庭。
英伟达的目标是构建可以批量生成物理环境的模拟基础设施;李飞飞则致力于让机器理解三维空间和物体之间的关系,推动所谓的空间智能的发展;杨立昆追求的是进行因果推理及长期规划的认知架构设计。

因此,“世界模型”并非单一的技术路径。如果不了解其中的区别,就很难明白为什么英伟达能率先获利、李飞飞更容易实现产品化以及为何杨立昆的路线最为艰难且遥远。
这场热潮也不再仅限于海外巨头的竞争。例如在2026年4月,小鹏、阿里和腾讯也相继推出了自己的“世界模型”。虽然中国公司正在加速进入这一领域,但在盲目跟随之前,更应该弄清楚各家公司所追求的技术路线具体有何不同。
英伟达的Cosmos:工业级的“创世引擎”
英伟达的战略核心在于仿真基础设施。对黄仁勋而言,“世界模型”不仅仅是一个理论概念,而是能够运行在GPU集群上的基于物理规律的真实世界的数字复制品。

从动机来看,英伟达试图通过打造模拟环境来弥补“数据贫困”的问题。
过去,在机器人和具身智能发展中,由于缺乏足够的物理交互数据,导致该领域进展缓慢。而英伟达的Cosmos及其背后的技术体系,则旨在利用虚拟合成环境填补这一空白。
英伟达的目标是创建大规模、基于物理学规律的真实世界模拟环境,用于训练、评估和运行物理AI系统,并且从两个维度进行:
· 物理仿真:建立整个物理世界的运作规则模型,包括重力、摩擦力以及碰撞等。
· 规模化生产:通过合成数据的生产能力来形成其最具竞争力的优势壁垒。
尽管战略分析师娜塔莎·马尔帕尼认为随着机器人公司积累大量的实际交互数据,“仿真依赖”现象可能会消失,但从目前来看英伟达依然处于“工业级创世者”的领先地位。多数人认同真实数据和合成数据是互补而非替代关系,在极端场景测试及安全验证方面,仿真的价值不会因真实数据的增长而消退。
李飞飞与World Labs:空间智能的设计师
被誉为“AI教母”的李飞飞,在她的新公司World Labs中专注于推动空间智能技术的发展。

她的目标是让机器能够构建一个准确且持久的物理世界模型,使它们具备深度感知和理解周围环境的能力。这要求机器要掌握三个关键要素:
· 物体的位置:精准的三维坐标信息。
· 它们的运动轨迹:动态物体如何移动的情况。
· 它们提供的“可供性”(Affordance):例如,一个杯子可以被抓取;一张椅子可以坐人。
当前李飞飞所采取的路径被认为是最稳健可行的。她聚焦于建模物理世界中的对象及其空间关系,由于这种需求更加明确且实用,因此在短期内实现商业化部署的可能性也更大。
杨立昆与AMI Labs:重塑“数字心智”
作为图灵奖得主的杨立昆,则致力于打造一种认知架构。他希望通过AMI Labs推进的JEPA(联合嵌入预测架构)项目,来构建能够理解现实世界因果关系并在此基础上进行规划的系统。

杨立昆认为现有的AI技术只是在做简单的预测工作,并没有真正的计划能力。在他看来,“世界模型”应该是可以构建物理世界的逻辑框架,并且在这个框架内进行决策的智能系统。
JEPA的核心思想是在抽象表示空间中预测事物未来的发展趋势,而不是像现有大模型那样逐字地预测下一个词或像素。
杨立昆构想了一个由三个核心组件组成的架构方案。根据公开资料分析,他的路线包含以下三个方面:
· 因果模型:理解世界的运作逻辑而非仅仅关注像素的排列方式。
· 前向模拟器:在大脑中“预演”各种可能的情况和结果。
· 筛选机制:这是目前最复杂且最具挑战性的部分,它决定了哪些未来情景值得进一步探索。
这种筛选机制是预测与真正规划之间的关键区别,在当前还没有任何AI系统能够实现这一点,这也是杨立昆路线被认为时间跨度长、难度大的主要原因。
深度解读:三家路线的差异分析
为了更好地理解这些不同路径的实际价值,我们需要关注科学家们正在做什么以及他们的产品如何被市场接受和商业化发展。
第一维度|定义上的区别:“你在构建什么?”
虽然都称为“世界模型”,但底层建模的细节有所不同:
· 英伟达(上帝视角):关注的是宏观物理环境。通过大规模模拟来实现智能。
· 李飞飞(感知角度):专注于三维空间与物体之间的关系,让AI理解并操作真实世界。
· 杨立昆(架构角度):致力于引入因果推理和规划能力,以提升AI的逻辑思考水平。
第二维度|成熟度比较:“谁走得最远?”
从当前情况来看:
· 英伟达已经大规模使用其仿真平台进行物理数据生成与训练;
· 李飞飞的空间智能技术也已开始实现产品化,并且商业化步伐快速推进。
· 而杨立昆的研究则更多集中在对未来AI架构的探索上,目前还没有任何外部商业客户。
第三维度|未来增长潜力:“谁更有前途?”
关键在于市场需求和技术壁垒:
· 李飞飞(短期):空间智能技术在未来有明确的应用前景和市场需求;
· 英伟达(中期):面临着真实物理数据快速增长带来的挑战,需要保持模拟环境的独特优势;
· 杨立昆(长期):致力于解决AI的逻辑推理与规划能力问题,这是一个长远的技术目标。
第四维度|哲学理念冲突:“规模”、“规则”还是“认知”?
这三者之间的核心观点也各有不同:
· 英伟达强调的是通过大规模模拟实现智能涌现;
· 李飞飞主张感知先行,只有理解了三维世界才能谈得上真正的智能化;
· 杨立昆则认为架构设计是关键,没有因果推理和规划能力的话再多的数据也无法让机器像人类一样思考。
总结:三条路线构成完整版图
“世界模型”并不是单一的概念,而是三个完全不同的技术领域。将它们混淆就如同把造发动机、轮胎与修路视为同一回事。
正如马尔帕尼所言,“盖楼”的材料完全不同,因此混为一谈不仅会引发不必要的泡沫效应,还会让人难以看清真正的价值所在。

在这场AI技术革新竞赛中,清晰理解各条路线尤为重要。如果关注大规模训练机器人的话,就要看英伟达;关心AI如何进入三维生活空间的,则要看李飞飞的工作;而若想了解何时机器能够拥有像人类一样的逻辑推理和规划能力,那么杨立昆的研究就显得非常重要。
实际上他们在做的是“让机器理解物理世界”这一大问题的不同部分。英伟达解决“在哪里训练”,李飞飞关心“看到什么”,而杨立昆则专注于“怎么思考”。这三条路线最终能否汇合成通向AGI的完整路径,现在还不得而知。但至少把它们分开来看清楚是理解这场竞赛的第一步,也是避免被“世界模型”这个概念迷惑的关键所在。
