
机器之心发布
最近,全球权威的具身世界模型评估平台 WorldArena 更新了最新的排名榜单。流形空间团队研发的世界模型 Worldscape 0.2 凭借其在遵守物理法则和多源交互理解上的显著进步,在本次评比中取得了全球第一的成绩。这一成果不仅展示了国产世界模型在生成复杂动态场景以及具身控制方面的高精度、强泛化及物理真实性,还吸引了包括英伟达、谷歌在内的国际巨头以及国内的星动纪元、极佳视界等公司的关注和竞争。
WorldArena 是首个专注于评估具身世界模型“功能+视觉”统一能力的标准体系,由清华大学、北京大学、香港大学、普林斯顿大学、中国科学院、上海交通大学、中国科学技术大学及新加坡国立大学等全球顶尖机构联合推出。如今,它已成为衡量该领域国际权威性的公开评测标准。
除了对视觉质量的评估,WorldArena 还从动作质量、内容一致性、物理遵循性、三维准确性以及可控性等多个维度进行综合评价。这些指标旨在全面检测模型对于物理规律的理解能力、行动轨迹精确度及决策稳定性等关键要素,这些都是衡量具身智能核心表现的重要方面。此外,该平台还涵盖了数据引擎、策略评估器和动作规划器三项下游任务的全面测试,并结合客观评测与人类主观判断计算出综合 EWMScore 指数。

WorldScape 0.2 在最新的榜单中取得了优异的成绩,不仅仅是因为单项优势突出,更因为它在整体素质上也展现出了卓越的实力。
- 这款模型在包含视觉质量、运动质量、内容一致性和可控性等多方面综合评估的严苛测试中,保持了领先位置。它在各项能力之间实现了完美的平衡,并未出现明显的短板效应,能够全面支持复杂的长程具身任务。
- 在遵循物理规律这一重要指标上,WorldScape 0.2 展现出了显著的优势。以往的生成模型往往过于注重视觉效果而忽视了对真实世界物理规则的尊重。然而,这款新模型却在该项测试中取得了最高分,并且远远领先于其他竞争者。这表明它真正理解和内化了重力、摩擦等力学原理,在所生成场景的真实性和准确性方面有着卓越的表现。
- 在三维空间的理解和处理能力上,WorldScape 0.2 同样表现出色。在处理复杂的机械臂操作、视角变换以及物体遮挡等问题时,该模型能够维持极高的几何结构精度,避免了传统视频生成中常见的“空间扭曲”或“二维化”现象,为多源交互提供了坚实的基础。

一个月前,Manifold AI 自主研发的世界模型 WorldScape 0.1 在全球最权威的通用世界模型评测榜单 WorldScore 上强势登顶。
当时更新的 WorldScore 榜单中,Manifold AI 的 WorldScape 0.1 型号在所有指标上均排名第一,并且至今仍保持领先。这次胜出不仅证明了国产世界模型在全球范围内的竞争力,还标志着它们已经能够有效地处理各种复杂的场景生成任务。

在全球通用世界模型的竞争中,WorldScore 被广泛认为是检验基础性能的最终标准。它通过多样化的控制能力和生成质量等多维度测试,全面评估模型在数千种不同情景下的表现能力,并对其施加极限挑战。面对这些高标准要求,Manifold AI 的 WorldScape 0.1 型号成功突围并保持领先地位。
长期以来,世界模型领域普遍存在“重渲染、轻物理”的问题,在复杂场景的运动和多步控制时往往会出现各种缺陷。然而,WorldScape 却在最难攻克的物理规律和交互指标上实现了显著突破,从而成功登顶。这不仅代表了一次分数上的超越,更意味着国产世界模型在真实世界的执行能力方面取得了重大进步。

更加值得一提的是,尽管参数规模仅为排名前列其他模型的十分之一,WorldScape 依然展示了全球领先的空间智能密度和推理实时性,并为物理AI的实际应用提供了强有力的技术支持。
不到一个月的时间里再次升级,MoE 架构开启了世界模型发展的新篇章。
近年来,随着大语言模型中 MoE(混合专家)架构的成功应用,这种技术已经证明了其在高效吸收海量知识方面的能力。通过引入多个专长子网络和动态门控机制,在每次前向计算时仅激活与输入最匹配的少数专家,使得在相同的计算预算下大幅提升模型的理解与生成能力成为了可能。
将 MoE 拓展到世界模型领域具有重要意义:这种架构可以让不同专家分别负责视觉动态、移动交互和操作推理等不同的子空间或任务模式,并通过门控机制自适应地整合这些信息,从而在保持整体参数可扩展性的同时避免了知识领域的相互干扰。WorldScape 从0.1版本升级到0.2并再次取得领先位置的关键驱动力正是 MoE 架构的引入。

具体而言,在多专家协同泛化的实现上,WorldScape 0.2 建立了支持多种控制信号协同学习的统一架构。这不仅延续了基础空间交互能力,还涵盖了机械臂精细操控等复杂具身行为,并实现了不同控制模态间的相互赋能与联合优化。
WorldScape 0.2 进一步超越单一几何约束框架,在统一隐式元空间中完成了多源知识的融合。该模型不仅能够维持长程交互中的空间拓扑稳定,还能实现语义连贯和物理逻辑的一致性,从而大幅提升了世界结构生成的真实性。
最后,在从视觉保真到物理遵循的范式转变上,WorldScape 0.2 引入了渐进式的分阶段训练策略。通过大量注入真实世界的知识与异源控制信号的深度耦合,显著增强了其对现实物理规律的遵守能力。这标志着该模型成功实现了从“视觉仿真”向“物理可信”的关键跨越。
Manifold AI 在多个主流评测中的卓越表现及其模型扩展潜力验证了我们对未来世界模型 GPT3 时代的期待。
3.多阶段持续学习:从视觉保真到物理遵循的范式跃迁
WorldScape 0.2 采用渐进式分阶段训练策略,通过海量世界知识注入与异源控制信号的深度耦合,显著强化生成内容对真实物理规律的遵循能力。模型不再局限于 “画面流畅”,而是追求 “运动符合力学逻辑与场景常识”,在全球权威具身基准 WorldArena 中斩获第一,实现从 “视觉拟真” 向 “物理可信” 的关键跨越。
Manifold AI 在多个主流评测模型中的独占鳌头表现,以及其模型 scaling 能力的验证,让我们相信世界模型的 GPT3 时刻即将到来。
