机器之心发布
近两年来,视频生成模型如 Sora、Veo 和 Cosmos 等,在图像逼真度方面取得了显著进步,生成的画面已经很难区分真假。然而,这些模型是否真正理解了物理世界仍然是一个悬而未决的问题。
实际上,当这些模型尝试生成机器人操作的视频时,经常会出现物体穿墙、凭空消失或时间顺序混乱等不符合物理学规律的现象。从「看起来像」到「真能用」,这条技术道路充满了挑战。
针对这一问题,一场全球性的竞赛正在展开——2026年CVPR世界大赛(WorldArena Challenge)。

- 更多详情请访问比赛官方网站:http://cvpr2026challenge.world-arena.ai/
- 参赛队伍可以在 WorldArena 排行榜上查看实时排名:https://world-arena.ai/
- 想要参与竞赛的团队可以访问 GitHub 获取更多信息:https://github.com/tsinghua-fib-lab/WorldArena
- ABot-PhysWorld 的代码和文档也在 GitHub 上公开发布:https://github.com/amap-cvlab/ABot-PhysWorld
- 更多关于 ABot-PhysWorld 技术细节的信息,请参阅论文:https://github.com/amap-cvlab/ABot-PhysWorld/blob/main/tech_report/ABot-PhysWorld.pdf
- Workshop 的官方网站:https://videoworldmodel-workshop.github.io/
- 官方微信交流群二维码可在 GitHub 资源库中下载:https://github.com/tsinghua-fib-lab/WorldArena/assets/WeChat.jpg
- 参赛者还可以通过 Discord 加入官方讨论群组:https://discord.gg/ZMrJJD55
- 此外,还有专门的邮箱用于联系主办方:[email protected]
一、世界模型的大考来临
CVPR 2026 Video World Model Workshop 下设的国际挑战赛由高德地图视觉技术中心(AMAP CV Lab)、流形空间(Manifold.ai)以及清华大学共同发起,得到了普林斯顿大学、新加坡国立大学和香港大学等多所顶尖学术机构的支持。
与以往的世界模型评测相比,WorldArena 突出了「真能干活」的核心理念。它不仅关注视频的视觉效果,更重视生成内容是否遵循物理规律及能否支持机器人的实际操作。比赛基于清华大学等多个顶级高校联合开发的 WorldArena Benchmark 展开,包含16项关键指标和3个真实应用场景任务,致力于推动世界模型从「图像逼真」向「功能实用」转变。
第一赛道旨在评估视频生成质量,通过六大维度(视觉质量、动作质量、内容一致性等)进行全方位测评。最终排名将以 EWMScore 综合评分作为依据。简单来说,这不是一场比谁的画面更漂亮的竞赛,而是比拼视频的合理性和逻辑性。

第二赛道则是具身任务功能性赛道,首次将评测范围扩展到实际操作层面,评估世界模型在数据合成、策略评估和行动规划三个核心领域的表现。参赛队伍将在这一赛道中提交相关方案,并通过附加权重打分来验证模型的实际应用价值。

二、快速上手,高性能开源世界模型已备好
高德地图作为赛事主办方之一,为了降低参与门槛并鼓励更多创新,已经将他们的世界模型ABot-PhysWorld完全公开。目前该模型在 WorldArena Leaderboard 上处于领先地位,参赛者可以基于此进行进一步训练和优化。
ABot-PhysWorld 是高德即将推出的 ABot-World 系列中的首个模块,专注于生成符合物理规律的视频序列。与现有模型追求「视觉合理性」不同,ABot-PhysWorld 致力于实现真正的「物理真实性」—— AI 生成不仅要有连续的画面,还要确保每一步操作都合乎物理原则。

在技术上,该模型实现了多项关键突破:
四维泛化数据集:从300万原始数据中精炼出30万条高质量的SFT数据,涵盖不同机器人形态、任务类型及场景和物体类别,确保不偏向特定环境。
DPO偏好对齐技术:通过VLM-as-Judge构造1万条偏好数据对,采用Direct Preference Optimization方法让模型在物理正确与错误之间做出选择,大幅减少了不符合物理规律的现象。
Dense Action Map精细控制方案:利用11万条动作控制数据将机器人动作转化为空间稠密的信号,并通过Context Blocks分支融合视频潜在信息,实现细致的动作模拟。
在PAI-Bench基准测试中,ABot-PhysWorld 以0.8491的整体得分和0.9306的专业领域得分刷新了最高成绩,超越多个开源及闭源模型。更值得一提的是,它打破了长期以来视觉质量与物理合规性之间的权衡难题。
ABot-PhysWorld 在 WorldArena Leaderboard 上的表现同样出色,这充分展示了高德在具身世界模型方面的技术领先地位。
为了确保比赛的公正性和促进社区创新,主办方明确表示ABot-PhysWorld 不参与评奖。该模型已完全开放源代码、训练流程及数据处理方法,参赛团队可在此基础上进行二次开发或优化。
近年来,高德在具身智能领域动作频频,发布了多款具身模型,并在多个权威基准测试中取得领先地位。结合 ABot-PhysWorld 的开源及 ABot-World 系列的预告,高德正在不断深化其在具身世界模型领域的产业布局。
三、赛程安排与参赛指南
比赛总奖金池超过14,000美元,各赛道设有不同奖项。获奖团队将有机会参加 CVPR Workshop 的报告展示,并可能同时获得多个赛道的荣誉。目前提交通道已开放并支持实时刷新排名,最终提交截止时间为2026年5月25日,结果将于6月1日公布,并在CVPR期间举办颁奖典礼。
参赛流程简单明了,预计半天内即可完成首次提交:
- 准备数据:从 Hugging Face 下载 val_dataset 和 test_dataset 两套验证及测试数据集。
- 输出视频:使用您的模型生成分辨率至少为640×480、帧数121(24fps)的视频,并提供初始图像和文本/动作指令作为输入。
- 提交作品:将上述文件压缩成zip格式,附带 model_README.md 文件说明,然后通过官网或官方邮箱进行提交。
目前已有众多顶尖学术团队及产业机构报名参赛,请访问官方网站获取更多信息。

