
近期,全球模型领域异常活跃。
阿里巴巴紧随其后推出名为「快乐生蚝」的世界模型,而在此之前,李飞飞创立的空间智能独角兽 World Labs 已经发布了他们的新版本 Spark 2.0。
同时,Physical Intelligence 公司也推出了具有初步组合式泛化能力和跨机器人平台迁移特性的 π 0.7 模型。
这些行动表明,业界的竞争焦点已经从单一动作转向了预测世界和驱动行动的统一模型。
在这一关键时刻,一个名为 MotuBrain 的神秘世界模型悄然登上两个重要的国际基准测试榜首,并未注明任何公司名称。
单独一项成绩或许不算特别引人注目。
然而,MotuBrain 同时在衡量世界理解和预测能力的 WorldArena 以及评估机器人任务执行和泛化能力的 RoboTwin2.0 上取得领先,这两项测试分别代表了行业的两个重要方面。前者侧重于对未来世界的预测,后者则关注现实中的行动。
在 WorldArena 测试中,MotuBrain 凭借总体 EWM Score 63.77 的成绩位居第一,并超越了高德的ABot 和极佳GigaWorld-1等模型,在 Motion Quality、Flow Score 和 Motion Smoothness 等关键指标上全面领先。

图片a
RoboTwin2.0 测试中,MotuBrain 在 Clean 和 Randomized 两个场景下分别达到了 95.8 和 96.1 的高分,并且是榜单上唯一一个在随机环境下平均得分超过 95 的模型,在大多数具体任务中也取得了接近满分的表现。


正是因为这种「双料第一」的成绩,使得 MotuBrain 引起了人们的关注。
目前网上尚未发现任何关于该模型的具体信息,但最近注册了一个名为 X 的账号。

这让人联想起之前被阿里巴巴认领的「欢乐马」项目(也开设了 X 账号)的情况。
由此引发疑问:这款神秘的世界模型是否来自国内某家大公司?
那么为什么 MotuBrain 的成绩值得我们关注呢?
WorldArena 和 RoboTwin 是两个不同类型的测试,前者侧重于评估模型对未来世界的预测能力,后者则更注重实际任务执行。
具体而言,WorldArena 测试模型是否能够理解物理规律,并准确地推演和预测时间序列中的变化。同时考察其对环境状态改变的适应能力。
RoboTwin 则侧重于评估模型在多场景下的稳定性和泛化能力,包括能否执行复杂任务以及应对未知情况。
可以将人类驾驶员的行为类比为预测与行动同步进行的过程。这种综合能力是人类智能的基础之一。
目前大多数机器人系统要么只能理解世界却无法采取行动,要么能够完成固定动作但对环境变化反应迟钝。
近年来,尽管这两个方面都有所发展,但通常各自为政。专注于视频生成和世界模型的团队关注的是如何模拟真实世界;而研究机器人策略和 VLA 的团队则更关心实际任务执行能力。
MotuBrain 在两个测试中均取得优异成绩,表明将预测能力和行动控制整合在单一模型中的方法是可行的。
那么,MotuBrain 是如何做到双榜第一呢?
在 WorldArena 测试中,其领先优势表现在多个关键指标上。
- Motion Quality 第一意味着生成的动作更加真实可靠。
- Flow Score 排名首位显示模型对连贯动作和运动轨迹的理解更为深入。
- Motion Smoothness 位列第一则表示生成的行动更符合物理规律,不会出现不自然的变化。
这些指标都直接与运动相关,对于未来可能服务于机器人的世界模型来说至关重要。
在侧重于任务执行能力测试的 RoboTwin 中,MotuBrain 的表现更为突出。面对各种复杂环境和任务设置,其平均得分高达 96.0。
更重要的是,它在多种随机扰动环境下依然能够稳定地完成任务,并且大部分任务的成功率接近满分。
综合来看,这些成绩揭示了 MotuBrain 拥有更加通用的机器人「大脑」特征,既能保持动作的一致性,又能应对各种未知挑战。
这个神秘模型背后究竟是哪家公司?他们采取的是怎样的技术路线?
当前关于 MotuBrain 的公开信息很少,但从测试成绩来看,它可能并非传统的视频模型或单一的 VLA 或 policy model。
最近一年内,行业内围绕世界模型和动作执行方案探索出了多种代表性路径。
一些团队致力于统一的世界模型构建,通过多模态联合建模实现对真实环境全面感知、预测及规划功能。
另外一些则更侧重于「先想象后行动」的策略,例如通过视频模型进行未来预测然后指导机器人决策。
还有一些团队在开发能够边推演边执行动作的 World Action Model 系统。
MotuBrain 的表现可能表明它结合了世界建模和任务执行的能力,在两种测试中均取得了优异成绩。
由此可以看出,MotuBrain 同时具备对未来状态进行预测及在实际环境中执行复杂操作的能力。
结语
将一台机器人视为「手脚」为硬件、「大脑」为软件来看待,过去几年来硬件的迭代速度显著提高,但真正的瓶颈在于如何构建能够指挥任务的大脑。
目前大多数机器人的设计仍依赖于特定场景下的训练数据,面对新的指令或环境时表现较差。这主要归因于智能问题未得到解决。
具身智能的目标是创建一个统一的模型,既能理解物理世界又能生成可靠的动作,以适应各种任务和场景需求。
投资者已经用实际行动表达了对这一目标的支持,近期几笔巨额融资都投向了那些致力于开发机器人「大脑」技术的公司。
MotuBrain 代表的世界与动作统一架构正处在当前竞争的核心位置。
至于这背后的团队及接下来的动作,或许不久就会揭晓。
如此看来,以 Motubrain 为代表的 world+action 统一架构,恰好站在了这场卡位战的核心位置。
至于 Motubrain 背后究竟是哪支团队,接下来又会带来什么,这个问号大概不会悬太久。
