智东西编辑团队精心呈现
再过一个月左右,你的家中或许就会迎来一个全新的硅基帮手!
它将面对各种日常琐事:散落一地的衣物、小孩子随意丢弃的玩具、桌子边缘摇摇欲坠的杯子以及被猫咪弄得一团糟的客厅……这些看似永无止境的家庭事务都将由它来打理。更重要的是,这个帮手可以全天候在线工作,并且随着时间推移会变得越来越熟练。
4月21日,在北京举行的一场发布会上,自变量机器人宣布将在5月25日推出搭载新一代自主开发的具身智能基本模型WALL-B的家庭服务机器人。
WALL-B是全球首个基于世界统一模型(World Unified Model, WUM)架构设计的具身基础模型。它将视觉、听觉、语言处理和触觉感知等能力整合进同一个网络中,首次实现了对环境、自身状态以及任务需求的整体理解。

更为关键的是,WALL-B突破了传统VLA模型仅仅模仿的能力限制,开始具备理解和掌握物理世界规律的认知,并能在实际操作过程中不断学习与自我进化。这标志着具身基础模型从单一模态向多模态深度融合架构的重大转变。
一、从模块组合到原生统一:WALL-B的创新之路
近期,北京的人形机器人比赛吸引了大量关注,硬件和技术进步迅速。然而,在灵巧操作和泛化能力方面仍然存在挑战,这也是阻碍机器人进入实际应用场景的重要原因。
当前大多数具身大模型都是基于VLA架构构建的,自变量公司早期也曾推出过一款同样采用VLA架构的第一代具身模型WALL-A。但当这款产品真正应用于家庭环境时,研发团队很快就意识到了VLA架构的局限性。
尽管VLA技术已经相对成熟,但它本质上是多个独立模块的组合体。信息在各个模块间传递时会逐渐衰减和失真,导致最终执行任务时接收到的信息不完整。
这种情况类似于苹果M1芯片出现之前Mac电脑上CPU、GPU及内存各自独立运作的方式,每次数据传输都会产生延迟和损耗。
此外,VLA架构只能让机器人模仿训练数据中的轨迹模式,但无法理解物理世界的本质规律。机器人只会机械地执行任务而缺乏灵活性,在实际应用中往往表现出明显的不足之处。自变量机器人CTO王昊总结说,“模仿是VLA架构的极限”。
例如,面对一个悬挂在桌边的盘子时,传统机器人并不能预测它会在重力作用下掉落,因此也不知道需要将它推回原位。

自变量公司通过WALL-B项目实现了从VLA到WUM的重大转变。这不仅仅是简单的迭代更新,更是彻底改变了机器人大脑的工作方式——从模块组合转变为统一架构的设计思路。
WALL-B就像苹果M1芯片一样,将视觉、语言理解、动作控制以及物理预测等所有功能集中在一个网络中进行联合训练,消除了不同能力之间的壁垒,并使各个部分能够协同工作。
以前机器人处理任务的方式更像是传话游戏中的信息传递过程。而从现在开始,模块间的界限被彻底打破,数据传输损耗消失无踪,使得整个系统可以像人类一样全面地理解周围环境、身体状态和操作需求。
这种整体性的思考能力就如同我们看到杯子即将掉落时,大脑还没来得及反应手就已经伸出去接住了。因为在这个瞬间,人们能够综合考虑所有因素并迅速作出判断。
二、基于WUM架构:赋予机器人理解物理世界的能力
基于WUM架构,WALL-B实现了三个与现有模型相比具有重大技术优势的核心特征:
1、原生多模态
它从一开始训练时就同步标注并联合训练视觉、听觉、语言及触感等多模态数据。
机器人在杯子即将掉落前就能伸出援手,调整力度稳当地将其放回原处。无需像流水线般等待不同模块的信息传递才能进行下一步操作。

这种架构让模型拥有了原始的自我感知能力,使机器人能够了解自身的尺寸和空间位置,并判断自身在环境中的状态。
遇到狭窄通道、半开的门或高处物品时,机器人可以准确地评估是否能通过或者够得着并预测可能发生的后果。而许多扫地机器人甚至都缺乏这种基本能力,不知道自己钻入沙发底或桌下是否会卡住。
WALL-B还赋予了机器人部件级的理解力,在看到一个杯子时能够像人一样感知到它的材质、图案及握持方式等特征,并在不同环境下仍能识别相同的物体。
二、物理世界的认知能力
不仅能看到世界,WALL-B还能理解和预测重力、惯性、摩擦力和速度等基本物理规律。
当机器人拿起一个装满水的杯子时,它能够感知到液体晃动造成的重量变化,并根据实际情况调整手部力度以确保安全拿握。如果移动过快,则会因惯性导致溢出风险增加,因此需要适时减速。
支撑零样本泛化能力的关键在于模型对物理世界的理解而非记忆的任务数量。今天能够在一个家庭环境中准确处理满水杯,明天就能在另一个完全陌生的环境中应对不同材质、重量和形状容器的需求。
三、真实场景下的训练与进化
真实的家庭环境远比标准化实验场复杂得多。杂乱无章的物品摆放、变化多端的光线条件以及突发的干扰因素构成了一个充满不确定性的挑战场所。
因此,自变量团队选择进入真实家庭进行模型训练,每户人家的情况都不相同,这使得机器人能够适应各种未知情况并不断提升自己的泛化能力。
此外,通过与用户的持续交互,WALL-B可以在不断生成新数据的同时回流经验,并推动自身完成自我进化。形成“进家庭-获取数据-模型自我优化-再进入更多家庭”的良性循环机制。
一旦这个正向反馈环路真正启动,将为自变量带来巨大的竞争优势,使其在具身智能领域占据领先地位。

四、机器人入驻家庭:开启智慧生活新篇章
最近,自变量与58同城合作,在真实家庭环境中部署搭载WALL-AS模型的机器人进行清洁工作,这是全球首次尝试让机器人参与家庭服务的任务。
王潜明确表示,即将在5月25日推出搭载全新WALL-B模型的家庭服务机器人,并正式进入用户家中提供实际操作体验。
针对隐私问题,自变量采用视觉脱敏、透明授权和限制用途等措施确保用户的个人信息安全。
机器人进家庭不仅意味着出售一台设备那么简单,它更像是一个可持续更新的服务系统。通过服务订阅、功能升级以及模型迭代,不断提升机器人的性能和服务水平。
对于企业而言,这代表着从一次性售卖硬件转变为建立长期的付费用户关系模式。
王潜承认当前版本仍处于“实习生”阶段,会犯错且需要远程协助。但其具备24小时连续工作的能力,并通过每日操作积累新数据实现不断进化和学习。
结语:家庭环境成为机器人成长的摇篮
家庭不仅是具身智能技术最具挑战性的应用场景,也是检验机器人是否具备通用能力的关键场所。尽管目前阶段机器人的表现可能还不尽如人意,但其已经开始在充满不确定性和随机性的真实世界中逐步学习和进步。
对于整个行业而言,这不仅是一次场景的落地应用,更是开启了一段全新的旅程:让机器人在最复杂且多变的生活环境中持续成长。

这种耗时耗力的“笨功夫”,却恰恰形成了自变量最关键的壁垒,机器人只有在这种差异里训练,才可能建立真正的泛化能力。
所以,自变量选择用实验数据打底,真实场景提质,前者让模型拥有基本能力,后者让模型学会在不确定、不可预测的环境中生存。
更重要的是,WALL-B能让机器人能够在与真实世界的持续交互中不断产生新数据、回流新经验,并推动模型完成自我进化,形成“进家庭—获取数据—模型自我进化—再进更多家庭”的正向数据飞轮。
一旦这个飞轮真正转起来,数据就会变成模型持续成长的燃料,像自变量这样更早进入真实场景、积累更多高质量交互数据的企业,就能够不断扩大自身的领先优势。
四、机器人1个月后入驻真实家庭,在工作中越变越聪明
前阵子,自变量和58同城合作,将搭载WALL-AS模型的机器人送入真实家庭,与保洁阿姨协同作业,在全球首次机器人进入家庭作业。
这次,王潜明确表示,将在5月25日,让搭载WALL-B模型的机器人进入真实家庭干活。
对于机器人进入家庭后可能会带来的隐私问题,王潜提到,自变量会采用视觉脱敏、透明授权、用途限定的方案来保证用户的隐私安全。

机器人进家庭这件事的想象空间显然不止卖一台机器人,因为当机器人开始在家庭中长期驻留,它就不只是一个消费电子产品,更像是一个可持续更新的服务系统,可以通过服务订阅、功能更新和模型升级,不断提升它的能力。
对企业来说,这门生意不再是一次性卖机器,而是凭借持续服务和持续升级,与客户形成长期付费关系。
王潜也承认,当前模型仍处于“实习生”阶段,会犯错,需要远程协助,有时可能把拖鞋放到厨房、擦桌子擦到一半停下来思考。但其能够实现24小时不间断工作,且每工作一天都会因新数据的产生而变得更“聪明”。
结语:家庭这道终极考题,正成为机器人真正长大的地方
家庭既是具身智能最复杂、最琐碎、最难标准化的地方,也是最能检验机器人是否真正具备通用能力的终极目标场景。
今天的机器人也许还走得慢、做得笨,还经常犯错,但真正重要的变化是,它已经开始走进家庭,在这个充满随机性和不确定性的真实世界里,一边干活、一边学习,持续进化。
对于具身智能而言,这不只是一次场景落地,更像是一场真正意义上的启程:机器人已经在最复杂的地方,开始了自己的成长。
