![]()
机器之心发布
具身智能正在步入一个新的发展阶段。
一个日益明确的趋势是,单纯依赖真实机器的数据传输,并不足以将机器人成功引入大规模的应用场景中。
这背后的逻辑不难理解:数据采集成本高昂、耗时长且难以完全反映实际情况。实验室里可行的演示在工厂或仓库的实际操作环境中往往面临速度、成本和稳定性的挑战。因此,下一阶段的竞争不仅在于谁能做出一个演示,更在于谁能够有效转化人类的操作经验到机器人可以学习和部署的能力。
灵初智能于4月10日发布了一系列技术和合作计划:其中包括策略模型Psi-R2和世界模型Psi-W0,以及近10万小时的人类操作数据。这些措施旨在解决这样一个核心问题——当真机数据不再是唯一解决方案时,机器人技术如何继续发展。
从表面来看,这是一次新产品发布;但深入剖析,则更多地是对未来发展方向的探讨:在没有互联网式的数据优势的情况下,具身智能应该如何前行?

当真机数据不再够用
为何转向人类操作数据
此次发布的具体内容包括:
- 技术详情可参阅技术博客(https://www.psibot.ai/from-human-skill-to-robotic-mastery/)。
在模型方面,推出了Psi-R2和Psi-W0;在数据方面,则有近10万小时的人类操作记录及首批开源的1000小时数据。这些数据是当前行业内最大规模的开放性人类手部动作全模态数据库之一。
具体而言,该系统内含5417小时的真实设备数据和95472小时的人类操作数据,涵盖了多种场景、任务及物体。这为机器人预训练提供了新的基础框架。
为何选择人类操作数据?
这是因为具身智能不同于大数据驱动的领域如大语言模型或自动驾驶,在商业应用中很难自然积累大规模高质量的数据集。因此,数据来源问题成为行业面临的重大挑战之一。
然而,人们每天在实际环境中进行高频次、连续性和精细化的操作任务,这些操作细节非常贴近机器人未来的应用场景,包括真实的动作节奏和细节。从实践角度来看,这种类型的原始数据价值远超出单一的数据种类范畴。
虽然采集人类操作数据并非易事
最大的挑战之一是人手与机器手之间的运动学差异及精度问题。许多原始视频记录的轨迹恢复只能达到厘米级精度,在进行亚毫米级别的任务时,这种误差会被放大。
为此,灵初开发了外骨骼触觉手套和高精度感知设备来克服这些难题,并将人手3D轨迹的采集提升到更高精度水平。另一部分未经处理的手部数据虽然精度较低但数量庞大,主要用于提高模型泛化能力。
简而言之,灵初并未简单地将人类操作数据视为替代真实机器数据的一种低成本选择,而是构建了一个分层的数据结构:高精度数据确保性能上限,大规模数据则增强通用性。
一套系统
比单个模型更关键
更引人注意的是,灵初没有采取一条过于复杂的方法路径
他们曾尝试过图像修补、关键点辅助等技术来使人类操作数据更接近机器人的形式。但在大量数据的情况下,这些方法反而成为了瓶颈。
原因很简单:这些方法试图模糊人手和机械臂之间的区别,在处理复杂精细任务时这一点尤为明显。强行抹平这种差异会导致模型在关键动作中犯错。
因此,灵初选择了一条更直接的路径:“原始数据输入,原始数据输出”。
Psi-R2负责“学会如何执行任务”
它从图像和语言信息出发,同时预测未来视频和机器人动作。其目标是将大规模人类操作经验中的知识融入策略模型中。
在经过大量预训练后,Psi-R2仅需少量真实设备轨迹的微调就能完成手机装配、工业包装等精细任务。

然而,仅仅学习成功的案例还不够
成功演示只能告诉模型“应该如何做”,却不能指出失败的原因。而这正是强化学习所必需的信息。
这就是Psi-W0的用途所在。
它从图像、语言和机器人动作轨迹出发去预测未来的场景,额外包含大约30%的失败数据来增强其训练效果。
Psi-W0不是一个简单的“能够预测”的模型;它更像是一个评估策略并提供改进空间的平台。通过这种机制,可以将“人类会做”的操作转化为“机器人也能执行”的动作。
这次发布的亮点在于Psi-R2、Psi-W0和强化学习之间的协同作用。
对于数据分布的重要性而言,任务多样性比物体多样性和场景多样性更为关键;在模态价值上,则是精确的三维位姿优于触觉和二维图像特征。
用更简单的话说就是:背景是否复杂并不是决定因素;真正影响模型性能的是它所经历的任务、接触过的物体以及对操作细节的理解程度。
正因如此,灵初将触觉视为一种通用语言。尽管人手和机械臂的结构可能不同,但“碰到了什么”或“如何发生接触”的物理信号是相通的。

从论文到现场
落地还要跨过部署关
技术可行性之外,商业价值才是最终考量
明确的答案是:值得投资,并且必须如此。
原因在于实验室环境中慢速动作和绕路演示仍可实现;但在实际作业中,则会受到节拍、成本和稳定性的严格限制。真正的关键数据来自一线工人的真实操作记录,而非实验室中的遥操控演示。
一方面,人类操作数据的成本远低于传统真机方案的十分之一;另一方面,它们更能真实反映业务现场的操作节奏及速度需求。
工程进展进一步加速了这一进程
通过多项优化措施,单次推理时间已缩短至100毫秒以内。对于连续、灵巧且流畅的动作操作而言,这已是能否真正部署的关键门槛之一。
第三方评估也验证了这套方法的有效性
目前,在不使用MolmoBot Data的数据组中,Psi-R2以Oracle成功率46.4%排名首位,并覆盖四个任务领域。
MolmoSpace是由美国艾伦人工智能研究所发起的具身智能领域的全球权威基准测试平台。灵初的模型在此次评测中超越了多个国际知名团队的表现,显示出其自主研发路线的强大竞争力和先进性。

这一结果的意义不仅在于“上榜”,更在于这套方法正在接受公开、可比较的标准检验环境下的验证。
这个细节的价值,不只是 “上榜”。更重要的是,它说明这套方法,正在进入一个公开、可比较的评价环境里接受检验。
将这些信息综合来看,这次发布不单是新模型的推出或数据开放
它更像是向外界传达了一种判断:
首先,具身智能的发展瓶颈在于数据获取,而人类操作数据不是一条旁路而是主要路径。
其次,将人类经验转化为机器人能力的关键不只是一两个模型的贡献,而是Psi-R2、Psi-W0和强化学习共同作用的结果。
最后,技术最终的价值不应仅仅停留在论文中,真正的检验标准是节拍、成本、推理速度以及数据飞轮能否持续转动起来。
如果这一路线能够成功落地,这次的开源行为将不仅仅是模型与数据的共享

它更像是在向整个行业宣告:具身智能的新阶段可能不再取决于谁能率先展示出更吸引人的演示,而是谁能真正构建起一条基于人类操作数据、世界模型和强化学习技术的数据增长曲线。
从这个角度来看,此次发布不只涉及一个新产品
而是一个新阶段。
文中视频链接:https://mp.weixin.qq.com/s/8qnnf6J9sgh9thTbfg1ndg
