银河通用LDA定义了一种全新的全域数据利用方式,并推出跨本体的“隐式世界-动作基础模型”LDA-1B,旨在推进具身GPT-2时代的到来。
开启具身规模化时代
当前,在具身智能这一赛道上,技术流派间的竞争已经十分激烈。
相较于传统技术模式下对大量失败操作的依赖,LDA-1B模型在面对这些不稳定的数据时不仅能够正常工作,还能通过学习提升自身性能。
研究团队强调,在测试过程中,所使用的机器人本体均未出现在预训练数据集中,这使得实验结果更具说服力。
在一系列复杂任务的对比中,LDA-1B模型展示出了显著优势,其执行与泛化能力在实际操作中达到了行业顶尖水平。
团队通过引入包含大量失败和不稳定操作的遥操作数据进行测试,发现这样的实验条件反而能够使LDA-1B性能得到提升,而其他模型如π0.5则会因此受到负面影响。
这项研究揭示了“低质量”或被认为不可用的数据实际上对模型性能有着积极影响的现象,打破了传统观念中关于数据质量和价值的界限。
LDA-1B不仅实现了单一技术路线及单一机器人本体能力局限性的突破,还具备跨场景、多硬件以及复杂任务处理的强大通用化作业能力。

从数据基础设施构建到模型训练再到实际部署,LDA-1B的整个生命周期都遵循着“数据组织”的新范式逻辑,这为机器人的自主学习和持续进化提供了坚实基础。
银河通用公司运用其完整的技术体系,在产业落地层面取得了显著成效,特别是在工厂工业及家庭起居两大核心场景中实现了广泛的应用。
通过将技术、数据资源与产业生态进行全维度的整合,LDA-1B确立了自身在行业中的领先地位,并得到了资本市场和学术界的双重认可。
在解决具身智能领域最根本问题上——即机器人能否像大型语言模型一样从海量异构数据中不断学习并进化这一命题,LDA-1B给出了肯定的答案。

通过统一建模与全量数据驱动的方法,银河通用成功地将大模型技术应用于机器人领域,开启了具身智能规模化、通用化和产业化的全新篇章。
值得一提的是,在去年三月的实践中,银河通用首次提出了WAM框架,并对其进行了初步验证。
对于有兴趣深入了解该领域的研究人员而言,《DyWA: Dynamics-adaptive World Action Model》论文提供了一个很好的切入点。
通过创新性地引入动态自适应机制,DyWA模型不仅突破了传统操控模型存在的泛化弱和动态适配不足的问题,还为具身智能及非抓取操作的研究开辟了新的路径。
在产业应用方面,该技术显著提高了机器人处理复杂场景的能力,并大幅降低了落地成本,对于服务机器人、柔性工业操作等应用场景具有极高的实用价值。
总体而言,LDA-1B的出现标志着具身智能领域的一个重要里程碑,为未来的进一步发展指明了方向。
全数据高效利用,告别数据浪费
结合官方实测视频,足以直观展现LDA-1B全方位领先的核心实力。
视频开场,它就亮出三大典型场景落地潜力:
零售场景,它能利索地在货架间穿梭,分拣物品;家庭场景,它能整齐叠好衣物;工业场景,它能轻松搬运码放沉重的货物。

多样生活化、工业化场景的流畅实操,充分体现了LDA-1B模型的落地适配性。
表象之外,想要真正看懂差异化优势,还要从主流模型的现有缺陷讲起。
行业普遍认为,只要积累足够丰富的专家操作样本,模型就能自主习得完整的行动逻辑与操作能力。
但这套技术路线本身存在明显局限,整体十分依赖高水准训练数据。
高质量数据的获取门槛一直居高不下,远程操控采集和精细内容标注,再加上复杂的动作空间统一工作,都会持续拉高整体成本,也让数据体量很难实现大范围扩充。
就算借助仿真数据来补充训练数据,虚拟环境和现实场景的天然差距,也会带来明显的落地适配问题。
除此之外,行业还长期浪费着海量闲置资源,纯视觉的人类第一视角素材,含有大量干扰信息的粗糙运动记录,以及不同机器人设备产出的差异化内容,都难以被传统框架吸收学习。
这个LDA-1B做了一件行业没人敢做的事——把别人眼里的「无用数据」全拿来训练了。
LDA-1B出来之前,全行业其实都没真正吃透所有具身数据。
为了打破这个桎梏,银河通用构建了完整的数据基础设施「银河星数(AstraData)」,并在LDA-1B中实现对全类数据的统一完整运用。

围绕这一体系,银河通用构建了一个金字塔式自下而上的五层数据结构:
- 互联网图像/视频/文本数据(底层):规模最大、成本最低,用于构建基础感知与语义理解能力,但与具体动作执行相关性较弱;
- 人类行为数据(次底层):提供动作先验与任务理解,将“视觉认知”连接到“行为语义”;
- 多本体合成仿真数据(中间层,银河自研合成数据管线产出):以物理一致性为约束,大规模生成可控、多样的机器人交互数据,实现从认知到执行的关键过渡;
- 真实遥操作数据(高层):提供高质量动作示范,但规模与采集效率受限;
- 真实机器人自主运行数据(顶层):来自真实部署环境的闭环数据,直接反映系统在现实世界中的运行表现,并持续驱动强化学习与系统优化。
此外,不同质量的数据也被分配不同的训练角色,各司其职,物尽其用。
- 高质量专家轨迹:同时学习策略和动力学,定义什么是好的动作。
- 低质量/噪声数据:只用于前向和逆向动力学。动作可能是错的,但世界对动作的响应是真实的。一个人把杯子碰倒了,杯子倒下去的物理过程,不会因为「这个操作水平不行」就变得不真实。
- 无动作标注的人类视频:用于视觉预测。没有动作信号,但人类操作的时序结构和交互模式全都在画面里。
在这一框架下,数据不再被简单划分为「有用或无用」,而是被系统性重组进统一的世界-动作模型之中。
这就是LDA-1B所说的「通用数据摄入范式」。
没有垃圾数据,只有因训练框架被「错付」的数据。把对的数据放到对的训练目标里,每一帧都有价值。
这一范式在LDA-1B中首次展现出清晰的规模化特征。
随着训练数据从5000小时扩展至30000小时,LDA‑1B的动作预测误差持续下降,呈现稳定的单调改善趋势。
相比之下,仅采用策略学习的基线模型在引入低质量数据后性能明显退化。
规模化实验结果,给出了最有力的证明。
当所有有动作标注的数据耗尽后,继续加入超过10000小时无动作标注的人类视频,LDA‑1B的性能依然能够持续提升。
这一点,是传统行为克隆(BC)及既有世界模型方法难以实现的。

具身智能的规模化发展,第一次不再被高质量专家数据的稀缺性所限制,海量高低质量、有无标签的异构数据,都能成为模型能力持续增长的动力。
它标志着具身智能开始真正进入以数据驱动的规模化发展阶段。
跳出二元局限,铸就跨本体通用能力
LDA-1B走出了区别于纯VLA、纯世界模型的第三条技术路线。
纯世界模型难落地成实际动作,纯VLA模型不理解行为后果。
LDA-1B选择在单一扩散模型框架内把两者完美融合,同时在一个模型里学习四大核心能力:

- 策略学习: 根据当前观测直接生成动作,这是VLA的能力。
- 前向动力学: 根据当前状态和动作,预测下一时刻的视觉状态,这是世界模型的能力。
- 逆向动力学: 根据前后两个状态,反推中间执行了什么动作。
- 视觉预测: 不需要动作输入,直接预测未来的视觉轨迹。
四类能力协同优化,构建起「感知—决策—交互—反馈」的完整闭环。
模型不仅知道「该怎么做」,更能理解「这么做会改变什么」。
通过一个MM-DiT(多模态扩散Transformer)构建,将动作策略学习与世界建模统一建模。

不同于传统的世界模型容易在灯光、纹理等像素级的细节上消耗过多算力,LDA-1B选择在紧凑的DINO的潜空间(Latent Space)中建模动力学,将注意力完全放在物体的结构和动作的本质上。
这种抓大放小的策略,让它在处理具体操控、灵巧操控以及长程操作等复杂任务时,表现远超其它模型,性能提升高达48%。
为了探寻LDA-1B的有效性和实际效果,研究团队进行了一系列实验。
研究团队申明,所有测试使用的机器人本体——包括搭载双指夹爪或22自由度灵巧手的Galbot G1、搭载10自由度灵巧手的Unitree G1——都没有在预训练数据集中出现过,属于严格的少样本跨本体泛化。
实测里LDA-1B的表现一骑绝尘。
夹爪取放、物体交接,超高难度长程任务,秒杀GR00T-N1.6和π0.5。
面对未知位置、新物体、变化背景等分布外扰动,以及各类灵巧手操作,LDA-1B同样全方位领先现有顶尖模型,执行与泛化能力拉满。

从锅里翻捡牛排盛到盘子里,再撒点黑胡椒粉这种事,对搭载LDA-1B模型的机器人来说,真·小菜一碟。
比如精准预判「推动扫帚会带动纸团位移」的物理逻辑,这也是其攻克长程任务、灵巧操作难题的核心关键。
团队在实验过程中,验证了一个行业反直觉结论:
在下游任务微调中加入包含大量失败和不稳定操作的遥操作数据,π0.5性能下降,LDA-1B性能反而提升10%。
不管是曾经被定义为「低质量」的数据,还是那些「不可用」的数据,现在统统都可以被LDA吃干榨尽。
整体而言,LDA-1B完成了模型能力与硬件适配的全域归一,突破单一技术路线、单一机器人本体的能力局限,实现多场景、多硬件、多任务的通用化作业能力。
全链路闭环,开启具身规模化时代
复盘行业两大主流路线的底层缺陷,不难发现,两者的天花板很明显。
纯VLA路线无法脱离专家数据掣肘,难以规模化;传统世界模型受像素空间制约,参数扩容无法带来有效增益。
而LDA-1B依托WAM统一框架,凭借DINO结构化表征、四任务协同训练、全量数据分工复用三大核心革新,补齐了具身智能规模化进化的全部条件,构建起可持续自我迭代的底层范式。
不同于行业传统的「数据筛选」模式,LDA-1B建立的「数据组织」范式,让海量异构数据持续为模型进化赋能,成功复刻大模型的Scaling增长逻辑,让机器人真正拥有自主学习、持续进化的通用智能能力。
在产业落地层面,LDA-1B是银河通用银河星脑全人形通用基础模型体系的关键闭环,它嵌入在「银河星脑(AstraBrain)」的完整技术体系之中:
从「银河星数」所构建的数据基础设施,到跨本体的世界-动作基础模型,再到面向真实场景的持续部署与反馈学习闭环,为实体场景规模化落地筑牢技术根基。
依托成熟完备的技术管线,银河通用将工厂工业、家庭起居作为核心落地主战场,针对性打磨适配两类高频刚需场景的通用具身能力。
在工厂场景,模型可适配复杂工业产线环境,完成柔性搬运、精密操作、巡检运维、流程辅助等多元化作业,适配多品类工厂非标化需求,降低产线智能化改造成本,助力工业自动化提质增效。
在家庭场景,可深度适配居家复杂动态环境,覆盖全屋家务打理、老人儿童陪护、居家安全巡检、生活化便民操作等日常需求,打破家庭服务机器人功能单一、环境适配差的行业痛点,真正落地普惠型家庭智能服务。
在此两大核心场景之外,同步延伸至零售等细分领域,形成主次分明、重点突出的落地布局,推动具身智能从实验室演示技术,升级为可落地、可复用、可创造价值的生产力基础设施。
生态层面,银河通用秉持开放共建理念,已开源基于公开数据训练的LDA-1B模型版本。
打破行业封闭迭代壁垒,为全球具身智能研究提供通用、高效的技术底座,加速全行业技术跃迁。
从技术模型、数据资源到产业生态,LDA-1B完成了全维度的全域归一,构建起技术可迭代、数据可循环、产业可落地的完整闭环,牢牢坐稳国内具身智能赛道的技术与估值龙头地位。
技术与产业的双重突破,让这家公司获得了资本市场的高度认可。
截至2026年4月,银河通用已是国内估值最高的未上市具身智能企业,估值超200亿元。
而LDA-1B的问世,再度夯实了企业的核心技术壁垒与行业领先的产业价值。
归根结底,LDA-1B的价值早已超越榜单跑分的浅层竞争。
它解答了具身智能领域最本质的命题:
依托WAM世界-动作统一框架,机器人是否可以复刻LLM的规模化逻辑,从海量异构数据中持续认知世界、迭代进化?
就这个问题,LDA-1B用自身给出了肯定的答案。
从GPT大模型的文本智能,到LDA-1B的机器人具身智能,统一建模、全量数据驱动的规模化逻辑一脉相承。
银河通用将这套成熟的AI进化范式落地机器人领域,正式拉开了具身智能规模化、通用化、产业化的全新序幕。
One More Thing
去年3月,银河通用就率先提出并实践了将World Model(世界模型)与Action Model(动作模型)统一的框架WAM(World-Action Model)。
感兴趣的小伙伴可以跳转论文《DyWA: Dynamics-adaptive World Action Model》。
该论文在全球范围内首次对WAM的概念进行结构化定义,并在接触动力学复杂的任务实现了成功的验证。
DyWA创新性引入动态自适应机制,突破了传统操控模型泛化弱、动态适配不足的痛点,为具身智能与非抓取操控研究提供全新思路,学术价值突出。
在产业端,该模型显著提升机器人复杂场景作业能力,降低落地适配成本,有效赋能服务机器人、柔性工业操作等场景,加速通用具身智能技术落地与产业化进程。

Jay