
深度学习模型DeepSeek R1 的问世,引发了人们对大规模预训练是否是提升模型推理能力唯一途径的新思考。事实上,通过后处理技术如强化学习、过程奖励和闭环反馈机制,人们得以以极低的成本解锁原本需大量算力才能触及的高级功能。这一现象正逐渐在自动驾驶领域重现。

- 自动驾驶系统已经完成了一系列大规模的数据预训练,但仍存在一个重大障碍:它们尚无法完全理解为何特定的行为模式是最佳选择。真正的进步需要依赖闭环反馈和持续改进机制。
- 香港大学李弘扬团队联合华为与上海创智学院提出了一种解决方案——世界引擎,该方案以强化学习为核心范式,并利用闭环仿真环境来驱动自动驾驶系统的训练,在真实及合成场景中实现决策能力的自然演化。
华为于2025年四月发布了其最新的ADS 4.0技术架构WEWA。其中最关键的部分——World Engine,是由华为与OpenDriveLab团队共同研发的结果。
在自动驾驶领域内,UniAD系统被看作是里程碑式的作品,它将感知、预测和规划整合在一个单一框架中,并以此重新定义了整个领域的研究方向。
然而,在实际应用环境中,端到端系统的性能表现却远不如实验室测试结果那样出色。例如雨夜逆向行驶的电动车或施工路段突然倒塌的安全锥等罕见情况在训练数据中几乎不存在。
面对这一挑战,OpenDriveLab团队从两个方面入手进行解决:一方面通过3D高斯溅射技术来构建逼真的驾驶场景;另一方面则开发了能够模拟长尾事件的反事实世界模型。
如今问题进一步聚焦于如何在高度仿真的环境下,使端到端系统真正地实现安全进化。
答案,就是后训练
2025年4月,华为发布了其自动驾驶技术的新架构WEWA。该架构的核心组件World Engine,是由OpenDriveLab团队联合开发的成果。
World Engine由此登上了历史舞台。
这项技术标志着向物理AI后训练时代的迈进。
预训练让系统学会了模仿,而后续的训练则致力于使其具备独立判断的能力。
World Engine的设计理念围绕着这一目标展开。它不仅仅是一个单一模型,而是涵盖了三个关键环节:高保真仿真环境、难例挖掘与扩散生成以及基于强化学习的后处理技术。
- 基于3DGS构建的真实场景为系统提供了闭环反馈机制,确保每一个决策都能得到即时响应而非简单的数据重播。
- 难例挖掘和扩散生成环节则专注于在真实驾驶数据中主动识别并模拟罕见且危险的情况,通过大规模的高动态交互模拟来扩展训练集的多样性与复杂性。
- 强化学习后处理技术在难例场景上驱动系统优化,将安全规范直接编码为奖励信号,促使模型不仅追求速度而且还注重决策的正确性和安全性。
三个环节相互促进,共同推动自动驾驶系统的性能提升和进化过程。

图1展示了World Engine的整体架构概述。
从暴露弱点到超越弱点
三个模块,一套飞轮。
难例挖掘与扩散生成
World Engine首先通过开环推理来识别预训练模型中的弱点,并利用PDMS标准自动筛选出表现不佳的场景作为后续改进的基础。
为了进一步放大这些难例场景,世界引擎运用解耦扩散技术生成一系列变体情况,保持真实地图拓扑结构不变的同时引入对抗性交通行为,从而系统地扩大训练数据集中的长尾部分。

图2展示了难例扩散生成的典型案例。
高保真闭环仿真
难例场景需要高度仿真的环境作为支撑。World Engine内置了基于3DGS的重建流程来创建扎根于现实世界的高保真三维场景,为闭环反馈提供了真实物理基础。

图3展示了高保真闭环仿真效果示意图。
基于强化学习的后训练
有了大规模难例数据集之后,World Engine利用离线强化学习驱动端到端模型持续优化。目标不再是简单的模仿人类驾驶员行为,而是在与各种挑战的反复对抗中学会安全决策的方法。

图4比较了navsim测试中的难例场景集合。
World Engine带来了哪些发现?
数据量增加不如训练方式改进有效

图5展示了验证Data Scaling效果:从1.3万个预训练场景扩展至10.3万进行对比实验。
长期以来,自动驾驶领域普遍认为数据越多模型越安全。然而World Engine的研究结果表明,事实并非如此简单。
在日常驾驶情况下,随着预训练数据集的扩大,系统表现确实会有所改善;但在处理长尾事件时效果有限,因为这些情况在现实世界中本身就极其罕见。
数据扩容遇到了瓶颈,在解决长尾问题上效果不明显。
World Engine提出的后处理方法提供了一种新的途径:通过强化学习反复模拟关键场景,并直接将安全性能作为优化目标。这种方法不仅能够显著提高模型的决策能力,而且还能保持其基础驾驶技能不受影响。
一块都不能少
后训练有效的原因何在?World Engine对其核心组件逐一进行了分析。

图7展示了华为ADS系统的工业级闭环仿真结果对比。
在超过8万小时的真实驾驶数据基础上进行的预训练,覆盖全国100多个城市的驾驶片段。在此之上,World Engine后处理技术进一步提升了系统性能。
团队利用华为的工业级闭环仿真平台对模型进行了全面评估——模拟了超万个测试场景及累计超过三千公里的驾驶里程,全部为高密度交互事件性场景。
测试结果在六项安全指标上均有显著改善,其中切入碰撞事故下降幅度达45.5%。
仿真验证之后,World Engine被带上了上海的实际道路进行测试。覆盖了城市快速路与城区路段,总计约200公里的行程进行了多次重复测试。
图8展示了上海市内高架测试路线图。
图9则呈现了上海市城区测试的具体路径规划。
工业闭环仿真

测试中所涉及的情境涵盖了众多让人类驾驶员紧张不安的情况:夜间施工区域临时改道、行人突然横穿视觉盲区以及无保护左转后的施工现场。这些场景的特点是即使经验丰富的人类驾驶员也需要时刻保持警惕,稍有疏忽就可能发生事故。
但World Engine后处理模型在整个测试过程中无需任何人工干预。
实车路测
后训练技术的应用领域远不止自动驾驶

World Engine的探索始于自动驾驶领域。但它真正要解决的问题是更为广泛存在的:当现实世界无法提供足够的关键失败案例时,如何主动创造它们,并从中学习和进步。

物理AI与数字AI最核心的区别在于其不可逆性。一旦物理系统发生错误,则无法像语言模型或推荐系统那样轻易修正。因此,在实际部署前必须确保Physical AI已经"见过"所有潜在的危险情况。
然而,这些最具挑战性的场景恰恰是最难以获取的数据。

典型实车场景 1

典型实车场景 2

典型实车场景 3
多个领域的研究面临着相同的结构性难题:最需要学习的情景往往缺失在训练数据集中。
World Engine提供的解决方案旨在应对这一根本性问题。尽管具体技术实现会根据领域特性有所不同(例如使用物理引擎或视频世界模型),但核心思想是一致的:主动创造经验,而非被动等待;从与世界的互动中涌现出能力,而不仅仅模仿人类行为。
OpenDriveLab正在将这种思路应用到更广泛的具身智能研究之中。目标是开发出能够在现实世界中感知、推理和行动的通用智能体——这是物理AGI的核心追求所在。
自动驾驶只是这场旅程的第一站,而后续训练技术将成为Physical AGI时代的关键基础设施之一。
World Engine项目由香港大学助理教授李弘扬博士与华为苏鹏博士共同领导。团队成员包括来自上海创智学院和南洋理工大学的多位专家,他们负责新范式的研发及实际应用推广工作。
但现实是,这些最危险的时刻,恰恰是最难收集的数据。
这些领域,和自动驾驶面对的是同一个结构性困境:最需要学习的场景,天然地缺席于训练数据。
World Engine 提供的范式正是针对这一困境的系统性回答。具体的技术实现会因领域而异:3DGS 渲染可以换成物理引擎或视频世界模型,行为世界模型可以换成机械臂动力学仿真或人体运动生成 —— 但核心逻辑不变:不被动等待数据,主动生成经验;不只模仿人类,在与世界的博弈中涌现能力。
OpenDriveLab 正在将这条路延伸到更广阔的具身智能领域。从端到端自动驾驶出发,走向能在物理世界中感知、推理、行动、进化的通用智能体 —— 这是具身智能研究的终极命题,也是 Physical AGI 真正的意涵所在。
自动驾驶,是这场旅程的第一个战场。
而 Post-Training,将是 Physical AGI 时代最重要的基础设施之一。
项目作者简介
World Engine 由香港大学助理教授、上海创智学院全时导师李弘扬博士与华为苏鹏博士共同担任项目负责人,李天羽(上海创智学院)、陈立(香港大学)、王曹俊(上海创智学院)、刘浩晨(南洋理工大学)为项目核心贡献者,共同主导新范式的研究与实现;苏鹏博士团队从产业视角出发,推动技术的量产落地与应用部署。
