大众汽车首次展示了Momenta公司即将推出的下一代大模型R7。曹旭东表示,传感器的作用并不像人们想象的那么重要。
“VLA的资源未能得到有效利用”
一凡 发自 副驾寺
曹旭东透露,Momenta将采用世界模型而非VLA来提高其大模型R7的性能。
该公司最近预告了其新的大模型R7,该模型引入了世界模型来增强其在强化学习中的表现。
据报道,新模型R7在引入世界模型后性能显著提升,上汽大众总经理陶海龙亲自测试后,认为其表现令人印象深刻。
上汽大众计划将这款名为ID.ERA 9X的车型作为其旗舰产品首发。
必须我们首发。
ID.ERA 9X是一款全尺寸增程式SUV,车长超过5.2米,结合了德国制造的机械优势和中国的AI技术。

曹旭东介绍了公司转向世界模型的原因,以及其对未来自动驾驶技术的展望。
曹旭东在介绍世界模型之前,回顾了过去自动驾驶技术发展的瓶颈,指出模仿学习的方法无法超越人类司机的水平。
为了突破技术限制,Momenta转向了强化学习,并在去年推出了R6模型,这是一种基于强化学习的端到端大模型。
R6模型能够在开放环境中自主探索,不再只是模仿人类的行为,而是从多维度筛选最佳路径。
R7模型是基于强化学习和世界模型的结合,标志着Momenta未来技术发展的方向。
关于世界模型,存在两种主要类型:生成世界模型和表征世界模型。
生成世界模型主要用于自动驾驶和具身智能的云端训练,表征世界模型则代表了车辆端的AI算法。
Momenta选择的是表征世界模型,这一路线得到了蔚来和华为的支持。

曹旭东解释了为什么选择世界模型而非VLA。
他认为,物理AI时代已经来临,自动驾驶技术需要具备理解物理世界的能力。
从技术角度来看,曹旭东指出VLA的训练侧重点与自动驾驶的需求不符,导致其难以在实际应用中发挥关键作用。
谈到传感器的选择,曹旭东强调,算法架构、数据和研发体系能力比传感器更加重要。
数据是AI发展的基础,而算法架构的整合和长期积累同样至关重要。
曹旭东表示,芯片算力紧随其后,是决定模型性能上限的关键因素。
他认为,即便采用纯视觉传感器,其效果也已经远远超过了人类的双眼。
随着数据、算法架构和研发体系能力的提升,传感器数量的边际效应正在减弱。
这种观点正逐渐成为行业的共识。
而从技术角度来看,曹旭东介绍称VLA的训练侧重点与自动驾驶的需求有偏差。VLA训练起源于LLM,底座模型的参数量一般在100B左右,然后再通过视觉和语言对齐,最后用行动去和视觉-语言组合对齐。这样看来在VLA的训练过程中,语义的优先级高于驾驶,很多参数也没用于驾驶任务,“好钢没用在刀刃上”。总结起来就是“VLA对自动驾驶是锦上添花,很难雪中送炭”。

VLA和世界模型,是软件算法层面的争议,而在底层硬件上,行业此前还一直存在着纯视觉和多传感器冗余(激光雷达)的争论,但这已经是过去时了。
曹旭东认为,传感器选型的重要性只能排在第三位。前两位是什么?
首先,Momenta最重视的是算法架构、数据和体系能力。
数据不必多说,这是AI迭代的基石。先说算法架构,曹旭东表示单一算法本身的壁垒很低,更重要的是架构,即把很多算法整合形成合力,并长期积累的能力。
再往上层是研发体系能力,要像神经网络一样可以反向传播,就是识别到用户高价值的任务,并将其传播给产品和研发团队。这样团队才能知道什么事情产出最高,在方案选型时选出提升用户体验最快的方案。
曹旭东透露,数据、架构和体系能力是Momenta内部第一梯队重要的事情,而紧随其后的是芯片算力。因为芯片算力直接决定模型能力上限。
在这些要素之后,排在第三梯队的是传感器。曹旭东认为哪怕只用纯视觉,即传感器都用摄像头,相比人类双眼已经是“超配”了。因为人的双眼并不是360°环视的,摄像头的覆盖程度已经非常全面,有足够的冗余。
所以传感器当然是越多越好,但随着数据、算法架构和研发体系能力提升,堆传感器数量、堆激光雷达的边际效应会减弱。
“这已经逐渐成为行业共识了”。

一凡