元戎新加盟的首席科学家阮翀在日前的北京车展上首次亮相,详细介绍了公司最新的基座模型VLA。
V4作者之一
一凡 发自 副驾寺
阮翀毕业于北京大学,曾长期从事自然语言处理的研究工作,并于2023年加入DeepSeek,参与了多个重要项目的工作,包括VL2和最近发布的V4等。
在元戎担任首席科学家期间,阮翀强调AI技术在自动驾驶领域的应用突破,特别是如何利用大规模基座模型提高研发效率。

他提到,在传统的自动驾驶开发过程中,往往需要使用大量小型专门模型来解决具体问题,这不仅增加了管理难度,也限制了工作效率。
△图源:DeepSeek V4论文因此,行业正逐渐转向基于大基座模型的统一解决方案。阮翀详细解释道,元戎所采用的大规模40B参数VLA(视觉-语言-行动)模型可以拆分为三个部分:驾驶、分析和评估模块。

该技术方案通过创新的数据表征方法提前识别数据集中的不足之处,并利用云端虚拟环境快速迭代模型,从而大大缩短了研发周期。
此外,在圆桌讨论环节中,阮翀还就外界关心的多个问题进行了回答,包括为何他会选择从纯数字领域转向物理AI等议题。
他认为物理AI的关键在于闭环反馈机制,无论是在实际操作机器人或车辆时获取直接反馈,还是在软件开发过程中通过编译器获得即时信息,这些都是实现持续优化的重要途径。
当被问及大模型的能力边界时,阮翀指出视觉识别任务中对空间方位感知的挑战是当前亟需解决的问题之一。
在展望未来时,他认为闭环反馈机制同样适用于加速化学分子性质预测等领域的发展,并有助于推进药物研发进程。
对于如何确保AI技术发展能够造福人类社会这一问题,阮翀表达了支持建立约束系统以规范AI行为的观点。
他进一步解释说,就像法律和规章制度帮助人们遵守道德准则一样,对智能系统的监管也至关重要。

当谈及为何许多从事多模态工作的专业人士开始转向物理AI领域时,阮翀分享了自己的个人见解。
- 阮翀表示,在经历了LLM(大型语言模型)领域的快速发展之后,他感到一种创新的倦怠感,并认为投身于尚处于初期阶段的研究领域更具吸引力。
- 分析模型:AI分析员,分析和解释AI司机为什么这么开
- 评估模型:AI教练,评估AI司机开车的表现

基座模型如何落地,加速元戎开发呢?阮翀举了三个例子。
第一个例子是数据表征任务。自动驾驶研发的关键,是实现数据闭环,但阮翀认为过去数据驱动的方式,其实带有滞后性:
你必须先训练出模型,才能发现模型的问题,进而知道哪些数据不够。
数据表征则改变了这个顺序,它可以提前分析数据,并进行归类,这样研发团队在训练前就知道,自己手头什么场景的数据多,又缺什么场景数据,在训练时就可以有所侧重,调整数据配比。
第二个例子是数据质量评估。过去分析数据质量,需要通过间接方式,根据这批数据,训出的模型表现,反推数据质量,迭代周期比较长。
现在基于一个庞大的基座模型,只需要进行简单的微调,就能评估数据质量。
最后,基座模型不仅在数据维度实现了提效,同时也加快了模型评估。过去评估模型能力,主要依赖路测,要先更新模型上车,再找人跟车,实测后回传数据,这种方式费时又费力。
现在利用云端虚拟环境,就能评估模型,判断AI司机开得好不好,并进行修正。

据阮翀估计,以前迭代一版模型可能需要100多个小时,现在加速了10倍,迭代时间缩短到了十几个小时。
在详解技术成果后,阮翀还参与了圆桌讨论,回应了外界最关心的问题:
为什么他会加盟元戎,转向物理AI?
以下是圆桌实录,经编辑
阮翀回应入局物理AI
Q:什么才是物理AI?
阮翀:从狭义的角度讲,物理AI一定要有一个现实载体,比如人能操纵它,然后现实世界会给出反馈,像机械手或者车。
但我认为物理AI最重要的事其实是闭环。
所以从广义的角度讲,比如说AI Coding,写了代码然后编译器会给出反馈,告诉你这个地方写了对不对,然后你再去调试。
只有这样的一个闭环,才是AI真正进入物理世界的最重要手段,能够让它不断提升。
Q:什么情况让你意识到了大模型的能力边界?
阮翀:我认为视觉模型现在最难的问题是空间方位感知,经常前后左右不分,然后导致一些奇奇怪怪的行为,比如分不清车门在左边还是右边,东西在车内和车外。
Q:哪些领域的突破性进展,值得大模型借鉴?
阮翀:我想强调的一个概念还是闭环。我觉得这个问题可以反过来看,就是如何把LLM推广到其他领域,比如用AI去预测化学分子性质,比如它的熔点或溶解度,然后用这项技术,加速药物研发。

Q:我们如何保证AI发展,是对人类有利的?
阮翀:我个人现在非常赞同Harness(约束AI边界的系统工程)的概念。人需要法律和规章制度,保证他成为一个好人。
对AI也是一样的,如果你坚信AI能超越人,那么你也需要一些工具来控制它,而不是期待它性本善。
Q:为什么近期不少LLM公司的多模态负责人,入局物理AI?
阮翀:对我来说,我觉得有两方面的原因:
第一,我自己不太喜欢做边际收益递减的事情。我觉得做LLM很多年了,当然它的能力在不断提升,但和ChatGPT刚出来时,感觉已经完全不一样了,有一种疲倦的感觉。
LLM发展非常好,比其他领域领先,一个模型几乎可以解决你想要的所有事。
但在别的领域,比如多模态或者具身智能,还没有发展到这样的阶段,我自己更愿意参与这样的阶段,而不是进入一个相对成熟的阶段。
第二,我自己性格的原因。我不喜欢跟别人抢着做事,比如LLM很好,那大家都一窝蜂去做,但我更在意某种使命感或者责任感:
一件事情,如果我去做和我不去做,对世界来说都没有差别,那我为什么要做?
所以,我选择换一个领域。

一凡