本文由智东西陈骏达撰写,李水青编辑。
近日,商汤科技发布了一篇最新技术博客《NEO-unify:原生架构促进端到端多模态理解和生成统一》,介绍了他们研发的全新模型架构。该模型通过在底层整合多种模式的理解与生成,实现了更高的训练效率和数据处理能力。
当前的技术趋势显示,大多数多模态系统会采用视觉编码器来理解图像信息,并利用变分自编码器进行内容创作。这种方法尽管有效,但在模块间的协作上却存在一些局限性。
NEU-unify的核心目标是探索AI是否能够直接从原始的像素和文本数据中学习、理解和生成,而无需经过传统的视觉编码器与变分自编码器步骤。这个架构首次构建了一个真正的端到端模型,在单一框架内统一处理图像和文字,并完成相应的任务。
研究初期的结果表明,NEU-unify在保持强大的语义理解能力的同时,提高了训练效率。
博客地址(英文):
商汤科技联合南洋理工大学推出了一种全新的多模态架构:NEO-unify(preview)。这种设计突破了视觉编码器和变分自编码器的限制,并且能够直接处理原始像素与文本信息。该模型不仅越过了当前视觉表示的争论,还避开了预训练先验及规模瓶颈。
博客地址(中文):
NEO-unify采用了一种端到端的统一框架,可以直接从接近无损的信息输入中学习,并自行构建内部表征空间。
该架构首先引入了一个近似无损的视觉接口,用于处理图像数据;其次采用了原生混合Transformer(Mixture-of-Transformer,MoT)来协同完成理解与生成任务。
在实验中,使用NEO-unify架构训练出的模型在多个基准测试中的表现优异,接近Qwen3-VL的表现水平,且在同一尺寸下领先于其他视觉语言模型。
该模型不仅能够无编码器地保留抽象语义和细节特征,还展示了更高的数据处理效率。
商汤科技此前的研究表明,原生端到端的模型同样能学习到丰富的语义表示。在此基础上,商汤团队观察到了一个重要的现象:即使冻结理解模块,生成模块仍然可以从表示中恢复出精细的视觉细节。
在初步训练后,NEO-unify(2B)在MS COCO 2017数据集上的PSNR和SSIM指标分别为31.56和0.85,显示了其高质量的理解与生成能力。而Flux VAE的相应数值则为32.65和0.91。
商汤科技进一步开发了NEO-unify架构,使所有全模态条件信息输入到理解分支,而生成分支仅负责图像生成任务。

即便在冻结理解模块的情况下,NEO-unify(2B)仍展示了强大的编辑功能,并显著减少了所需的输入token数量。经过初步训练后,在ImgEdit基准上取得了较好的结果。

通过结合预训练的理解与生成分支,利用同样的中期训练和监督微调数据进行联合训练,即使在使用较少的数据比例时也能保持稳定的理解能力并快速收敛的生成能力。
此外,商汤科技首先进行了大规模预训练,并依次完成了中期训练和监督微调。实验显示,在比Bagel模型更低的token数量下,NEO-unify实现了更高的数据训练效率。
总结而言,多模态理解和生成一体化可能是构建世界模型的基础路径之一。
NEO-unify团队认为,随着一体化多模态模型的发展,未来的AI系统将不再需要在不同的模式之间转换信息,而是能够在单一智能体中直接处理各种数据类型。这标志着向更自然和无缝的人工智能迈进了一步。
模型的一体化理解和生成被认为是逼近人类认知的一种方式,而多模态的这一发展方向,则可能成为未来全模态推理、视觉推理及空间智能研究的基础。
在冻结理解分支的情况下,NEO-unify(2B)仍展现出较强的图像编辑能力,同时显著减少了输入图像token的数量。在使用开源生成与图像编辑数据集并进行初步6万步混合训练后,模型在ImgEdit基准上取得3.32的成绩,且理解分支在整个训练过程中保持冻结。
借助预训练的理解分支与生成分支,NEO-unify使用相同的中期训练(MT)与监督微调(SFT)数据进行联合训练。即使在较低的数据比例和损失权重下,理解能力依然保持稳定,而生成能力则收敛很快。二者在MoT主干中协同提升,整体冲突极小。

此外,商汤首先进行web-scale预训练,随后在多样且高质量的数据语料上依次进行中期训练(MT)和监督微调(SFT)。与7BBagel模型相比,NEO-unify展现出更高的数据训练效率,在使用更少训练token的情况下取得了更优的性能。

结语:多模态理解与生成一体化或成世界模型基础
NEO-unify团队认为,随着多模态理解生成一体化的模型出现,模型不再在模态之间进行转换,而是能够原生地跨模态思考。多模态AI不再只是连接不同系统,而是构建一个从未割裂的统一智能体,并让所需能力从其内部自然涌现。
理解生成一体化是AI大模型领域的前沿方向之一,被认为是更接近人类智能的一种模型形式。目前,业界已经基本完成文字理解生成一体化模型的探索,而多模态理解生成一体化模型,则有望成为全模态推理、视觉推理、空间智能乃至世界模型的重要基础。

