图像领域又迎来了一位挑战者!
今天,Luma AI推出了其全新模型Uni-1,直接与谷歌的Nano Banana Pro和GPT Image 1.5展开竞争。

Uni-1是一个集图像理解和生成于一体的统一模型。
据官方展示,该模型具备角色姿态迁移、故事板构建、草稿结合材质参考生成等多种能力。

在一系列权威任务评估中,Uni-1不仅能与Nano Banana Pro和GPT Image 1.5匹敌,在某些方面甚至超越了它们的表现。
比如在一项案例中,Uni-1展现出了卓越的细节处理能力和风格一致性、元素融合度以及细节还原方面的优势。

更为令人惊讶的是,这样的出色表现来自一支仅有不到15人的华人研究团队,而不是大型科技公司的重金投入。
Uni-1一经发布就赢得了广泛赞誉,并吸引了谷歌DeepMind首席科学家Oliver Wang的肯定:

Nvidia机器人部门主管Jim Fan也为之鼓掌祝贺:

那么Uni-1的效果究竟有多出众?接下来,让我们通过更多实例来一探究竟。
解锁多元创作场景
马年新春贺卡
先来一个简单的测试:
生成一张含有“新春快乐”、“马年大吉·万事如意”以及“二〇二六”的马年贺卡。

Uni-1能够完美呈现中文文字内容,并与传统剪纸风格的图案相得益彰。相比之下,GPT Image 1.5出现了文本混乱的问题,而Nano Banana Pro的文字渲染也存在明显瑕疵。
中文文字生成一直是图像模型面临的一大挑战——Uni-1在这方面的表现可圈可点。
多参考图场景合成
当给定五张参考图——两只猫、两位男士以及Luma AI的logo时,要求合成一个会议场景。
一只猫在展示幻灯片,另一只则在一旁聆听,同时结合了真人照片和公司标志。

Uni-1能够精准捕捉每一张参考图片中的特征,并将其合理地整合进同一场景中。
相比之下,GPT Image 1.5只是直接将参考图贴到幻灯片上,而Nano Banana Pro则未能实现任何参考图的融合。
信息图提取
接下来是一个提取信息的任务——从一张地铁站公益海报中提取可用的信息图表。

这项任务考验的是模型的理解与生成能力:
首先需要理解实拍海报中的全部内容层次,然后重新绘制清晰的信息图。
Uni-1成功地还原了完整的海报布局、所有文字以及正确的配色和纵横比。而GPT Image 1.5的部分文本颜色错误且底部文字缺失,Nano Banana Pro的底部同样没有文字,并且蜜蜂的logo也存在问题。
草稿转漫画
然后我们来看看生成能力——将一张粗糙的草稿(一只猫站在书架上,旁边有人说“Hey! Get down from there!”)转化为专业级漫画。

Uni-1能精准地将草稿意图转化为专业的分格构图和对话气泡位置及方向,并保留所有细节。无论是猫耳、尾巴翘起的姿势还是卷烟缸都被完美再现,甚至手机屏幕上显示着911号码。
一个角色一生的故事板
接下来是一个展示Uni-1强大能力的最佳示例之一。
要求生成六帧故事板来描绘同一个角色从童年到老年的钢琴人生,从男孩成长为家庭成员的全体合影。

整个过程中,人物身份保持一致——同一张脸、同样的透视和画风,仅随时间变化背景。这种跨幅的角色一致性与叙事能力是当前图像模型面临的重大挑战之一。
UV贴图生成
当给定一个人物从不同角度拍摄的照片(正面、左侧、右侧),Uni-1能够生成一张标准的面部拓扑UV贴图。

UV贴图对于3D建模至关重要,需要对齐面部特征,并保持左右对称和肤色一致性。
Uni-1在此方面明显优于GPT Image 1.5和Nano Banana Pro:
GPT Image 1.5的正脸与侧面贴图不一致,而Nano Banana Pro则未能生成符合标准布局的结果。
成功完成这种专业级任务说明Uni-1不仅仅擅长“画得好”,更是对三维空间结构具有深入理解。
不到15人,凭什么?
那么问题来了:这样通常只能在大型公司中见到的成果是如何从一个不到15人的团队手中诞生的?
答案或许就在这个精锐小队的两位负责人身上。
一位是清华大学本科和斯坦福大学博士毕业的宋佳铭。
他最为人所知的是发明了DDIM(Denoising Diffusion Implicit Models)这一技术,几乎所有基于扩散模型的图像生成工具都离不开这项加速技术的支持。
这篇论文至今被引用超过万次,并获得了ICLR 2022杰出论文奖。

另一位负责人沈博魁同样毕业于斯坦福大学本科和博士项目。
其研究成果在CVPR 2018年会议上荣获最佳论文奖,这是计算机视觉领域最为重要的会议之一。此外他还获得了RSS 2022最佳学生论文决赛入围的荣誉。

这两位华人学者联合领导了一个小型但高效的团队,选择了与大型公司不同的发展路径:
不是将理解和生成分别对待,而是用一个统一模型来实现两者。
Uni-1的核心理念,正如Luma所说的那样,“给逻辑大脑赋予心灵之眼”。
传统方法中,图像理解(描述图片内容、物体检测)和图像生成(文本转图、图像编辑)被视为两个独立系统。但Uni-1采用了decoder-only的自回归Transformer架构,将文本与图像表示在一个交错序列中,即为输入也是输出。
这意味着无需分别训练“理解模块”和“生成模块”,而是在一个统一框架内同时处理时间、空间及逻辑问题。
更有趣的是,Luma发现通过生成任务的训练可以显著提升模型的理解能力。也就是说,在学会画图之后,“看懂”的能力也得到了增强——这一现象与人类的认知模式高度一致。
在推理式生成任务中,Uni-1会在合成图像之前进行结构化内部推理:先分解指令、规划构图再输出结果。
这种“先思考后创作”的能力使它在RISEBench上的性能达到了世界顶尖水平——该基准测试评估了时间推理、因果关系、空间和逻辑推理的能力。
在开放词汇密集检测(ODinW-13)基准上,Uni-1同样展示了强大的竞争力。要知道这个领域传统上是由专门理解模型主导的。一个统一模型能在这些任务中与专业的理解模型比肩,本身就是一个重要的信号。

从更广阔的AI行业发展角度来看,有两点值得注意:
为什么这很重要?
第一,统一模型可能是下一代视觉AI的发展方向。
当理解和生成不再各自独立而是同一个模型的两面时,许多以往需要复杂流程的任务可以由一个模型优雅地完成。Uni-1已经在这些任务上展示了其独特优势。
第二,顶尖的AI研究不一定依赖庞大的团队规模和无尽的计算资源。
一支仅十几人的华人科研小组,在被Google与OpenAI主导的竞争赛道中取得了世界级的成绩。这再次证明:在正确的技术路径下,优秀的人才密度可以弥补资源上的不足。
Luma表示,Uni-1只是一个开始。接下来这个统一框架将扩展到视频、语音和交互式世界模拟等领域——最终目标是构建一个能够“看、说、推理、想象”的多模态系统。
从一个小团队出发,这样的愿景或许并不遥远。
从一个不到15人的华人团队开始,这个目标或许并不遥远。
Luma AI官方博客:https://lumalabs.ai/uni-1
