除了香蕉和GPT Image之外，一支华人团队开发的图像生成模型Uni-1.1在国际上崭露头角。

思邈 2026-05-06 17:24:27 量子位

在短短40小时内，这个小型团队完成了广告公司一年的工作量。

这支不到15人的团队，在全球图像生成技术领域迅速崛起，跃居第三位。

具体而言，他们的模型UNI-1.1和UNI-1.1-Max直接攀升至全球前三的位置，超越了Microsoft、Reve和xAI等竞争对手，仅次于OpenAI与Google。

这个排名通过用户盲测投票得出的ELO评分系统确定，确保了公平性和真实性。

这表明Uni-1.1在实际应用场景中的图像质量和审美已经达到了行业顶尖水平，仅次于OpenAI和Google。

除了性能出色外，Luma AI还公布了两项重要的技术指标：

△Arena.ai图片生成榜单

成本大幅降低：2K分辨率单张图片的最低费用为0.0404美元（约合人民币0.275元），相比Nano Banana模型价格减半；

快速落地应用：阿迪达斯、马自达等广告巨头已经采用了Luma Agents，并取得了显著成效。

特别值得注意的是，一个原本预算为1500万美元且需耗时一年的广告项目，在使用Uni-1.1后仅40小时即完成，成本不足2万美元，还实现了多国版本扩展和内部审核通过。

除了画图的质量外，Luma AI还在模型架构上做出了创新。

传统图像生成模式中，用户输入提示词直接获得图片结果，如果不满意则重新调整提示再试一次。而Uni-1.1不同，它将理解和生成功能整合到了同一个模型内。
这种设计确保了在像素生成前就已经解决了构图、空间和品牌一致性等问题，并通过API端点的形式体现出来：

Reasoning端点：分析指令、规划布局、固定角色与品牌的约束条件；

Generation端点：基于推理结果完成图像渲染。

这种架构改进让创意工作流程变得更加可控，使得企业能够更好地利用AI工具进行品牌宣传和市场推广。

目前，Uni-1.1已经被阿迪达斯、马自达以及阳狮集团等知名企业采纳，并应用于从策略到生产的整个链条中。

与此同时，Envato等创作者平台也集成了这一API，为用户提供更丰富的创作工具。

Luma AI的创始人兼CEO Amit Jain认为，这种模式是像素中的智能体现——用语言思考，用图像表达与呈现。

根据已有的应用案例，Uni-1.1 API在以下三个方面已经显示出明确的价值：

一是跨国广告推广：传统方法需要重新拍摄、编辑和审查，而Luma AI的解决方案则可以迅速生成符合各地特色的高质量图片；

二是电商产品可视化：通过实时生成个性化的产品展示图来提升用户体验；

三是品牌活动策划：结合多张参考图像及Logo进行创意融合。

此外，Uni-1.1还支持中文渲染、UV贴图等多种功能，在行业内引起了广泛关注。

团队成员包括两位华人学者宋佳铭和沈博魁，他们的研究为Luma AI的技术突破奠定了坚实的基础。
宋佳铭博士的DDIM模型是扩散模型采样加速的关键技术之一；而沈博魁则在计算机视觉领域屡获殊荣。

这样的团队配置恰好与Uni-1.1的设计理念相吻合，使得模型能够更好地理解并创造高质量图像内容。

此外，Luma AI在价格上也极具竞争力，比同类产品低了近一半，并且延迟时间更短。

随着技术的进一步发展和完善，Uni-1.1有望在未来扩展到视频、语音乃至交互式世界模拟等领域。

1、广告与营销侧

这种“看说推想”的连续流模式将为人工智能的应用带来更多可能性。CEO Amit Jain对此寄予厚望，并表示这将是未来AI发展的关键方向之一。

目前，Luma AI已经开放了API接口和SDK文档供开发者使用。

有关Uni-1.1的更多信息可以在其官网获取。对于有兴趣探索这一领域的用户来说，这是一个不可多得的机会。

Adidas、Mazda：

把Uni-1.1接入品牌内容生产流水线，用于跨市场视觉素材的批量生成与一致性维护。

2、素材与开发者生态侧

Envato、Comfy、Runware、Flora、Krea、Magnific、Fal、LovArt等创作者平台与AI工作流公司，已基于Uni-1.1 API发布了集成。

Luma创始人兼CEO Amit Jain把这件事概括为：

用语言思考，用像素想象与渲染，这就是像素中的智能（intelligence in pixels）。

三个最先被产业验证的应用方向

从已落地的客户案例倒推，Uni-1.1 API在以下三个方向上，已经有了清晰的ROI模型：

1. 广告本地化

一支在纽约拍的广告主视觉，要在东京、利雅得、巴黎、上海各发一版。

传统流程要重拍、重P、重做合规审查，单条预算从几万到几十万美元不等。

Uni-1.1单次API调用支持最多9张参考图联合输入，把品牌主形象、文字、产品、地域元素作为模型层级的硬约束传入，多语言渲染（含中文、阿拉伯文等非拉丁字符）一次到位。

Publicis案例里40小时 vs 一年的差距，就是从这里挤出来的。

2. 电商与产品可视化

电商场景的痛点是量大、SKU杂、还要保证产品本体一致。

开发者可以把产品照、面料样、场景参考一并喂给API，单图成本最低$0.0404，做到按页/按用户/按地域实时生成产品图，而不是一次拍完反复套模板。

Luma官方把这种用法叫作reference-grounded brand workflows at scale，即参考图作为模型级约束，把视觉身份锁在所有channel里。

3. 角色与IP一致性

游戏美宣、漫画、影视前期、虚拟代言——

这些场景需要同一个角色穿越不同场景、姿态、光线，但身份信息必须稳如老狗。

Uni-1.1的多参考图机制+ 句子级编辑（按句改图，默认保留其他元素），让这件事可以做成确定性流水线，而不是反复抽卡赌运气。

能力速览：3个例子，看懂边界

单图直出一整张「2036年新闻网站」

Prompt：Generate a news website page from the year 2036, featuring relevant news stories and ad blocks designed not for humans, but for AI agents who have evolved into distinct personalities. Both the website and all the advertisements featured on it should be in English.

（生成一个来自2036年的新闻网站页面，其中包含相关的新闻，以及专门为Agent设计的广告模块。这些Agent已经进化出各自独特的“人格”。整个网站内容以及所有广告都必须使用英文呈现。）

一张图测出一个模型的「真实成色」——

Uni-1.1单次推理生成了一整页可读的新闻网站：

包括报头、栏目导航、突发新闻条、头条主图、多栏正文、署名/时间戳、面向AI受众的横幅广告位、页脚链接，十几类版式元素同框，每一类的英文文本都是真实可读的。

而不是图像模型常见的「远看OK、但近看全是乱码」。

这样的复杂版面+长文本任务，在传统pipeline里要由文本编辑、OCR一致性、版面结构多个模块联合完成，Uni-1.1把它们捏在了一次推理里。

多参考图+品牌logo+真人融合

两只猫+一位真人+Luma logo，4张参考图融合成一个有逻辑的会议场景。

GPT Image 1.5把参考图当贴图直接嵌入了PPT区域，Uni-1在语义层面完成了融合，这是品牌campaign里产品+代言人+场景+logo组合最常见的需求。

多轮

去掉前面那只熊→加一个黑色布帘→改成黑白照片，三轮指令叠加，主体一致性和空间关系在每一轮都没崩。

这是按句编辑在生产环境里最值钱的能力，产品经理可以像编辑文档一样迭代视觉。

（注：Uni-1.1还支持中文文字渲染、UV贴图、草稿转漫画、风格迁移、跨年龄角色故事板等更多场景，本文不再展开。）

价格：把图像生成的边际成本打到地板

API直接对企业敞开了两档计费：

Build计划（按量计费）

Scale计划（预留吞吐，最低8单元起订）

Luma的官方说法是，价格与延迟均不到同类模型的一半——

这一点在第三方榜单和早期接入客户的成本对比里已被实证。

SDK覆盖Python/JavaScript/TypeScript/Go/CLI，从platform.lumalabs.ai拿key即可接入。

团队不到15人，干到全球第三：DDIM之父&CVPR最佳论文作者带队

Uni-1的核心研究团队不到15人，由两位华人学者领衔：

宋佳铭（Jiaming Song）：清华本科、斯坦福博士。代表作DDIM（Denoising Diffusion Implicit Models）是扩散模型采样加速的奠基工作之一，被Stable Diffusion、DALL·E等系统广泛采用；
沈博魁（William Shen）：斯坦福本科及博士。代表作获CVPR 2018 Best Paper Award和RSS 2022 Best Student Paper Award。

一位深耕“生成”、一位精于“理解”。

这种互补的阵容，恰好对应了Uni-1.1“脑手合一”的架构，让模型在落笔画图之前，先学会像人类一样思考构图和品牌逻辑。

在Google、OpenAI主导的图像赛道里，一支不到15人的团队，把API定价压到同行一半，还顺便在Arena.ai上完成了对一众大厂的“越级反杀”，是这次发布另一个值得记一笔的产业信号。

API发布前后，Luma团队在X平台上，贴出了三条短评：

Luma首席科学家宋佳铭说：

我们用的算力规模可能会让你感到意外。为我们团队感到骄傲。

（稍微更详细的报告，很快会发布。）

Uni-1研究负责人沈博魁（William Shen）说：

UNI-1的首发，让我们成了除OpenAI与Gemini App之外排名最高的实验室。对一个第一代统一图像模型来说，这个起点不算差。顺带一提，这次榜单更新里，GPT Image 2的ELO比之前掉了110分，不太确定中间发生了什么……

而Luma模型产品lead Barkley Dai说：

Luma现在是Arena.ai第三名了。GPT-Image 2级别的智能，Midjourney级别的审美，价格只有Nano Banana的零头。

两条背后的潜台词是，Uni-1.1是Luma统一智能路线的第一代产品；

而它是以第一代的身份，直接干到Arena.ai第三名，把价格压到同类一半。

下一步：从图像到“看说推想”的连续流

按照Luma的路线图，Uni-1.1只是统一智能的第一代落地形态。

下一步，他们会把这套统一框架从静态图像扩展到视频、语音和交互式世界模拟——

目标是构建一个能在连续流里看、说、推理、想象的多模态系统。

其CEO Amit Jain对此的总结是：

统一智能的真正价值，不是更好看的图，而是模型既能理解又能生成之后，AI第一次真正具备了端到端完成创意工作的能力。

API入口：lumalabs.ai/api
官方公告：lumalabs.ai/news/uni-1-1-api
接入文档：platform.lumalabs.ai
SDK：Python/JavaScript/TypeScript/Go/CLI

除了香蕉和GPT Image之外，一支华人团队开发的图像生成模型Uni-1.1在国际上崭露头角。

思邈 2026-05-06 17:24:27 量子位

在短短40小时内，这个小型团队完成了广告公司一年的工作量。

这支不到15人的团队，在全球图像生成技术领域迅速崛起，跃居第三位。

具体而言，他们的模型UNI-1.1和UNI-1.1-Max直接攀升至全球前三的位置，超越了Microsoft、Reve和xAI等竞争对手，仅次于OpenAI与Google。

这个排名通过用户盲测投票得出的ELO评分系统确定，确保了公平性和真实性。

这表明Uni-1.1在实际应用场景中的图像质量和审美已经达到了行业顶尖水平，仅次于OpenAI和Google。

除了性能出色外，Luma AI还公布了两项重要的技术指标：

△Arena.ai图片生成榜单

成本大幅降低：2K分辨率单张图片的最低费用为0.0404美元（约合人民币0.275元），相比Nano Banana模型价格减半；

快速落地应用：阿迪达斯、马自达等广告巨头已经采用了Luma Agents，并取得了显著成效。

除了画图的质量外，Luma AI还在模型架构上做出了创新。

传统图像生成模式中，用户输入提示词直接获得图片结果，如果不满意则重新调整提示再试一次。而Uni-1.1不同，它将理解和生成功能整合到了同一个模型内。
这种设计确保了在像素生成前就已经解决了构图、空间和品牌一致性等问题，并通过API端点的形式体现出来：

Reasoning端点：分析指令、规划布局、固定角色与品牌的约束条件；

Generation端点：基于推理结果完成图像渲染。

这种架构改进让创意工作流程变得更加可控，使得企业能够更好地利用AI工具进行品牌宣传和市场推广。

目前，Uni-1.1已经被阿迪达斯、马自达以及阳狮集团等知名企业采纳，并应用于从策略到生产的整个链条中。

与此同时，Envato等创作者平台也集成了这一API，为用户提供更丰富的创作工具。

Luma AI的创始人兼CEO Amit Jain认为，这种模式是像素中的智能体现——用语言思考，用图像表达与呈现。

根据已有的应用案例，Uni-1.1 API在以下三个方面已经显示出明确的价值：

一是跨国广告推广：传统方法需要重新拍摄、编辑和审查，而Luma AI的解决方案则可以迅速生成符合各地特色的高质量图片；

二是电商产品可视化：通过实时生成个性化的产品展示图来提升用户体验；

三是品牌活动策划：结合多张参考图像及Logo进行创意融合。

此外，Uni-1.1还支持中文渲染、UV贴图等多种功能，在行业内引起了广泛关注。

团队成员包括两位华人学者宋佳铭和沈博魁，他们的研究为Luma AI的技术突破奠定了坚实的基础。
宋佳铭博士的DDIM模型是扩散模型采样加速的关键技术之一；而沈博魁则在计算机视觉领域屡获殊荣。

这样的团队配置恰好与Uni-1.1的设计理念相吻合，使得模型能够更好地理解并创造高质量图像内容。

此外，Luma AI在价格上也极具竞争力，比同类产品低了近一半，并且延迟时间更短。

随着技术的进一步发展和完善，Uni-1.1有望在未来扩展到视频、语音乃至交互式世界模拟等领域。

1、广告与营销侧

这种“看说推想”的连续流模式将为人工智能的应用带来更多可能性。CEO Amit Jain对此寄予厚望，并表示这将是未来AI发展的关键方向之一。

目前，Luma AI已经开放了API接口和SDK文档供开发者使用。

有关Uni-1.1的更多信息可以在其官网获取。对于有兴趣探索这一领域的用户来说，这是一个不可多得的机会。

Adidas、Mazda：

把Uni-1.1接入品牌内容生产流水线，用于跨市场视觉素材的批量生成与一致性维护。

2、素材与开发者生态侧

Envato、Comfy、Runware、Flora、Krea、Magnific、Fal、LovArt等创作者平台与AI工作流公司，已基于Uni-1.1 API发布了集成。

Luma创始人兼CEO Amit Jain把这件事概括为：

用语言思考，用像素想象与渲染，这就是像素中的智能（intelligence in pixels）。

三个最先被产业验证的应用方向

从已落地的客户案例倒推，Uni-1.1 API在以下三个方向上，已经有了清晰的ROI模型：

1. 广告本地化

一支在纽约拍的广告主视觉，要在东京、利雅得、巴黎、上海各发一版。

传统流程要重拍、重P、重做合规审查，单条预算从几万到几十万美元不等。

Publicis案例里40小时 vs 一年的差距，就是从这里挤出来的。

2. 电商与产品可视化

电商场景的痛点是量大、SKU杂、还要保证产品本体一致。

开发者可以把产品照、面料样、场景参考一并喂给API，单图成本最低$0.0404，做到按页/按用户/按地域实时生成产品图，而不是一次拍完反复套模板。

Luma官方把这种用法叫作reference-grounded brand workflows at scale，即参考图作为模型级约束，把视觉身份锁在所有channel里。

3. 角色与IP一致性

游戏美宣、漫画、影视前期、虚拟代言——

这些场景需要同一个角色穿越不同场景、姿态、光线，但身份信息必须稳如老狗。

Uni-1.1的多参考图机制+ 句子级编辑（按句改图，默认保留其他元素），让这件事可以做成确定性流水线，而不是反复抽卡赌运气。

能力速览：3个例子，看懂边界

单图直出一整张「2036年新闻网站」

一张图测出一个模型的「真实成色」——

Uni-1.1单次推理生成了一整页可读的新闻网站：

而不是图像模型常见的「远看OK、但近看全是乱码」。

这样的复杂版面+长文本任务，在传统pipeline里要由文本编辑、OCR一致性、版面结构多个模块联合完成，Uni-1.1把它们捏在了一次推理里。

多参考图+品牌logo+真人融合

两只猫+一位真人+Luma logo，4张参考图融合成一个有逻辑的会议场景。

GPT Image 1.5把参考图当贴图直接嵌入了PPT区域，Uni-1在语义层面完成了融合，这是品牌campaign里产品+代言人+场景+logo组合最常见的需求。

多轮

去掉前面那只熊→加一个黑色布帘→改成黑白照片，三轮指令叠加，主体一致性和空间关系在每一轮都没崩。

这是按句编辑在生产环境里最值钱的能力，产品经理可以像编辑文档一样迭代视觉。

（注：Uni-1.1还支持中文文字渲染、UV贴图、草稿转漫画、风格迁移、跨年龄角色故事板等更多场景，本文不再展开。）

价格：把图像生成的边际成本打到地板

API直接对企业敞开了两档计费：

Build计划（按量计费）

Scale计划（预留吞吐，最低8单元起订）

Luma的官方说法是，价格与延迟均不到同类模型的一半——

这一点在第三方榜单和早期接入客户的成本对比里已被实证。

SDK覆盖Python/JavaScript/TypeScript/Go/CLI，从platform.lumalabs.ai拿key即可接入。

团队不到15人，干到全球第三：DDIM之父&CVPR最佳论文作者带队

Uni-1的核心研究团队不到15人，由两位华人学者领衔：

宋佳铭（Jiaming Song）：清华本科、斯坦福博士。代表作DDIM（Denoising Diffusion Implicit Models）是扩散模型采样加速的奠基工作之一，被Stable Diffusion、DALL·E等系统广泛采用；
沈博魁（William Shen）：斯坦福本科及博士。代表作获CVPR 2018 Best Paper Award和RSS 2022 Best Student Paper Award。

一位深耕“生成”、一位精于“理解”。

这种互补的阵容，恰好对应了Uni-1.1“脑手合一”的架构，让模型在落笔画图之前，先学会像人类一样思考构图和品牌逻辑。

API发布前后，Luma团队在X平台上，贴出了三条短评：

Luma首席科学家宋佳铭说：

我们用的算力规模可能会让你感到意外。为我们团队感到骄傲。

（稍微更详细的报告，很快会发布。）

Uni-1研究负责人沈博魁（William Shen）说：

UNI-1的首发，让我们成了除OpenAI与Gemini App之外排名最高的实验室。对一个第一代统一图像模型来说，这个起点不算差。顺带一提，这次榜单更新里，GPT Image 2的ELO比之前掉了110分，不太确定中间发生了什么……

而Luma模型产品lead Barkley Dai说：

Luma现在是Arena.ai第三名了。GPT-Image 2级别的智能，Midjourney级别的审美，价格只有Nano Banana的零头。

两条背后的潜台词是，Uni-1.1是Luma统一智能路线的第一代产品；

而它是以第一代的身份，直接干到Arena.ai第三名，把价格压到同类一半。

下一步：从图像到“看说推想”的连续流

按照Luma的路线图，Uni-1.1只是统一智能的第一代落地形态。

下一步，他们会把这套统一框架从静态图像扩展到视频、语音和交互式世界模拟——

目标是构建一个能在连续流里看、说、推理、想象的多模态系统。

其CEO Amit Jain对此的总结是：

统一智能的真正价值，不是更好看的图，而是模型既能理解又能生成之后，AI第一次真正具备了端到端完成创意工作的能力。

API入口：lumalabs.ai/api
官方公告：lumalabs.ai/news/uni-1-1-api
接入文档：platform.lumalabs.ai
SDK：Python/JavaScript/TypeScript/Go/CLI

华人15人团队开辟新路径：超越香蕉与GPT Image的AI图像生成新秀

除了香蕉和GPT Image之外，一支华人团队开发的图像生成模型Uni-1.1在国际上崭露头角。

这种架构改进让创意工作流程变得更加可控，使得企业能够更好地利用AI工具进行品牌宣传和市场推广。

此外，Luma AI在价格上也极具竞争力，比同类产品低了近一半，并且延迟时间更短。

三个最先被产业验证的应用方向

能力速览：3个例子，看懂边界

价格：把图像生成的边际成本打到地板

团队不到15人，干到全球第三：DDIM之父&CVPR最佳论文作者带队

下一步：从图像到“看说推想”的连续流

华人15人团队开辟新路径：超越香蕉与GPT Image的AI图像生成新秀

除了香蕉和GPT Image之外，一支华人团队开发的图像生成模型Uni-1.1在国际上崭露头角。

这种架构改进让创意工作流程变得更加可控，使得企业能够更好地利用AI工具进行品牌宣传和市场推广。

此外，Luma AI在价格上也极具竞争力，比同类产品低了近一半，并且延迟时间更短。

三个最先被产业验证的应用方向

能力速览：3个例子，看懂边界

价格：把图像生成的边际成本打到地板

团队不到15人，干到全球第三：DDIM之父&CVPR最佳论文作者带队

下一步：从图像到“看说推想”的连续流

相关文章

相关文章