最近,大家的朋友圈是否被GPT-Image-2刷屏了?
这款新工具能够精准渲染文字信息图,并实现复杂布局和美学界面设计。
它甚至可以近乎一比一地还原社交媒体截图与高考试卷内容,彻底颠覆了传统的文本生成图像的技术瓶颈。
人们的第一反应往往是:设计师可能要失业了吧……
兔展智能最近推出了一项重大更新——UniWorld-V2.5,它在某些方面直接复制了GPT-Image-2的优秀案例。
我们可以直接看看生成效果对比:
提示词为“创建一个篆书碑刻拓片,内容包括兔展智能首席科学家袁粒领导的研究团队”。
△由GPT-Image-2生成
△使用Nano-Banana-2生成的结果
△UniWorld-V2.5的生成效果
在信息图、密集文字和图文交错等复杂场景中,UniWorld-V2.5的表现已经与GPT-Image-2持平,并且超过了其他国内外主流文生图模型。
特别值得注意的是,相比之前的繁琐提示词输入要求,UniWorld-V2.5只需要一句简短的描述即可生成复杂的视觉信息图表。
接下来让我们一起见证更多奇迹的发生:
高考数学试题:最难中文测试通过了
过去,AI生图工具在面对结构化排版、高密度中文和复杂多样的数学公式时常常表现不佳。
几乎所有文本生成图像的模型在这个场景中都显得力不从心。
但UniWorld-V2.5却能轻松应对这种挑战,称其为基本功也毫不夸张。
提示词:制作一张2025年的高考数学理科试卷
△由UniWorld-V2.5生成的2025年高考数学理科试卷
该图不仅包括选择题、填空题、解答题,还涵盖了函数图像和几何证明等内容。
这种复杂度下,已经不仅仅是模仿的问题了,而是可以拿来直接让学生考试的程度。
类似的中文排布密集场景,“简历生成”效果同样出色:
△马斯克个人中文简历(由UniWorld-V2.5创建)
以前主流模型在处理这种文字密集和复杂布局的任务时,几乎无法做到这一点。
在这个领域内,UniWorld-V2.5可以说是实现了降维打击。
GUI设计:超真实的APP界面生成
如果想要AI创建一个具有真实感的社交媒体应用界面?
传统模型往往布局混乱或文字不连贯。
UniWorld-V2.5则可以一句话完成一套完整、逼真的社交软件界面和布局设计。
主播信息、商品弹窗、价格标签、实时评论等细节都十分真实,甚至令人细思极恐。
△展示马斯克直播售卖茅台的场景(由UniWorld-V2.5生成)
△模拟直播带货界面的效果图
咖啡馆信息、顾客评价、推荐指数等元素一应俱全,风格精准。
△小红书上海咖啡店探店的虚拟界面(由UniWorld-V2.5生成)
热点新闻、标签、按钮等功能也都能直接生成,仿佛一张真实的截图。
1、抖音直播带货
△微博热搜页面
这哪里是“生图”,简直就是“赛博截图”级别的效果。
由此可以看出,UniWorld-V2.5理解的不是简单的像素构成,而是产品逻辑和用户场景本身。
2、小红书探店
InfoGraph信息图表:AI生图的终极考验
高密度复杂的信息图一直被公认为是AI图像生成技术中的难点区域。
3、微博热搜
这种类型的任务需要模型同时处理数据、图表、文字排版以及逻辑关系,难度极大。
让UniWorld-V2.5尝试展示一下它的能力:
人体前侧解剖系统全图
肌肉、骨骼和内脏等细节都清晰可见,并且中英文混排,数据图表严谨准确。
它不仅仅是“画”一张看起来像的图,而是通过理解和构建一个完整的信息体系来完成任务。
这种能力标志着模型从一个简单的图像生成工具转变为能够思考和设计的视觉系统。
海报与设计:检验商业级制作水平
让它尝试绘制一张Air Jordan 1产品宣传海报。
△展示Air Jordan 1的产品宣传图(由UniWorld-V2.5生成)
该作品不仅包括了鞋子的图片,还包括了设计元素和文案内容。
同样制作了一张小红书推荐页面的效果图:
△小红书上的产品介绍页面

太阳系全貌信息图:

绿叶解剖信息图:

这样的复杂度下,已经不仅仅是简单的图像生成问题了,而是商业级的视觉创意任务。
值得一提的是,UniWorld系列从发布至今的历史时间线:
UniWorld V1比Nano Banana早三个月推出,并且同步开源;
UniWorld V2在Nano Banana Pro发布之前就已经处于行业领先地位;
UniWorld V2.5,则是这条技术路线上的最新成果,突破了高密度文字、信息图、图文交错和结构化生成等一系列难题。
为了应对高度结构化的任务,团队将超过80%的token预算用于意图理解、推理与布局规划。
这种做法从源头上保证了图像的质量,并体现了统一多模态范式的优势。
其中,兔展智能首席科学家袁粒及其博士生晏志远等人深度参与了核心能力的设计和实现工作。
兔展智能一直致力于让人类叙事更加生动高效,积极投身于前沿视觉技术的研发之中。
预计不久之后还将推出基于世界模型的视觉空间智能路线版本。
国产AI站在世界的舞台上等你来体验
AI生图领域的上限远超我们的想象。
兔展智能
UniWorld-V2.5的发布证明了国产模型在中文语境和复杂逻辑场景下已经具备了与世界顶级技术竞争的能力。
一句话出图的能力最初由GPT-Image-2引发讨论,但现在这项功能在国内落地并以自主可控的形式实现。
品牌方、内容平台、电商商家、医疗科普机构和教育出版领域等需要大规模生成视觉内容的场景,过去需要设计团队数小时的工作现在只需一句自然语言描述即可完成。
更重要的是这项创新所带来的意义:
在多模态图像生成赛道上,中国不再只能跟随国际步伐前进。
一个从北京大学走出、深耕视觉大模型四年的团队交出了令人满意的答卷。
现在这款强大的“怪兽”级模型已经开放免费体验了!
- 独家体验入口:https://uniworld.rabbitpre.com/(手速要快哦)
- 开源第一:其开源的Open-Sora Plan是全球最早的开源视频生成模型之一,曾连续多日登顶GitHub全球趋势榜榜首,单模型超过2600万次下载,2024年视觉大模型代码引用量全球第一,被字节、腾讯、华为等大厂广泛采用;
- 架构创新:UniWorld系列是国内最早实现“理解、生成、编辑”统一架构的视觉空间智能模型。其中,UniWorld-V1早于Nano Banana三个月推出,UniWorld-V2在权威评测(GEdit-Bench)中综合性能超越OpenAI的GPT-Image-1,多项关键指标亦一度优于谷歌的Nano Banana系列模型,并入选2025年西丽湖论坛深圳市七大科技关键成果、广东省人工智能与机器人科技进步一等奖第一名;
- 国际领跑:其推出的Video LLaVA模型成为Google Gemini Pro技术报告中作为对比基准的视觉理解模型,标志着技术获得国际顶级认可。LLaVA-CoT模型则在行业内首次提出视觉慢思考架构,让模型能够进行自主、系统化地多阶段推理,突破了传统视觉模型单步响应的局限,该研究成果被ICCV 2025会议收录(计算机视觉领域的三大顶会之一),获得同行评审的权威认可;
- 国产生态:与华为昇腾深度合作,是昇腾910C芯片全球首个大规模用户,打造了行业最早100%基于昇腾架构的视觉生成模型Open-Sora Plan V1.5,突破了算子适配、大规模训练等一系列“卡脖子”问题。这不仅是一次技术胜利,更是为中国AI基础设施的自主可控,提供了一个完整的可行范本。
值得⼀提的,是UniWorld系列发布的历史时间线:
- UniWorld V1⽐Nano Banana早发布整整3个⽉,且同步开源;
- UniWorld V2在Nano Banana Pro发布之前,已是⾏业第⼀;
- UniWorld V2.5,是这条路上的最新⼀站,突破了高密集文字、信息图、图文交错、结构化生成等一系列领域难题。
面向高度结构化且依赖复杂世界知识推理的生成任务,传统的一句话出图范式已难以支撑。
区别于传统prompt-to-image的范式,团队将超过80%的token预算用于意图理解、推理与布局规划,相当于引入资深的“总设计师”来全程指挥和全局控制。
这从源头上保证了生成的质量,也体现了理解与生成统一的多模态范式优势。
其中,兔展智能首席科学家、北京大学袁粒老师,及其博士生晏志远等人,深度参与了核心能力的设计与实现,是V2.5关键突破的重要贡献者。
兔展智能一直围绕着让人类叙事更生动高效的使命,投入到最前沿的视觉智能创新。
据悉,兔展智能也将在不久之后,推出视觉空间智能路线为基础的世界模型
站在世界舞台的国产模型,等你免费体验
AI生图的上限,远比我们想象的要高。
UniWorld-V2.5的发布,用实力证明了在中文语境和超复杂逻辑场景下,国产模型已经具备了站在世界舞台中央的底气。
设计行业的“一句话出图”,过去是由GPT-Image-2引发的焦虑。
现在,这个能力在国内坚实落地了,而且是以自主可控、可微调、国产算力的形式落地的。
品牌方、内容平台、电商商家、医疗科普机构、教育出版机构,任何需要大规模生产视觉内容的场景,过去需要设计团队花数小时完成的工作,现在仅需要一句自然语言。
更重要的是这件事的示范意义:
在多模态图像生成这条赛道上,中国不再只能是跟跑。
一个从北京大学走出来、深耕视觉大模型4年的团队,今天交出了这份答卷。
那么,最硬核的来了:
这么强的“怪兽”模型,现在开放免费体验了!
独家体验传送门,手慢无
UniWorld-V2.5体验入口:https://uniworld.rabbitpre.com/
