阿里巴巴近期推出了一款名为Wan2.7-Image的全新图像处理模型,集成了文本到图像生成、多图批量制作、指令驱动编辑和交互式修改等多功能于一体。
新发布的这款软件具有四大核心功能:个性化定制面部特征、“调色盘”色彩控制、高质量文字渲染以及精准区域选择性编辑。
在测试过程中,我们着重考察了模型的个性面孔生成、互动编辑及跨场景人物一致性三个关键领域的能力。
通过使用基础指令词“年轻女性半身像,电影质感光影,高清细节,真实皮肤”,该模型能够一次性输出四张各不相同的肖像画。每幅图在面部轮廓和细微特征上都有独特之处,并且背景光线处理得当,整体效果非常逼真。
当加入特定脸型要求后,Wan2.7-Image的响应也较为准确,但某些特殊面部结构如方脸、长脸等的精确度尚需进一步提升。此外,在限定脸形后的生成图片中,人物面部比例有所增大,失去了原有人像的平衡感。

除了人脸生成外,Wan2.7-Image还展示了一项重要的交互编辑功能:在保持场景背景不变的情况下,可以自由调整人物位置和大小。例如,在《唐顿庄园》电影图片中,模型能够顺利完成两位角色站位互换的任务。

在多主体一致性测试环节,以参考图像为基础,模型成功生成了咖啡馆、户外街拍及正式会议室三个不同场景下的十二张照片,并且在所有图像中均能保持人物特征的高度一致性和环境氛围的适宜性。

针对Wan2.7-Image-pro版本,阿里云进一步增强了其构图稳定性和语义理解能力。
根据官方盲测结果显示,在国内同类产品中,Wan2.7-Image的各项指标均已处于领先地位,并且接近国际顶尖水平的Nano Banana Pro模型。

目前,这两款图像处理工具已经在阿里云百炼平台上开放了API接口供用户调用,同时也可在万相官网直接体验其功能。
在实际应用层面,Wan2.7-Image不仅能够生成个性化的人脸肖像和多样化的产品展示图,还支持在电商广告、短剧制作及社交媒体内容创作等多种场景中灵活运用。这些创新的编辑工具正在帮助图像模型从简单的辅助性创意手段转变为高效的生产力工具。
基于“调色盘”功能,用户可以轻松提取参考图片中的颜色组合,并据此生成全新的同色调画面。无论需要的是梵高的黄色系还是毕加索的蓝色调,都可以通过该模型轻松实现。
在文字渲染方面,Wan2.7-Image支持多达十二种语言的文字输入,能够处理长度达三千token的长文本信息,并且输出质量可达到印刷标准。这一特性让其在制作知识卡片、教育插画等领域中展现出了极高的实用性。
新模型的一个显著特点是它能够在不依赖详细指令的情况下生成风格统一但人物各异的图像,解决了以往常见的批量同脸问题。此外,“千人千面”的捏脸功能让用户能够自由定制五官和面部轮廓细节,从鹅蛋脸到圆脸、方脸等多样的脸部形态选择。
在交互式编辑测试中,模型展示了强大的区域精准操作能力:用户可以框选任意区域进行调整或添加元素。例如,在处理《唐顿庄园》电影剧照时,Wan2.7-Image能够准确执行人物位置互换的任务,同时保持场景背景的完整性。
Wan2.7-Image在跨场景多主体一致性方面也表现出了突出的能力,能够在不同的环境中精准再现参考人物的核心特征和整体气质。无论是咖啡馆、户外街拍还是正式会议室,生成的照片都能体现出高度一致的画面风格与环境氛围。
技术层面来看,Wan2.7-Image的训练过程中不仅包含了海量视觉素材,还特别加入了理解类数据集,使其能够实现从像素级拟合到语义认知能力的巨大飞跃。此外,在其模型架构设计中融入了多模态指令机制,进一步加强了图像生成与编辑的功能。

随着长文本渲染功能的突破、互动式编辑操作的灵活性提高以及跨场景风格一致性的显著提升,Wan2.7-Image正逐步成为推动产业效率的重要生产力工具。未来,随着技术的发展和应用场景的拓展,AI图像模型将更加贴近个性化与可控化的目标。
从电商到短剧制作等多个垂直领域内,Wan2.7-Image已经展现出强大的行业落地潜力。在服装设计方面,该模型能够帮助用户根据需要变换颜色并生成四季拼图;对于广告制作而言,则可以通过一键裂变技术快速生成多角度的模特展示图片。
总结来看,随着图像处理技术不断突破和创新,AI图像工具已经不再仅仅是辅助性的创意手段,而是正在转变为高效的生产力工具。在未来的应用中,它们将更好地服务于设计、电商及内容创作等多个行业领域,为人们提供更加丰富多元的视觉体验。
综上所述,Wan2.7-Image通过其强大的生成能力和交互式编辑功能,不仅提升了图像处理的技术水平,也为多个行业的实际应用带来了前所未有的便利与效率。随着技术的进步和应用场景的不断拓展,AI图像模型将继续向着个性化、可控化以及高效生产力工具的方向发展。
在基础人像生成测试后,我们进一步加入明确的脸型约束,对Wan2.7-Image的“捏脸能力”进行验证。测试提示词在原有基础上增加:鹅蛋脸/圆脸/方脸/长脸。

从实测结果来看,Wan2.7-Image模型能够对脸型特征做出差异化响应,不同生成样本中,人物面部轮廓呈现出从鹅蛋脸到圆脸、方脸的明显区分,下颌线、颧骨宽度、面部长宽比等核心脸型指标存在可感知的差异。
在皮肤质感、电影感光影等方面,限定脸型后生成的图片画面细节保留度基本稳定。但该模型的脸型控制仍存在精度与一致性的不足。部分图片存在特征模糊、脸型特征不典型的问题,难以完全匹配“方脸”“长脸”等强特征的严格定义。
对比未添加脸型关键词的基础生成版本,限定脸型后生成的图片人物面部占比整体偏大,脸部视觉尺寸有所扩增,头身比例、半身构图的原有平衡被打破。
在官方演示案例当中,Wan2.7-Image模型生成的图片人物眼部特征支持杏仁眼、深邃眼窝、圆眼、丹凤眼等多种选项,并能跨越国籍与年龄生成差异化人像。

另一大亮点是“调色盘”功能。用户可一键提取参考图的颜色及其占比,并以此为基础生成同色系图片,同时自由调控各颜色的数量和比例,构建个性化配色方案。无论是马蒂斯浓郁的红色系、梵高明媚的黄色系,还是毕加索清冷的蓝色系,都可作为输入参考,输出色调高度一致的全新画面。

在文字渲染方面,Wan2.7-Image支持12种语言,最高可处理3K token的超长文字输入,输出效果达到印刷级质量。这一能力让其在信息图、教育插画、旅游攻略长图海报等场景中颇具实用价值——理论上可以一口气生成排满一页A4纸的论文。

二、一次生成12张图,还能“哪里不爽改哪里”
Wan2.7-Image的编辑能力也迎来了显著升级,其“交互式编辑”功能支持用户在指定区域内精准框选,对框内元素进行添加、对齐、移动操作,也可进行Logo插入和人物位置互换,实现像素级意图对齐。
实测中,我们用《唐顿庄园》电影剧照图片执行“两人位置调换”的编辑指令,Wan2.7-Image成功将原图中左侧蓝裙人物与右侧黄裙人物的站位进行了对调。

人物主体、服饰特征(蓝/黄缎面礼服、头饰、项链、长手套)均完整保留,未出现主体丢失、严重变形等致命问题,整体场景的背景环境(宴会厅装饰、背景人物、花艺陈设)也基本维持了原图的一致性,实现了编辑指令的核心诉求。
官方演示中,用户框选图中两个人物后输入“互换位置”指令,模型准确完成了人物交换,且背景及其他元素保持不变。

在另一官方案例中,用户通过框选区域、指定对话气泡风格和文字内容,直接生成了毛毡风格的对话场景,文字与画面风格统一。

多主体一致性是图像生成中难度较高的任务。Wan2.7-Image在这一方向支持最多9图的风格与特征统一,可用于合影生成、电影海报及家具组合图等场景。官方展示了AI女团海报和家具组合图的生成效果,多人物之间的风格一致性较高。

我们基于参考人物进行多场景生成测试,发现Wan2.7-Image在核心人物特征的一致性还原上展现出较高水准。模型根据提示词“基于参考人物,生成3张图:(1)咖啡馆内看书;(2)户外街拍;(3)正式会议室”,输出了一组共12张图像。
从输出结果来看,模型精准保留了参考人物的核心面部特征、发型轮廓与整体气质,在咖啡馆、户外街拍、正式会议室三大场景中,人物主体的辨识度始终稳定,未出现五官变形缺陷。
同时,模型对场景环境的适配性表现优异,不同场景的光影逻辑、环境氛围与人物状态高度匹配,咖啡馆的暖光、户外的自然光、会议室的室内冷光均符合场景逻辑,人物服饰、姿态也与场景属性高度契合。


三、不只会画图,还开始“理解图”
从技术层面看,Wan2.7-Image有三个维度的升级。
在训练数据上,模型底座整合了超大规模异构视觉素材,并额外加入了理解类数据,使模型不止于像素级拟合,还具备底层语义认知能力。
在模型架构上,Wan2.7-Image采用生成与理解统一的模型架构,在共享隐空间(Latent Space)内实现语义映射——文字紧挨着画面,模型不需要费力推断文字对应的画面区域。同时,训练流程中引入了多模态指令(文字+图片),进一步强化了从“像素拟合”到“语义认知”的跨越。
此外,模型还支持调用WanImage Skill工具,据官方介绍可实现“让龙虾画画”等创意指令编排。
在人类偏好盲测中,Wan2.7-Image多项能力位列全国第一,综合成绩接近Nano Banana Pro。同步上线的Wan2.7-Image-pro版本在训练数据规模和模型尺寸上进一步扩大,构图稳定性和语义理解精准度更高。
四、从电商到短剧,图像模型开始全面落地
Wan2.7-Image在多个垂直场景展示了行业落地潜力。
在短剧制作方向,模型支持角色生成中的“一人分饰多角”,通过多主体一致性能力保持同一角色在不同场景中的特征稳定;分镜生成可将人物自然融入场景,并通过交互式编辑精准调整人物位置和大小。


在电商广告场景,模型支持从单张模特图一键裂变出多张不同角度、不同场景的展示图,并可按电商上架格式自动输出场景图、特写图、尺寸图和卖点图等套图组合。

颜色变装(通过调色盘功能切换服装色彩)、四季拼图生成以及“拯救废片”(消除闭眼)等功能,可满足小红书、B站等社交平台的内容创作需求。OOTD穿搭生成和不露脸服装替换也在演示中效果稳定。
该模型可生成图文并茂的知识卡片和教育插画,内容创作方向支持B站封面、小红书封面、种草图文等常见内容格式。

结语:图像模型正在走向“可控化”和“生产力工具”
从Wan2.7-Image的技术突破中可见,图像模型的技术竞赛已转向更深层的维度。其核心价值不再局限于“画得像不像”的表象还原,而是能否精准控制人物形象、颜色搭配和画面布局,能否深入理解文本与语义内涵,能否无缝融入设计、电商、内容创作等工作流程。
随着长文本渲染能力的突破、交互式编辑的灵活操作以及多主体风格一致性的显著提升,图像模型正从辅助性的“创意工具”蜕变成为驱动产业效率的“高效生产力工具”。“千人千面”和“调色盘”这类能力,也意味着AI生成内容开始走向个性化与可控化。
