阿里巴巴推出Wan2.7-Image,在图像生成和编辑领域实现重大突破。
其中一个亮点是实现了个性化定制,满足用户“千人千面”的需求。
4月1日,阿里巴巴发布了全新的图像生成与编辑模型 Wan2.7-Image。该技术针对当前 AI 图像创作中存在的审美疲劳和色彩随机性问题进行了优化,能够提供更加个性化的服务,并拥有新的调色盘功能。
这款新型模型集成了文字转图片、图形组合生成以及指令式图像编辑等全方位的能力,在无偏见的用户测试中,其文本到图像转换的表现优于GPT-Image1.5和国内其他主流系统,在渲染质量和世界知识理解方面接近Nano Banana Pro。
在最近的一次人类偏好盲测中,Wan2.7-Image 的得分在国内同类产品中排名首位。
为了突破单一化的 AI 虚拟形象设计,该模型增加了虚拟脸型的个性化定制选项。用户能够通过更换提示词来选择不同的面部特征,确保每个生成的人物都是独一无二的。
对于艺术家和设计师而言,精确的颜色控制至关重要,而商业海报对色彩有着严格的要求。Wan2.7-Image 的新调色盘功能允许用户使用 Hex Code 来提取参考图片中的颜色,并且可以自由调整比例,创造出符合特定艺术风格的作品。
该模型在处理长文本时表现出色,能够清晰地呈现复杂的内容,支持12种语言和最高达3K tokens的超长输入,适用于论文和其他文档的高质量渲染。
此外,Wan2.7-Image 在创建连贯性系列图像方面也有卓越表现,最多可以生成一组12张图片,满足PPT、电影分镜脚本及电商产品展示等需求。
编辑功能赋予了用户更多的创作自由。交互式编辑模块使用户能够在指定区域进行精确调整,包括添加或移动元素,确保画面的精准度和意图的一致性。
在多主体一致性方面,模型支持最多9张参考图片输入,并能保持整体风格与特征统一,适用于团队照片、电影海报等多种场景。其他常见的图像编辑功能同样稳定可靠,无需担心随机生成效果。
除了强大的生图能力外,Wan2.7-Image 还具备深入理解图像内容的能力,这得益于技术上的创新和改进。
在训练过程中,模型采用了大规模异构数据集,并引入了多模态指令来提升理解和生成的准确性。此外,在架构设计上,共享隐空间的技术使得文本与视觉信息之间的映射更为直接高效。
为了进一步优化性能,Wan2.7-Image 团队还开发了一套精细的数据标注体系和先进的训练策略,确保模型在各种复杂场景下的表现稳定可靠。基于更大数据集的高级版本 Wan2.7-Image-Pro 已经上线,带来了更强的理解能力和构图稳定性。
这款强大的工具适用于多个行业领域,包括影视制作、自媒体内容创作、电商营销以及教育科研等,并且能够支持特定场景如龙虾绘画的应用开发。
用户现在可以通过阿里云平台和相关应用体验到 Wan2.7-Image 的强大功能。

量子位的朋友们