搜索: "图像生成"

共找到 22 篇相关文章

FlashAR:仅用0.05%数据,让预训练好的自回归图像模型飞起来

FlashAR:仅用0.05%数据,让预训练好的自回归图像模型飞起来

背景:自回归图像生成的崛起与推理瓶颈大语言模型的成功让 "next-token prediction" 这套范式从文本延伸到了图像领域。把图像用视觉分词器编码成离散 token,再一个接一个的预测出来 —— 这就是自回归(AR)图像生成的核心思路。从早期的 PixelCNN、iGPT、Parti,到近期的 Emu3.5、LlamaGen、Lumina-mGPT、GLM-Image,AR 模型的生成

科技1 阅读
华人大型团队突破创新:在香蕉与GPT Image之外开辟AI图像新领域

华人大型团队突破创新:在香蕉与GPT Image之外开辟AI图像新领域

允中 发自 凹非寺量子位 | 公众号 QbitAI一支不到15人的团队,把图像模型做到了全球第三5月6日凌晨,Luma AI正式宣布开放Uni-1.1 API几乎在同一时间,由第三方机构Arena.ai发布的图像生成榜单,完成了最新一轮的“大洗牌”——Luma凭UNI-1.1与UNI-1.1-Max直接冲进全球前三,仅次于OpenAI(gpt-image-2)Google(nano-banana-

科技3 阅读
在OpenAI修复中文的他

在OpenAI修复中文的他

最近,知乎上出现了一篇由OpenAI的研究科学家陈博远撰写的文章。在文章中,他向网友介绍自己是GPT Image团队的一员,并表示上周发布的GPT生图模型就是他的主要工作成果。他还提到,这次终于解决了中文渲染的问题。如果用户有任何反馈意见,可以直接通过知乎与他沟通。ChatGPT Images 2.0发布后,许多人的第一感受是该模型在处理中文方面的能力令人难以置信地强大。往昔的图像生成系统在面对汉

科技3 阅读
揭秘GPT Image 2:或已融合GPT-4能力,OpenAI未将其定位为纯粹的图像生成模型

揭秘GPT Image 2:或已融合GPT-4能力,OpenAI未将其定位为纯粹的图像生成模型

作者|樊雅婷提供的电子邮箱地址似乎不完整或有误,请确认后重试。GPT Image 2 的出现标志着图像生成技术的一个重大转折点,它不仅仅是一个优化后的扩散模型或是更高效的架构迭代,而是将语义理解和推理能力直接引入了图像生成过程中的关键环节。这样的革新不仅解决了图像质量与一致性的问题,还大大提升了用户交互体验。根据最近的观察和分析,GPT Image 2 的成功在很大程度上归功于其独特的混合架构——

科技3 阅读
在OpenAI修炼中文技能

在OpenAI修炼中文技能

作者|陈博远今日凌晨,陈博远博士在知乎平台上发布了一篇博客文章,分享了有关 GPT Image 2 官网博客的一些幕后趣事。大家好,我是 OpenAI 的研究科学家陈博远。上周我们发布了最新的图像生成模型,而这个项目主要由我负责训练。这次发布会的主持工作是由我和山姆奥特曼共同完成的,很高兴能够成功展示改进后的中文渲染效果。如果有任何反馈意见,请随时留言给我。在 GPT Image 2 的发布会上,

科技3 阅读
前沿视觉对话开启!CVPR 2026北京研讨会盛大开幕

前沿视觉对话开启!CVPR 2026北京研讨会盛大开幕

在2026年,人工智能领域的发展速度比以往任何时候都要快。自四月份以来,整个行业仿佛突然加快了步伐:Meta公司推出了Muse Spark并引起广泛关注;ChatGPT Images 2.0 的图像生成能力在社交媒体上迅速传播;而GPT-5.5的发布进一步推动了技术的进步。与此同时,阿里巴巴、小米和腾讯等国内企业也相继开放了自己的最新模型,备受瞩目的DeepSeek V4同样已对外开放。新的技术不

科技2 阅读
商汤推出高效能多模态模型,开源首日即成领先之作!体积小巧仅8B,媲美商用产品

商汤推出高效能多模态模型,开源首日即成领先之作!体积小巧仅8B,媲美商用产品

智东西团队近期推出了一篇关于GPT images 2.0的文章,引发了人们对多模态模型的新一轮关注。过去,“画得好”不再是唯一的追求标准,人们现在更加注重“速度快、效率高、成本低”的特性。很长时间以来,视觉理解和图像生成被区分为两个独立的系统:前者负责识别图像内容,后者则专注于根据需求创作新图。这种分离式的结构限制了模型的整体性能。商汤科技最近采取了一种新的策略来应对这一挑战。他们刚刚发布了名为S

科技11 阅读
国产AI图像生成迎新突破,挑战GPT-Image-2地位?

国产AI图像生成迎新突破,挑战GPT-Image-2地位?

允中 发自 凹非寺最近,是否被GPT-Image-2刷屏了?它能够精准渲染文字信息图,并且在美学UI和复杂布局上表现出色。无论是社交媒体截图还是高考试卷,它都能做到几乎一比一的还原效果。这种技术突破让传统文生图模型显得过时了。很多人看完后的第一反应是:“设计师的工作要被取代了吗?”就在这两天,兔展智能发布了UniWorld-V2.5,它甚至可以再现GPT-Image-2的某些优秀案例。直接展示实际

科技2 阅读
当心,谨防上当受骗:揭秘ChatGPT Images 2.0真相

当心,谨防上当受骗:揭秘ChatGPT Images 2.0真相

智东西报道的一篇文章由毕伟豪撰写,并经漠影编辑整理而成。图中所示的公告是由AI生成的。4月22日,智东西发布了一条新闻称,在当天凌晨,OpenAI发布了备受期待的图像生成和编辑模型ChatGPT Images 2.0。该版本已经全面部署在聊天机器人ChaGPT及其API服务上。在发布会直播中,阿尔特曼对此表示:“ChatGPT Images 2.0的推出代表了一次巨大的进步,几乎是从GPT3直接跃

科技6 阅读

OpenAI推出升级版图像生成工具ChatGPT Images 2.0

4月21日,OpenAI对其图像生成技术进行了更新,并推出了名为ChatGPT Images 2.0的新版本,该版本通过ChatGPT和Codex平台向用户推广。新模型在指令响应与细节描绘方面有了显著的进步,还提供了一种付费的“深度思考”选项,主要增强了复杂图形和科学插图生成的功能,以满足专业用户的需求。当前,每周由ChatGPT创建并分发出去的图片数量已超过10亿张。

科技2 阅读
微软推出三款自主研发的大模型:同时稳住OpenAI关系并采取低价策略!

微软推出三款自主研发的大模型:同时稳住OpenAI关系并采取低价策略!

据悉,在美国当地时间周四,微软旗下的Microsoft AI研究团队宣布了三项基础人工智能模型的研发进展,涵盖了文本、语音和图像生成等领域。这一举措显示,尽管与OpenAI的合作关系密切,微软仍在积极构建自己的多模态人工智能技术栈,以应对行业内的竞争压力。公告透露,MAI-Transcribe-1转录模型支持多达25种语言,并且速度是现有Azure Fast服务的两倍半;而音频生成器MAI-Voi

科技2 阅读
阿里最新发布:个性化人脸定制模型正式亮相

阿里最新发布:个性化人脸定制模型正式亮相

阿里巴巴近期推出了一款名为Wan2.7-Image的全新图像处理模型,集成了文本到图像生成、多图批量制作、指令驱动编辑和交互式修改等多功能于一体。新发布的这款软件具有四大核心功能:个性化定制面部特征、“调色盘”色彩控制、高质量文字渲染以及精准区域选择性编辑。在测试过程中,我们着重考察了模型的个性面孔生成、互动编辑及跨场景人物一致性三个关键领域的能力。通过使用基础指令词“年轻女性半身像,电影质感光影

科技16 阅读
阿里推出Wan2.7生图技术,龙虾也能创作画作,面部建模精细至骨骼层面

阿里推出Wan2.7生图技术,龙虾也能创作画作,面部建模精细至骨骼层面

新智元报道最近推出的新版万相(Wan2.7-Image)在图像生成领域带来了革命性的变化,从捏脸到调色盘再到精准编辑,都让人眼前一亮。通过上传参考图片或使用内置模板来定制角色的面部特征和风格,实现个性化的图像创作。用户可以调整眼睛、鼻子等细节,并轻松选择不同服饰及背景设置,创造出独一无二的角色形象。新版万相提供了前所未有的调色工具,包括预设色彩方案以及自定义颜色选择功能。通过简单的拖拽操作即可应用

科技11 阅读
全新个性化生图模型阿里Wan2.7-Image登场!告别单一AI面孔,迎接千人千面时代

全新个性化生图模型阿里Wan2.7-Image登场!告别单一AI面孔,迎接千人千面时代

阿里巴巴今日推出了图像生成与编辑统一模型Wan2.7-Image,旨在解决当前AI生图领域中“标准脸”审美疲劳和色彩单一等问题。新的模型能够实现个性化定制,“千人千面”,并具备全新的调色盘功能,精准控制颜色。用户现在可以通过阿里云百炼平台、wan.video网站以及即将上线的千问App体验Wan2.7-Image的功能。Wan2.7-Image涵盖了从文本生成图像到交互式编辑等一系列能力。在盲测中

科技3 阅读
硅谷初创企业发新模型挑战谷歌,性能媲美竞品,价格更亲民三成!

硅谷初创企业发新模型挑战谷歌,性能媲美竞品,价格更亲民三成!

近日,硅谷初创企业Luma AI发布了其最新图像模型Uni-1,该模型结合了图像理解和图像生成的功能,具有强大的思考和创作能力。据测试结果显示,Uni-1的性能与Google的Gemini 3 Pro相当,在高分辨率图像生成方面成本降低了大约10%到30%,并且在空间理解能力方面超越了谷歌Nano Banana 2和OpenAI GPT Image 1.5。Luma AI成立于2021年,最初以D

科技4 阅读
Luma AI携手雷蛇,为Axon雷幻壁纸软件引入AI绘图技术

Luma AI携手雷蛇,为Axon雷幻壁纸软件引入AI绘图技术

当地时间本月12日,雷蛇宣布与人工智能企业Luma AI建立合作关系,Luma AI的图像生成技术将被整合到雷蛇的Axon Wallpaper Engine壁纸应用程序中,成为AXON CREATE工具的一部分。雷蛇指出,用户若想使用AI生成的壁纸,需先获得代币。注册Razer ID后,可在应用内免费领取代币;如需更多代币,则可选择购买。代币的数量和可用性可能有所差异,每次生成壁纸时都需要消耗代币

科技2 阅读
Image2.0千问版本更新上线

Image2.0千问版本更新上线

3月13日,千问App推出了Qwen-Image2.0图像生成与编辑模型。该模型能够实现图文转换和多种编辑功能,包括从文本生成图像、基础编辑以及多场景创作,而且在文字渲染、材质真实感和指令解析方面都有了显著的进步。千问App新发布了Qwen-Image2.0版本的图像处理工具

国内4 阅读