
作者|陈博远
今日凌晨,陈博远博士在知乎平台上发布了一篇博客文章,分享了有关 GPT Image 2 官网博客的一些幕后趣事。
大家好,我是 OpenAI 的研究科学家陈博远。上周我们发布了最新的图像生成模型,而这个项目主要由我负责训练。这次发布会的主持工作是由我和山姆奥特曼共同完成的,很高兴能够成功展示改进后的中文渲染效果。如果有任何反馈意见,请随时留言给我。

在 GPT Image 2 的发布会上,陈博远与山姆奥特曼一同展示了模型的文字生成能力。
我们在发布前使用了“duct-tape”作为代码代号进行了一轮双盲测试。“duct-tape”的意思就是布基胶带,具体如下图所示:

“Duct tape” 在中文中被称为布基胶带,不过在国内并不常见。
为什么我们称它为布基胶带呢?这当然是因为它可以用来把香蕉贴在墙上!

这幅闻名世界的艺术品就是用布基胶带将一根香蕉固定于墙面创作而成的。
测试结果表明,我们的模型在双盲测试中遥遥领先第二名“小香蕉”。

此外,我还花费大量时间制作了官网上的许多图片。整个博客页面都是由生成的图像构成,并无任何文本内容。下面这些图例均是我亲自完成的作品,每一张背后都蕴含着诸多思考,现在就为大家展示一下创作过程中的细节吧。

接下来是我们的中文彩蛋设计。当时我想要制作一个非常有趣的漫画,于是想到“接住梗”和“香蕉梗”。为了展示文字能力,我还特意让他使用多种语言添加了许多文字,并且在家乡海报的右下角生成了极其微小的文字来测试其细节表现力。

经过反复思考后,我发现这样的文字渲染还不够惊艳。后来,在队友的帮助下我制作了一张4K分辨率的图片(为了节省流量进行了压缩)。内容是一堆米粒,其中一颗上面刻着字,你能找到吗?


上面这张日语漫画也是我的作品之一。当时的想法是创作一幅与GPT图像生成相关的漫画。虽然我也设计了一幅关于香蕉的大笑漫画,但考虑到官网环境不太适合展示这类作品,最终还是选择了另一种方式来连接两者。

此外还有更多的杂志页面是由我和同事共同完成的。我们让生图模型结合真实物体和艺术布局进行创作,既体现了模型对现实世界的还原能力,又不失设计美感。

在制作下面这张图时,我想到了如何突出模型在思考能力上的进步。如果让它解答普通数学题或方程式的话,似乎过于简单了。“nano banana” 通过思考模式加文字渲染的方式也能完成任务。于是想到了一个我非常喜欢的视觉证明方法来真正考验 GPT Image 2 的独特视觉推理效果。

这张图展示了搜索能力的应用场景,即在官网商店中查找内容制作成海报。直播过程中还演示了 Thinking mode 自动生成二维码并嵌入图片中的功能——这背后还有一个小彩蛋:当时展示的二维码前几位扫码者可以获得一份免费的小礼物作为奖励。

最后,我要感谢团队成员们的共同努力!每个人都付出了很多努力。在发布前的最后一段时间里,我除了进行一些细节上的调整外,还与市场部门和艺术设计团队密切合作准备发布会及网站相关事宜。他们真的是我见过的最强大的合作者之一。
希望这次能够顺利满足大家的期待!
