We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode OpenAI’s New Model Transforms the World of AI-Generated Images

OpenAI’s New Model Transforms the World of AI-Generated Images

2025/4/15
logo of podcast No Priors AI

No Priors AI

AI Deep Dive AI Chapters Transcript
People
J
Jaeden Schafer
Topics
我今天要讨论OpenAI最新发布的图像生成模型,它集成在ChatGPT中,其功能之强大令我震惊。它最显著的特点是可以生成图像中的文本,这是以往图像生成模型的重大突破。我亲测了该模型,它可以根据简单的指令生成高质量的图像,例如信息图,文本清晰准确,设计精美,这将对Canva等公司构成巨大威胁。该模型可以保持图像风格的一致性,并能根据要求改变图像的风格,例如将同一个企鹅角色以不同的风格呈现。它还可以根据上传的图像重新创建并改变风格,例如将一张照片转换成护照照片。该模型可以处理复杂的提示,并根据详细的要求生成图像,例如包含多个特定元素的图形,这是以往AI模型无法做到的。它可以混合文本和图像,例如将生成的图像添加到真实世界的照片中,实现图像与现实世界的无缝衔接。该模型允许对图像进行编辑,例如调整长宽比、颜色和添加透明背景,这对于平面设计师来说非常实用。它还可以根据上传的草图或图像生成不同风格的图像,例如将草图转换成漫画,或将图像转换成雕塑。虽然在处理一些复杂的图像时可能存在一些问题,例如在重新生成包含大量文本元素的截图时出现崩溃,但总体来说,该模型功能强大,可以生成高质量的图像,并具备文本生成、图像编辑等功能,对图像生成领域具有革命性的意义,甚至对Canva等公司构成威胁,其强大的功能和易用性使其成为许多人梦寐以求的图像生成工具。

Deep Dive

Chapters
OpenAI's new image generation model, integrated into ChatGPT, excels at generating text within images and creating infographics. Its capabilities threaten to disrupt existing graphic design tools like Canva.
  • OpenAI's new model generates text inside images, a previously difficult task for AI.
  • It can create high-quality infographics with minimal instructions.
  • The model's capabilities potentially threaten companies like Canva.

Shownotes Transcript

多年来首次睁开眼睛的OpenAI刚刚推出了他们全新的图像生成模型,并将其嵌入到ChatGPT中。今天在播客中,我将分解演示,以及它是如何工作的。我实际上有机会玩这个并使用它,我对它能够做到的事情绝对感到震惊

它实际上能够做什么。因此,今天在播客中,我们将深入探讨它。现在,我想提到的第一件事是,当他们推出它时,我最兴奋的一个功能是它可以在图像内生成文本。因此,这在过去对于这些图像生成模型来说一直是出了名的糟糕。他们最近发布了

发布了一条推文。他们说,4.0图像生成已经到来。它今天开始向ChatGPT和Sora推出,面向所有专业版付费用户和免费用户。所以实际上每个人都将获得这个功能。然后他们在下面放了一张图片,图片上字面意思是有人拿着登机牌

上面写着:“登机牌,介绍ChatGP和Sora中的4.0图像生成,3月25日上午11点PDT”。好的,你看,现在你可以看出,它在文本方面非常出色。看看所有这些准确的文字。纸上写的所有内容,我都对它的清晰度感到震惊。所以你可以告诉它生成了一张登机牌,上面包含所有这些信息,而且文字看起来很完美。所以我决定实际测试一下,因为我……

我有点怀疑。有时你会看到这些演示和这些推文,就像,“哇,这看起来太棒了”。你并不完全确定它在什么位置。所以我决定自己测试一下。我字面意思是,我试图一次性生成一个信息图表。他们说它可以制作信息图表。我说,制作一个关于亚利桑那州为什么这么热的信息图表。

而且实际上,没有任何关于我想要什么的更多信息,它就创建了一个设计非常好的信息图表,它有一种非常酷的沙漠黄色感觉。上面写着:“亚利桑那州为什么这么热,沙漠气候,低海拔,高气压”。它在下面对每一个都进行了解释。而且文字看起来很完美。字体都是一样的。所有内容都非常连贯。我不必选择任何设计。在我看来,这/这之后的内容几乎会摧毁像

像Canva这样的公司,或者至少你需要能够生成这样的东西并在Canva中打开它。这将有点像,Canva将不得不找出一些AI工具,以便你可以直接编辑它。因为如果我想创建图形或其他东西,我不太会在未来尝试去寻找模板或设计,我只会一次性生成它。而且它非常擅长倾听你的指令。所以我几乎没有给出任何指令。我只是说制作一个信息图表。

但我可以说制作一个信息图表,包含仙人掌,包含太阳。他们实际上演示了它能够做什么。这非常非常令人印象深刻。它实际上可以做到的一件事是,你像在聊天中与它一起工作,它可以非常一致。因此,你可以创建相同的角色。他们展示了一个这样的演示,他们基本上是在创建完全相同的角色。他让它创建了这个。

这个像,你知道的,几何企鹅角色,例如。然后他让它创建完全相同的几何企鹅,但突然间他让它

在,你知道的,现实的微型风格中,就像一个专业人士制作并绘制它一样。突然间,他们创造了相同的东西,但现在它看起来像一个小型的雕塑。它是从完全相同的角度拿着完全相同的钥匙的完全相同的企鹅。所以对我来说,这非常非常令人印象深刻。现在,他们随后能够做的另一件事是,他们浏览并让它在一个整体中生成这个,就像水晶风格一样,就像草皮一样,就像熔岩一样,就像果冻熊一样,就像

金属,所有这些不同的风格。让我印象深刻的是,它实际上是完全相同的。它是完全相同的企鹅。我们只是从许多不同的

不同的方式看待它。这对创造力来说非常好。你基本上可以上传一张图像并让它重新创建它,然后更改样式。你可以想象自己这样做。我看到一个演示,有人基本上能够上传一张照片。所以这是LinkedIn上的Ali K. Miller。她上传了她用,你知道的,她的个人资料图片或任何专业工作室照片或任何东西制作的播客封面。然后她说,创建一个

顺便说一句,她正在做的这个甚至不是谷歌发布的同一个。所以OpenAI正在提出对谷歌的这个工具的回应,它能够做几乎相同的事情。但对于谷歌的产品来说,她上传了一个播客封面,并说:“为这个女人创建一个官方护照照片。确保使用完全相同的女性。”它创建了所谓的护照照片,看起来就像护照照片。而且它看起来和她完全一样。

你可以看出它显然是用AI重新创建的,但它就是她。所以我们正到达这样一个点,这些工具非常擅长你上传一个角色,然后它只是以许多不同的变体重新创建它。这是一个非常酷的演示。他们展示的下一件事是这个东西非常擅长生成复杂的提示。所以他们基本上创建了一个提示

他们为此使用的提示,其中有15个不同的东西。比如一对谷歌眼睛,一个竖起大拇指的表情符号,一把蓝色的剪刀,一只白色的长颈鹿,“睁开眼睛”这个词,他们想要它创建的所有这些不同的东西。然后它创建了一个包含描述中所有15个事物的图形。他们展示这个的原因,我非常震惊,而且我认为它很重要,是因为

现在这些图像已经到了这个地步,我们之前有很好的图像模型。我认为Midjourney相当不错。它看起来非常逼真。你可以生成人们非常逼真的照片。现在它很有用。现在你可以说,我想要一个,你知道的,像我想要一个相机。我想要这个特定的产品。我想要这个特定的灯光,这个特定的角度。我希望你拥有像

背景中有10个这样的东西,它会完全按照你说的去做,对吧?你就像,我希望他们穿着绿色的鞋子,我希望在背景的窗台上放七双绿色的鞋子。我希望衣橱里挂着五件夹克。之前的AI模型无法做到这一点。所以这真的很不可思议。

它现在具有这种能力。所以它现在能够做的下一件事是基本上混合文本和图像。我已经用我认为非常令人印象深刻的信息图表示例介绍了这一点。但我看到了许多其他例子,想象一下,你现在创建了那个信息图表,但你想把它与真实世界的照片合并。他们做了一个演示,他们创建了一个信息图表

然后他们创建了,基本上,他们让某人拿着那个信息图表放在教科书的封面上,在现实世界中的凯旋门前。所以它看起来像一张真实的照片,信息图表就像纸上的一样。对我来说,这真的很酷。这就像,这非常超现实。你可以生成……

图形。然后因为你正在与聊天界面聊天,你生成一个非常酷的图形。这就像现在取走那个图形,把它贴在教科书的封面上,让一个人这样做,然后它将生成下一张照片。然后你可以说,如果你想的话,你可以说,“现在取走那张照片,把它放在报纸的封面上,让某人阅读它。”这就像,“现在取走那张报纸的照片。”你可以像你正在创建与图形相一致的图形一样,这些图形变得如此详细。

这真的很酷。我认为这是第一次,这些非常有用。好的。我还有一些我认为绝对值得一提的功能。其中一个重要的功能是如何实际编辑这些照片。你可以做一些很酷的事情。显然,你坐在那里与它聊天,描述你想要如何编辑照片。你可以说诸如特定纵横比之类的事情,这真的很酷。你可以说确切的颜色。你可以使用十六进制代码。

我的天哪,这对图形设计师来说太不可思议了,他们就像,“嘿,我们的品牌颜色是,你知道的,这五个或这三个十六进制代码。”你输入这些十六进制代码,它将重新创建你的徽标或重新创建,你知道的,你照片背景后面的东西。现在所有内容都将与你的品牌颜色相匹配。这太棒了。当然,你也可以做透明背景。他们展示了一个演示,他们创建了一个狗的贴纸,并制作了一个透明背景。他们实际上能够做到这一点。

并字面意思将其下载为透明PNG背景。他们制作了许多不同的贴纸。我认为这真的很酷。最后我想展示的是,他们做了一个演示,他们基本上能够使用GPT-4以许多不同的风格创建图像。他们首先做的是制作一本漫画书。她画了一本漫画书

拍了一张照片上传了它,所以这就是我后来实际测试的内容,我会向你展示它能够做什么,但她只是画了一本漫画书的草图,然后她说,你知道吗,你能把它变成一条龙的真实漫画吗?然后它就去了,实际上画了出来,它拿走了她的草图,它把它画成了彩色,然后它很有趣,但她有点说,嘿,这是一张水晶企鹅的图片,是他们之前在演示中生成的其中一只水晶企鹅,她说,现在把龙换成这只水晶企鹅,它直接把它扔进了漫画书。所以这就像,

我认为能够上传图像并让它实时执行这些操作的能力。她还拿了水晶企鹅,并说:“在我的客厅里生成这个的逼真雕像。”然后它能够在我的客厅里生成它。所以你正在图像内部上传图像。这非常有用,非常有用。所以我决定测试一下图像,看看它是否能够重新生成图像。我尝试了很多,是的,

模因,我像我截取了一个模因的屏幕截图,我说重新制作这张照片,当我第一次说重新制作这张照片时,它有点卡住了,它只是为照片创建了文本,然后我告诉它创建一张图像,根据那张图像,它不是很好。所以我有点灰心,我认为这可能与它首先创建文本的方式有关,所以我又尝试了一次,虽然它实际上在视频生成时崩溃了,并且

我截取了Riverside的屏幕截图。这是我用来录制播客的软件。我说,精确地重新创建这张图像,甚至包括所有文本。我们谈论的是一个包含大量UI、大量文本元素的屏幕截图。它在崩溃之前生成了大约一半的图像。但在图像的那一半中,它有像完美写出的文本,看起来绝对令人惊叹。

我对这个非常非常震惊和印象深刻。总的来说,看起来我们从我目前能够演示和测试的内容中看到了一些绝对令人难以置信的东西。我的意思是,我们谈论的是文本令人惊叹。就像什么?我们正在重新创建我的屏幕上任何内容的屏幕截图。我们正在制作一次性图形。我们正在制作贴纸。我们正在编辑东西,透明背景。这实际上是许多人梦想中的图像生成器。

老实说,我已经完全放弃了ChatGPT上的图像生成一年多了。还有很多更好的选择。这击败了所有人。我的意思是,字面意思上击败了所有人。这成为一个非常有用的工具,以至于我认为它威胁到了Canva。它威胁到了许多其他

参与者。所以我对谷歌印象深刻,就像我提到的那样,他们已经推出了另一个能够做一些类似事情的工具。ChatGPT目前是最大的。所以我认为他们没有让谷歌长时间窃取他们的风头。他们推出了这个,而且它令人难以置信地令人印象深刻。强烈推荐查看这个。如果你是一个专业用户,如果你为此付费,即使是一个免费用户,这也将推出给每个人。你必须去查看一下。你需要确保做的一件事是,你需要确保选择了ChatGPT 4.0。

你不需要去选择Dolly或选择任何类型的图像内容。只需确保它是ChatTube T4O。在那里你可以获得这个图像生成的最佳版本。非常感谢收听播客。如果你喜欢它,请务必在YouTube上点赞和订阅。在Apple或Spotify上给我们留下评论或评价。非常感谢收听。我希望你们今天剩下的时间都过得愉快。