We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode The Future of AI Art? OpenAI’s Latest Model Might Be It

The Future of AI Art? OpenAI’s Latest Model Might Be It

2025/4/15
logo of podcast Lex Fridman Podcast of AI

Lex Fridman Podcast of AI

AI Deep Dive AI Chapters Transcript
People
J
Jaeden Schafer
Topics
Jaeden Schafer: 我对OpenAI最新发布的AI图像生成模型印象深刻,它集成在ChatGPT中,能够生成图像中的文本,这是以前模型难以实现的。该模型在生成文本方面表现出色,例如可以生成包含完美文本的登机牌。它可以轻松创建高质量的信息图表等设计,这可能会对Canva等公司构成冲击。该模型可以保持图像生成的一致性,并能根据用户的要求改变图像风格,而保持主体不变。例如,它可以根据上传的图像重新创建图像,并改变其风格,例如将一张照片转换成护照照片。它可以处理复杂的提示,并根据详细的指令生成图像,这是以前模型做不到的。它可以混合文本和图像,例如将生成的图像添加到真实世界的照片中。该模型允许用户编辑图像,例如调整长宽比、颜色和添加透明背景,这对于平面设计师来说非常有用。它可以根据用户提供的草图或图像生成不同风格的图像,例如将草图转换成漫画,或将图像转换成雕塑。它可以重现图像,即使是包含大量文本的截图,尽管在处理复杂图像时可能会出现崩溃。总的来说,这是一个非常强大的工具,可以生成高质量的图像,并对其他图像生成工具构成威胁。

Deep Dive

Chapters
OpenAI has integrated a groundbreaking image generation model into ChatGPT, capable of producing stunning visuals with text. This technology surpasses previous models in accuracy and design capabilities, potentially disrupting existing graphic design tools like Canva.
  • OpenAI's new image generation model is embedded in ChatGPT.
  • It excels at generating text within images.
  • Its infographic creation capabilities are noteworthy, potentially challenging platforms like Canva.

Shownotes Transcript

多年来首次睁开眼睛的OpenAI刚刚推出了他们全新的图像生成模型,并将其嵌入到ChatGPT中。今天在播客中,我将分解演示,以及它是如何工作的。我实际上有机会玩这个并使用它,我绝对被它所……

能够做到的事情所震惊。所以今天在播客中,我们将深入探讨它。现在,我想提到的第一件事是,当他们推出这个功能时,我最兴奋的一个功能是它可以在图像中生成文本。所以这是过去这些图像生成模型臭名昭著的糟糕之处。他们最近发布了……

发布了一条推文。他们说,4.0图像生成已经到来。它今天开始向ChatGPT和Sora推出,面向所有专业版付费用户和免费用户。所以实际上每个人都能获得这个功能。然后他们在下面放了一张图片,图片上有人拿着登机牌……

上面写着:“登机牌,介绍ChatGP和Sora中的4.0图像生成,3月25日上午11点PDT。”好的,你看,现在你可以看出,它在文本方面非常出色。看看所有这些准确的文字。纸上写的所有内容,我都对它的清晰度感到震惊。所以你可以告诉它生成了一张登机牌,上面包含所有这些信息,而且文字看起来很完美。所以我决定实际测试一下,因为我……

我有点怀疑。有时你会看到这些演示和这些推文,就像,“哇,这看起来太棒了。”你并不完全确定它在什么位置。所以我决定自己测试一下。我实际上决定尝试一次性生成一个信息图表。他们说它可以制作信息图表。我说,制作一个关于亚利桑那州为什么这么热的信息图表。

而且实际上,没有任何关于我想要什么的更多信息,它就创建了一个设计非常好的信息图表,它有一种非常酷的沙漠黄色感觉。上面写着:“亚利桑那州为什么这么热,沙漠气候,低海拔,高气压。”它在下面对每一个都进行了解释。而且文字看起来很完美。字体都是一样的。所有内容都非常连贯。我不需要选择任何设计。在我看来,这/此后的内容几乎会扼杀像……

像Canva这样的公司,或者至少你需要能够生成这样的东西并在Canva中打开它。这将有点像,Canva将不得不找出一些AI工具,以便你可以直接编辑它。因为如果我想创建图形或其他东西,我不太会在未来尝试去寻找模板或设计,我只会一次性生成它。而且它非常擅长倾听你的指令。所以我几乎没有给出任何指令。我只是说制作一个信息图表。

但我可以说制作一个信息图表,包含仙人掌,包含太阳。他们实际上演示了它能够做什么。这非常非常令人印象深刻。它实际上能够做到的一件事是,你像在聊天中与它一起工作,它可以非常一致。所以你可以创建相同的角色。他们展示了一个这样的演示,他们基本上是在创建完全相同的角色。他让它创建了这个……

这个像,你知道的,几何企鹅角色,例如。然后他让它创建完全相同的几何企鹅,但突然间他让它……

以,你知道的,逼真的微型风格,就像专业人士制作并绘制的一样。突然间,他们创造了相同的东西,但现在它看起来像一个小型的雕塑。它是完全相同的企鹅,从完全相同的角度,拿着完全相同的钥匙。所以对我来说,这非常非常令人印象深刻。现在,他们随后能够做的另一件事是,他们浏览并让它以整体的方式生成这个,就像水晶风格,就像草皮,就像熔岩,就像果冻熊,就像……

金属,所有这些不同的风格。让我印象深刻的是,它实际上是完全相同的。它是完全相同的企鹅。我们只是从许多不同的……

不同的方式看待它。这对创造力来说非常好。你基本上可以上传一张图像,让它重新创建它,然后更改样式。你可以想象自己这样做。我看到一个演示,有人基本上能够上传一张照片。所以这是LinkedIn上的Ali K. Miller。她上传了她用……制作的播客封面,你知道的,她的个人资料图片或任何专业工作室照片或其他什么。然后她说,创建一个……

顺便说一句,她正在做的这个甚至不是谷歌发布的同一个。所以OpenAI正在提出对谷歌的这个工具的回应,它能够做几乎相同的事情。但对于谷歌的产品来说,她上传了一个播客封面,并说:“为这个女人创建一个官方护照照片。确保使用完全相同的女性。”它创建了所谓的护照照片,看起来就像护照照片。而且它看起来和她完全一样。

你可以看出它显然是用AI重新创建的,但它就是她。所以我们正到达这样一个点,这些工具非常擅长你上传一个角色,然后它只是以许多不同的变体重新创建它。所以这是一个非常酷的演示。他们展示的下一件事是这个东西非常擅长生成复杂的提示。所以他们基本上创建了一个……

他们为此使用的提示,其中有15个不同的东西。比如一双谷歌眼睛,一个竖起大拇指的表情符号,一把蓝色的剪刀,一只白色的长颈鹿,“睁开眼睛”这个词,他们想要它创建所有这些不同的东西。然后它创建了一个包含所有15个在该图形内描述的事物的图形。他们展示这个的原因,我非常震惊,而且我认为它很重要,是因为……

现在到了这样的地步,这些图像,你知道的,我们以前有很好的图像模型。我认为Midjourney相当不错。它看起来相当逼真。你可以生成人们非常逼真的照片。现在它很有用。现在你可以说,我想要一个,你知道的,像我想要一个相机。我想要这个特定的产品。我想要这个特定的灯光,这个特定的角度。我希望你像……

在背景中有10个这样的东西,它会完全按照你说的去做,对吧?你就像,我希望他们穿着绿色的鞋子,我希望在背景的窗台上放七双绿色的鞋子。我希望衣橱里挂着五件夹克。这并不是以前的AI模型能够做到的事情。所以这真的很不可思议。

它现在具有这种能力。所以它现在能够做的下一件事是基本上混合文本和图像。我用我认为非常令人印象深刻的信息图表示例来介绍这一点。但我看到了很多其他的例子,想象一下,你现在创建了那个信息图表,但你想把它与真实世界的照片合并。所以他们做了一个演示,他们创建了一个信息图表……

然后他们创建了,基本上,他们让某人拿着那个信息图表放在教科书的封面上,在现实世界中的凯旋门前。所以它看起来像一张真实的照片,信息图表就像纸上的一样。对我来说,这真的很酷。这就像,这非常超现实。你可以生成……

图形。然后因为你正在与聊天界面聊天,你生成一个非常酷的图形。这就像现在取走那个图形,把它贴在教科书的封面上,让一个人这样做,然后它将生成下一张照片。然后你可以说,如果你想的话,你可以说,现在取走那张照片,把它放在报纸的封面上,让某人阅读它。这就像,现在取走那张报纸的照片。就像你可以像创建与图形相一致的图形一样,这些图形变得如此详细。

这真的很酷。我认为这是第一次,这些非常有用。好的。我还有一些我认为绝对值得一提的功能。其中一个重要的功能是你可以实际编辑这些照片。你可以做一些很酷的事情。显然,你坐在那里与它聊天,描述你想要如何编辑照片。你可以说诸如特定纵横比之类的事情,这真的很酷。你可以说确切的颜色。你可以使用十六进制代码。

我的天哪,这对图形设计师来说太不可思议了,他们就像,“嘿,我们的品牌颜色是,你知道的,这五个或这三个十六进制代码。”你输入这些十六进制代码,它将重新创建你的徽标或重新创建,你知道的,你照片背景后面的东西。现在所有内容都将与你的品牌颜色相匹配。这太棒了。当然,你也可以做透明背景。他们展示了一个演示,他们创建了一个狗的贴纸,并制作了一个透明背景。他们实际上能够做到这一点。

并将其下载为透明的PNG背景。他们制作了一堆不同的贴纸。我认为这真的很酷。最后我想展示的是,他们做了一个演示,他们基本上能够使用GPT-4以许多不同的风格创建图像。他们首先做的是制作一本漫画书。她画了一本漫画书……

拍了一张照片上传了它,所以这就是我后来实际测试的,我会向你展示它能够做什么,但她只是画了一幅漫画书的草图,然后她说,你知道吗,你能把它变成一条龙的真实漫画吗?然后它就去了,实际上画了出来,它拿走了她的草图,把它画成了彩色,然后它很有趣,但她有点说,嘿,这是一张水晶企鹅的图片,是他们之前在演示中生成的其中一只水晶企鹅,她说,现在把龙换成这只水晶企鹅,它直接把它扔进了漫画书。所以它就像……

我认为能够上传图像并让它实时执行这些操作的能力。她还拿了水晶企鹅,并说,在我的客厅里生成一个栩栩如生的雕像。然后它能够在我的客厅里生成它。所以你正在图像内部上传图像。这只是非常有用,非常有用。所以我决定测试一下图像,看看它是否能够重新生成图像。我尝试了很多,是的……

模因,我像我截取了一个模因的屏幕截图,我说重新制作这张照片,当我第一次说重新制作这张照片时,它有点卡住了,它只是为照片创建了文本,然后我告诉它创建一张图像,根据那张图像,它不是很好。所以我有点灰心,我认为这可能与它首先创建文本的方式有关,所以我又尝试了一次,虽然它实际上在视频生成时崩溃了,并且……

我截取了Riverside的屏幕截图。这是我用来录制播客的软件。我说,精确地重新创建这张图像,甚至包括所有文本。我们谈论的是一个包含大量UI、大量文本元素的屏幕截图。它在崩溃之前生成了大约一半的图像。但在图像的那一半中,它有像完美写出的文本,看起来绝对令人惊叹。

我对此非常非常震惊和印象深刻。总的来说,看起来我们从我目前能够演示和测试的内容中看到了一些绝对令人难以置信的东西。我的意思是,我们谈论的是文本令人惊叹。就像什么?我们正在重新创建我的屏幕上任何内容的屏幕截图。我们正在制作一次性图形。我们正在制作贴纸。我们正在编辑东西,透明背景。这实际上是许多人梦想中的图像生成器。

说实话,我已经完全放弃了ChatGPT上的图像生成一年多了。还有很多更好的选择。这击败了所有人。我的意思是,实际上是击败了所有人。这成为一个非常有用的工具,以至于我认为它威胁到了Canva。它威胁到了很多其他的……

参与者。所以我对谷歌印象深刻,就像我提到的那样,他们已经推出了另一个能够做一些类似事情的工具。ChatGPT目前是最大的。所以我认为他们没有让谷歌长时间窃取他们的风头。他们推出了这个,而且它令人难以置信地令人印象深刻。强烈推荐查看一下。如果你是一个专业用户,如果你为此付费,即使是一个免费用户,这也将推出给每个人。你必须去查看一下。你需要确保做的一件事是,你需要确保选择了ChatGPT 4.0。

你不需要去选择Dolly或选择任何类型的图像内容。只需确保它是ChatGPT 4.0。在那里你可以获得这个图像生成的最佳版本。非常感谢收听播客。如果你喜欢它,请务必在YouTube上点赞和订阅。在Apple或Spotify上给我们留下评论或评价。非常感谢收听。我希望你们今天剩下的时间都过得愉快。