We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Next-Gen Graphics with OpenAI’s New Model — What to Expect

Next-Gen Graphics with OpenAI’s New Model — What to Expect

2025/4/13
logo of podcast ChatGPT: OpenAI, Sam Altman, AI, Joe Rogan, Artificial Intelligence, Practical AI

ChatGPT: OpenAI, Sam Altman, AI, Joe Rogan, Artificial Intelligence, Practical AI

AI Deep Dive AI Chapters Transcript
People
J
Jaeden Schafer
Topics
我最近体验了OpenAI最新发布的图像生成模型,它集成在ChatGPT中,其功能之强大令我震惊。该模型最显著的改进是能够在图像中生成高质量的文本,这是以往模型难以实现的。我亲测了该模型,它能够根据简单的指令生成高质量的信息图,甚至可以根据我的要求,在信息图中加入仙人掌和太阳等元素。我认为,这项技术将对Canva等图像设计工具构成巨大威胁,未来图形设计的工作流程将发生根本性的改变。 该模型不仅能够生成高质量的图像,还能够保持图像的一致性。例如,它可以创建同一个角色的不同风格版本,从现实主义到微缩模型,再到水晶风格,甚至金属风格,而角色本身保持不变。这对于创意工作者来说是一个非常强大的工具。此外,该模型还可以根据上传的图像重新创建并改变其风格,例如将播客封面图片转换成证件照,这体现了其强大的图像处理能力。 该模型能够处理复杂的提示,生成包含多个元素的图像,并满足对图像细节的具体要求。例如,它可以根据我的要求,在图像中加入15个不同的元素,并确保每个元素都清晰可见。这在之前的AI模型中是无法实现的。该模型还可以将文本和图像混合,例如将信息图添加到现实世界的照片中,甚至可以将生成的图像添加到其他图像中,例如将信息图放在教科书的封面上,再将这张照片放在报纸的封面上。这种图像嵌套的能力非常强大。 除了图像生成能力外,该模型还支持多种图像编辑功能,例如调整长宽比、颜色和添加透明背景。用户可以使用十六进制颜色代码来精确控制图像的颜色,这对于品牌设计非常有用。该模型还可以创建透明背景的贴纸,方便用户在其他项目中使用。此外,该模型还可以根据上传的图像生成不同风格的图像,例如将手绘漫画转换成彩色漫画,并将一个角色替换成另一个角色。 总的来说,OpenAI的这个新图像生成模型非常强大,它不仅能够生成高质量的图像,还支持多种功能,例如图像编辑、文本生成和图像混合。我认为,这项技术将对图像设计领域产生深远的影响,并对Canva等竞争对手构成威胁。虽然该模型在处理某些图像时可能会出现故障,例如重新创建包含大量文本的屏幕截图,但这并不影响其整体的强大功能。

Deep Dive

Chapters
OpenAI has integrated a new image generation model into ChatGPT, capable of generating realistic and imaginative images with text. This surpasses previous models in accuracy and design capabilities, potentially disrupting tools like Canva.
  • OpenAI's new image generation model is embedded in ChatGPT.
  • It excels at generating text within images.
  • It produces high-quality infographics with minimal instructions.
  • Its capabilities may threaten companies like Canva.

Shownotes Transcript

多年来首次睁开眼睛的公司刚刚推出了他们全新的图像生成模型,并将其嵌入到 ChatGPT 中。今天在播客中,我将分解演示,以及它是如何工作的。我实际上有机会玩这个并使用它,我完全被它所……

能够做到的事情所震撼。因此,今天在播客中,我们将深入探讨它。现在,我想提到的第一件事是,当他们推出它时,我最兴奋的一个功能是它能够在图像内生成文本。因此,这在过去对于这些图像生成模型来说一直是出了名的糟糕。他们最近发布了……

发布了一条推文。他们说,4.0 图像生成已经到来。它今天开始向 ChatGPT 和 Sora 推出,面向所有专业版付费用户和免费用户。所以实际上每个人都将获得这个功能。然后他们在下面放了一张图片,图片上字面意思是有人拿着登机牌……

上面写着:“登机牌,介绍 ChatGPT 和 Sora 中的 4.0 图像生成,3 月 25 日上午 11 点(太平洋标准时间)。”好的,你看,你现在可以看出,它在文本方面非常出色。看看所有这些准确的文本。纸上写的所有内容,我都对它的清晰度感到震惊。所以你可以告诉它生成了一个登机牌,上面包含所有这些信息,而且文本看起来完美无缺。所以我决定实际测试一下,因为我……

我有点怀疑。有时你会看到这些演示和这些推文,就像,“哇,这看起来太棒了。”你并不完全确定它在什么位置。所以我决定自己测试一下。我实际上决定尝试一次性生成一个信息图表。他们说它可以制作信息图表。我说,制作一个关于亚利桑那州为什么这么热的信息图表。

而且实际上,没有任何关于我想要什么的更多信息,它就创建了一个设计非常好的信息图表,它有一种非常酷的沙漠黄色感觉。上面写着:“亚利桑那州为什么这么热,沙漠气候,低海拔,高气压。”它在下面对每一个都进行了解释。而且文本看起来完美无缺。字体都是一样的。所有内容都非常连贯。我不必选择任何设计。在我看来,这/此后的内容几乎会摧毁像……

像 Canva 这样的公司,或者至少你需要能够生成这样的东西并在 Canva 中打开它。这将有点像,Canva 将不得不找出一些 AI 工具,以便你可以直接编辑它。因为如果我想创建图形或其他东西,我不太会在未来尝试去寻找模板或设计,我只会一次性生成它。而且它非常擅长倾听你的指令。所以我几乎没有给出任何指令。我只是说制作一个信息图表。

但我可以说制作一个信息图表,包含仙人掌,包含太阳。他们实际上演示了它能够做什么。这非常非常令人印象深刻。它实际上能够做到的一件事是,你像在与它聊天一样,它可以非常一致。因此,你可以创建相同的角色。他们展示了一个这样的演示,他们基本上是在创建完全相同的角色。他让它创建了这个……

这个像,你知道的,几何企鹅角色,例如。然后他让它创建完全相同的几何企鹅,但突然间他让它……

以,你知道的,逼真的微型风格,就像专业人士制作并绘制它一样。突然间,他们创造了相同的东西,但现在它看起来像一个小型的雕塑。它是完全相同的企鹅,从完全相同的角度,拿着完全相同的钥匙。所以对我来说,这非常非常令人印象深刻。现在,他们随后能够做的另一件事是,他们浏览并让它以整体的方式生成这个,就像水晶风格,就像草皮,就像熔岩,就像果冻熊,就像……

金属,所有这些不同的风格。让我印象深刻的是,它实际上是完全相同的。它是完全相同的企鹅。我们只是从许多不同的……

不同的方式看待它。这对创造力来说非常好。你基本上可以上传一张图像并让它重新创建它,然后更改样式。你可以想象自己这样做。我看到一个演示,有人基本上能够上传一张照片。所以这是 LinkedIn 上的 Ali K. Miller。她上传了她用……制作的播客封面,你知道的,她的个人资料图片或任何专业工作室照片或其他什么。然后她说,创建一个……

顺便说一句,她正在做的这个甚至不是谷歌发布的同一个。所以 OpenAI 正在针对谷歌的这个工具提出某种回应,它能够做几乎相同的事情。但对于谷歌的产品来说,她上传了一个播客封面,并说:“为这位女士创建一个正式的护照照片。确保使用完全相同的女士。”它创建了所谓的护照照片,看起来就像护照照片。而且它看起来和她完全一样。

就像你可以看出它显然是用 AI 重新创建的,但它就是她。所以我们正到达这样一个点,这些工具非常擅长你上传一个角色,然后它只是以许多不同的变体重新创建它。所以这是一个非常酷的演示。他们展示的下一件事是这个东西非常擅长生成复杂的提示。所以他们基本上创建了一个……

他们为此使用的提示,其中包含 15 个不同的东西。比如一对大眼睛,一个竖起大拇指的表情符号,一把蓝色的剪刀,一只白色的长颈鹿,“睁开眼睛”这个词,他们想要创建所有这些不同的东西。然后它创建了一个包含描述中所有 15 个事物的图形。他们展示这个的原因,我对此感到非常震惊,而且我认为它很重要,是因为……

现在到了这样的地步,这些图像,你知道的,我们之前有很好的图像模型。我认为 Midjourney 就相当不错。它看起来相当逼真。你可以生成人们非常逼真的照片。现在它很有用。现在你可以说,我希望有一个,你知道的,像我希望有一个相机。我希望有这个特定的产品。我希望有这个特定的灯光,这个特定的角度。我希望你像……

在背景中有 10 件这样的东西,它会完全按照你说的去做,对吧?你就像,“我希望他们穿着绿色的鞋子,我希望在背景的窗台上放七双绿色的鞋子。我希望衣橱里挂着五件夹克。”之前的 AI 模型无法做到这一点。所以这真的很不可思议。

它现在具有这种能力。所以它现在能够做的下一件事是基本上混合文本和图像。我用我认为非常令人印象深刻的信息图表示例来介绍这一点。但我看到了许多其他示例,想象一下,你现在创建了该信息图表,但随后你想要将其与真实世界的照片合并。他们做了一个演示,他们创建了一个信息图表……

然后他们创建了,基本上,他们让某人拿着该信息图表放在教科书的封面上,在现实世界中的凯旋门前。所以它看起来像一张真实的照片,其中信息图表就像纸上的一样。对我来说,这真的很酷。这就像,这非常超现实。你可以生成……

图形。然后因为你正在与聊天界面聊天,所以你生成一个非常酷的图形。这就像现在取走该图形,把它贴在教科书的封面上,让一个人这样做,然后它将生成下一张照片。然后你可以说,如果你想的话,你可以说,“现在取走那张照片,把它放在报纸的封面上,让某人阅读它。”这就像,“现在取走那张报纸的照片。”就像你可以像创建与图形相一致的图形一样,这些图形变得如此详细。

这真的很酷。我认为这是第一次,这些非常有用。好的。我认为还有一些其他功能绝对值得一提。其中一个重要的功能是你可以实际编辑这些照片。你可以做一些很酷的事情。显然,你坐在那里与它聊天,描述你想要如何编辑照片。你可以说诸如特定纵横比之类的事情,这真的很酷。你可以说确切的颜色。你可以使用十六进制代码。

我的天哪,这对图形设计师来说太不可思议了,他们就像,“嘿,我们的品牌颜色是,你知道的,这五个或这三个十六进制代码。”你输入这些十六进制代码,它将重新创建你的徽标或重新创建,你知道的,你照片背景后面的东西。现在所有内容都将与你的品牌颜色相匹配。这太棒了。当然,你也可以进行透明背景。他们展示了一个演示,他们创建了一个狗的贴纸,并制作了一个透明背景。他们实际上能够做到这一点。

并将其作为透明 PNG 背景下载。他们制作了许多不同的贴纸。我认为这真的很酷。我想展示的最后一件事是,他们做了一个演示,他们基本上能够使用 GPT-4 以许多不同的风格创建图像。他们首先做的是制作一本漫画书。她画了一本漫画书……

拍了一张照片上传了它,所以这就是我随后实际测试的内容,我会向你展示它能够做什么,但她只是画了一幅漫画书的草图,然后她说,你知道吗,你能把它变成一条龙的真实漫画吗?然后它就去了,实际上画了出来,它拿走了她的草图,把它画成了彩色,然后它很有趣,但她有点说,嘿,这是一张水晶企鹅的图片,是他们之前在演示中生成的其中一只水晶企鹅,她说,现在用这只水晶企鹅换掉龙,它直接把它扔进了漫画书。所以这就像……

我认为能够上传图像并让它实时执行这些操作的能力。她还拿走了水晶企鹅,并说:“在我的客厅里生成这个的逼真雕像。”然后它能够在我的客厅里生成它。所以你正在图像内部上传图像。这只是非常有用,非常有用。所以我决定测试一下图像,看看它是否能够重新生成图像。我尝试了很多……

模因,我像我截取了一个模因的屏幕截图,我说重新制作这张照片,当我第一次说重新制作这张照片时,它有点卡住了,它只是为照片创建了文本,然后我告诉它创建图像,根据该图像,它不是很好,所以我有点灰心,我认为这可能与它首先创建文本的方式有关,所以我又尝试了一次,虽然它实际上在视频生成时崩溃了,并且……

我截取了 Riverside 的屏幕截图。这是我用来录制播客的软件。我说,精确地重新创建这张图像,甚至包括所有文本。我们谈论的是大量 UI 的屏幕截图,屏幕上到处都是文本元素。它在崩溃之前生成了大约一半的图像。但在图像的那一半中,它有像完美写出的文本,看起来绝对令人惊叹。

我对此非常非常震惊和印象深刻。总的来说,看起来我们从我目前能够演示和测试的内容中看到了一些绝对令人难以置信的东西。我的意思是,我们谈论的是文本令人惊叹。就像什么?我们正在重新创建我的屏幕上任何内容的屏幕截图。我们正在制作一次性图形。我们正在制作贴纸。我们正在编辑东西,透明背景。我认为这确实是许多人梦想中的图像生成器。

老实说,我已经完全放弃了 ChatGPT 上的图像生成一年多了。还有很多更好的选择。这击败了所有人。我的意思是,字面意思是击败了所有人。这成为一个非常有用的工具,以至于我认为它威胁到了 Canva。它威胁到了许多其他……

参与者。所以我对谷歌印象深刻,就像我提到的那样,他们已经推出了另一个能够做一些类似事情的工具。ChatGPT 现在是最大的。所以我认为他们没有让谷歌长时间窃取他们的风头。他们推出了这个,而且它令人难以置信地令人印象深刻。强烈推荐查看一下。如果你是一个专业用户,如果你为此付费,即使是一个免费用户,这也将推出给每个人。你必须去查看一下。你需要确保做的一件事是,你需要确保选择了 ChatGPT 4.0。

你不需要去选择 Dolly 或选择任何类型的图像内容。只需确保它是 ChatTube T4O。在那里你可以获得这个图像生成的最佳版本。非常感谢收听播客。如果你喜欢它,请务必在 YouTube 上点赞和订阅。在 Apple 或 Spotify 上给我们留下评论或评价。非常感谢收听。我希望你们今天剩下的时间都过得愉快。