We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode 10 Things Transformed by ChatGPT's New Image Generation Model

10 Things Transformed by ChatGPT's New Image Generation Model

2025/3/30
logo of podcast The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

The AI Daily Brief (Formerly The AI Breakdown): Artificial Intelligence News and Analysis

AI Deep Dive AI Chapters Transcript
People
B
Balaji Srinivasan
N
NLW
知名播客主持人和分析师,专注于加密货币和宏观经济分析。
Topics
Balaji Srinivasan: ChatGPT的新图像模型带来了革命性的变化,它不仅改变了图像滤镜的使用方式,使我们只需要几个关键词就能生成不同风格的图像;它还将改变在线广告的制作流程,使广告单元的生成自动化;此外,它将提升模因的质量,因为降低提示工程的难度,更容易获得好的结果;它可能改变书籍的呈现方式,可以将文本转化为漫画形式,提高书籍的可访问性;它将改变幻灯片的制作方式,可以自动生成更具视觉吸引力的幻灯片图片;它将改变网站的设计,可以自动生成与网站风格一致的占位符图像;它可能改变电影的制作方式,可以轻松地重新制作旧电影或创造新的视觉风格;它将改变社交网络的使用方式,图像上传按钮旁边将会有一个生成图像的选项;它将改变图像搜索的方式,图像搜索结果中将会有一个生成图像的选项;它使得复制视觉风格变得非常容易,这将改变人们对视觉风格的区分方式。 NLW: 我同意Balaji的观点,ChatGPT的新图像模型带来了广泛而深远的影响。它不仅改变了滤镜的使用方式,更重要的是它可以将一种美学风格应用于整个体验,例如一个网站。在模因方面,虽然模型提升了模因的质量,但目前大多数人只是用新模型来重新制作旧模因,而不是创造全新的模因。该模型可以用于创作漫画或图画小说,并可以对图像进行精细的控制和修改,这将改变人们阅读和消费内容的方式。它将与vibe coding工具结合,改变软件开发的方式,文本到代码和文本到UI设计能力的结合将产生强大的效果。它可以改变电影的制作方式,例如可以将旧电影以新的视觉风格重新制作。最重要的是,它将彻底改变在线广告行业,降低广告制作成本,改变创意流程,并增加创意测试的可能性。

Deep Dive

Chapters
The new model allows applying aesthetics to entire experiences, not just single images. This is exemplified by the transformation of websites with a consistent aesthetic, showcasing the model's impact beyond simple Instagram filters.
  • Effortless application of aesthetics to entire experiences.
  • Transformation of websites with consistent aesthetic.
  • Impact beyond simple Instagram filters.

Shownotes Transcript

今天在AI每日简报中,我们将讨论ChatGPT的新图像模型改变的10件事。大家好,欢迎回到AI每日简报的另一个长篇阅读节目。虽然我们再次以稍微不同的方式进行今天的节目。本周最大的谈话话题当然是ChatGPT的新图像生成模型。图像生成的触手可及性使其甚至超越了其他重要新闻,例如谷歌的Gemini 2.5发布。

此外,这是一个模型时刻,新性能不仅是渐进式的,而且实际上开辟了全新的用例类别,这些用例在之前的模型中,如果被探索过,则依赖于复杂的包装软件或复杂的变通方法和工作流程,但现在已成为模型的核心级别功能。

因此,我们今天要做的是阅读Balaji Srinivasan关于这个新模型发布改变的10件事的长推文。然后,我将挑选我认为最重要或最有趣的几个方面来讨论,并以此展开讨论。所以让我们开始吧。让我们先阅读Balaji的推文,然后我再深入探讨。Balaji写道:

1. 这改变了滤镜。Instagram滤镜需要自定义代码。现在你只需要一些关键词,比如宫崎骏工作室、苏斯博士或南方公园。2. 这改变了在线广告。现在可以自动化大部分广告单元生成的流程。3. 这改变了表情包。表情包的基本质量应该会提高,因为已经达到了降低提示工作量以获得良好结果的关键阈值。4.

四,这可能会改变书籍。我想看看有人是否会从古腾堡计划中获取一本公共领域书籍,逐页将其输入Claude,并让它使用新的ChatGP团队将其转换成漫画书面板。这样可以使旧书更容易获得。

五,这改变了幻灯片。我们现在已经接近可以为任何幻灯片组生成一些合理的AI图像的点了。通过正确的集成,应该会有更少的只有项目符号的演示文稿。六,这改变了网站。你现在可以为任何图像标签生成特定网站风格的占位符图像,作为一种视觉上的“Lorem Ipsum”。七,这可能会改变电影。我们可以看到旧电影的逐镜头重拍和新的视觉风格,并进行配音,仅仅是为了艺术性。尽管这些作为片段可能比作为完整电影更有趣。

8. 这可能会改变社交网络。一旦这项技术开源和/或足够便宜以广泛集成,每个上传图像按钮都会有一个生成图像的选项。9. 这应该会改变图像搜索。一个生成选项也会出现在可用的图像旁边。10. 视觉风格突然变得极其容易复制,甚至比前端代码更容易。区别必须以其他方式来体现。

好了,这就是框架。我不会讨论所有这些。我会跳到一些我认为最有趣、需要更深入探讨的部分。

首先,让我们先谈谈生物学,即这改变了滤镜的想法。现在,很明显,我们在过去几天已经看到了这种情况,大量的人将自己或他们的家人“宫崎骏化”了。Sam Altman本人现在在X上使用宫崎骏风格的图像作为他的头像。但我认为这不仅仅是改变了滤镜。我认为事实是滤镜现在可以应用于全新的领域。

基本上,你不再只是将滤镜应用于单个图像或照片,你现在可以轻松地将美学应用于整个体验。

例如,VC和建设者Yohei of Untapped VC将他们的整个网站“宫崎骏化”了。对于那些正在收听而不是观看节目的朋友们,这又是值得一看的视觉效果,即使你只是去untapped.vc。除了网站背景感觉像宫崎骏电影外,所有Portco的标志再次成为看起来像宫崎骏电影封面的图像。

一方面,你可以将其视为一个非常贴近潮流的VC,一个AI社区成员正在追逐AI趋势。但我认为它展示了能够将整体美学移植到整个网站规模的大型内容类别中的想法。因此,Apology是对的,它确实改变了滤镜,但这不仅仅是Instagram滤镜。滤镜现在可以应用于更广泛的资产和领域。

接下来,让我们谈谈表情包。Bhaji说,表情包的基本质量应该会提高,因为已经达到了降低提示工作量以获得良好结果的关键阈值。我们现在还没有,在这个模型发布四五天后,还没有看到特定表情包的第一个例子。我们有一个表情包模板,那就是我们将所有东西都“宫崎骏化”了,但我们还没有因为新功能而产生的原生ChatGPT图像生成表情包。

相反,在过去几天里,每个人都在做的事情是用新的风格复制旧的表情包。Dan Romero制作了《心灵捕手》中经典的酒吧场景,显然是宫崎骏风格的,文字是:“当然,那是你的论点。你是一个第一天使用ChatGPT图像提示符的人。你刚刚完成了将流行的互联网表情包转换成动漫。可能是宫崎骏风格的。你会相信这一点,直到下周你看到海绵宝宝。然后你会谈论20世纪90年代后期的尼克儿童频道视觉风格如何完美地转化为这种形式。”

这会持续到下个月。然后你会在这里重复扩散模型实际上更好地暴露了谈论,你知道,即将推出的Midjourney V7中可用的高级技术。现在,这个表情包有一个非常具体的受众,我可能是中心人物。但关键是,到目前为止,互联网上曾经出现过的每一个旧表情包都正在以这种方式被“宫崎骏化”。

Pixlossopher变得更加超现实,他们说:“好的,这是一个由GPT创建的表情包,当我要求它制作一个关于人类使用AI制作表情包的表情包时。它展示了一个四格漫画,标题为‘表情包创作的演变’。公元前10000年,一个穴居人画了一只猛犸象,并说:‘我画的有趣的猛犸象让部落大笑。’2005年,一个程序员写道:‘我使用很酷很酷的字体制作表情包。’2025年,一个躺着的人说:‘嘿,我制作了一个关于人类使用AI制作表情包的表情包。’

在2030年,一个类人机器人说:等等,我在取笑自己吗?我现在是表情包吗?接下来,让我们谈谈第四点。这可能会改变书籍。这里有两点让我感兴趣。首先,你已经看到很多漫画或图画小说风格的创作。例如,Midas Quant给了ChatGPT四张图片,并要求它将其转换成漫画书,并且实际上得到了结果。

我看到其他人使用这个角色一致性维度为他们的孩子制作故事书。基本上,换句话说,这个新模型的功能之一是,因为它与文本模型原生集成,你可以使用文本对图像的特定部分进行细粒度的控制和更改。

你可以从一张基础图像开始,然后要求将同一个角色放在新的姿势或新的环境中。它会比之前的模型版本做得更好,之前的模型版本必须转到另一个单独的Dali模型,然后才能将其带回来。所以你已经可以自己做到这一点,这对于任何类型的视觉叙事来说都会好得多。

不过,我认为Balaji是对的,可能还有一些其他类型的功能,不仅仅是从头开始生成全新的书籍,而且实际上还会改变我们与现有材料互动的方式。有趣的是,来自Product Hunt的Ryan Hoover单独发布了“启动请求:Audible 2.0”。

书籍过于冗长。语音阅读器通常很枯燥。做笔记很笨拙。但谢天谢地,我们今天有了LLM,可以改写得更简洁,并适应我喜欢的沟通风格。让我选择一个喜欢的阅读器。摩根·弗里曼,请。通过听写添加书签关键概念。例如,保存关于X的观点。现在,Ryan说他认为这不会是一个好生意,而且很明显许可证很棘手,但他仍然想要它。

我确实认为未来提供的关于如何消费内容的选择非常强大,而这个新模型开启的是这方面的视觉方面。接下来,让我们谈谈编码。在第10点中,Balaji写道:“总的来说,视觉风格突然变得极其容易复制,甚至比前端代码更容易。区别必须以其他方式来体现。”

我认为这方面有趣的是,这个工具将如何与正在兴起的氛围编码工具混合和融合。例如,Riley Brown将一堆代码输入ChatGPT,并要求它将其渲染为图像,它完美地完成了这项工作。我看到其他人反过来做,要求它设计一个特定的UI,然后将其转换成代码,它再次做得很好。总的来说,这是另一件事,它正在改变构建生产软件的意义。

一方面,我们有文本到代码的功能即将出现。另一方面,我们通过这种图像生成获得了文本到UI设计的在线功能。这两个功能的结合将是一个非常强大的地方。顺便说一句,Replit的首席执行官正式公开表示,他不再认为你应该学习编码,这可能是一个更长的讨论。但是随着这些类别的工具融合,你可以理解他为什么会有这种感觉。

第七点,这可能会改变电影。我们可以看到旧电影的逐镜头重拍和新的视觉风格,并进行配音,仅仅是为了艺术性。尽管这些作为片段可能比作为完整电影更有趣。

虽然可以指望互联网立即解决这个问题,但AI电影制作人PJ Ace在这个模型上线后的几个小时内就发布了:“如果宫崎骏工作室执导《指环王》会怎样?我花了250美元的Cling积分和9个小时重新编辑《护戒使者》预告片,以实现这一愿景。”当然,我们有了完整的《指环王:护戒使者》预告片,这是一个令人印象深刻的宫崎骏风格电影。

现在,人们可能会倾向于将这仅仅视为新奇事物或玩具。但新奇事物和玩具往往是我们尝试最终会发生转变的方式。

我希望这种转变的第一波将是像这样的事情,通过将一种美学滤镜应用于不同美学风格的流行媒体资产来获得病毒式传播。但我也很确定这不会一直持续下去。这种奇怪的融合和混合将成为对创作产生更大、更根本影响的东西。

最后,让我们谈谈第二点。这改变了在线广告。这可能是最明显的转变,也是感觉对现有业务破坏最大的一个。Lorenzo Green写道:AI图像生成广告大战结束了。

广告团队即将缩小规模,大幅缩小规模。举例来说,他拿了一本书《多巴胺国家》,并要求ChatGPT创建一个马克·扎克伯格阅读这本书的图像,它完美地完成了这项工作。他以Liquid Death在苹果广告中的形象为例,并说基本上是用这种风格为Liquid Death制作广告。

他指出,如果你有一个像鞋子这样的资产,但没有模型,那不再是问题了,创建一个快乐的护士穿着特定鞋子的图像等等。事实上,在宫崎骏表情包之后,这可能是你在时间线上看到的最多的一种生成类型。

同样重要的是,虽然人们大多展示他们的一次性生成,但模型原生修改生成特定部分的能力意味着你不会仅仅寄希望于你的单次生成能够正确。你可以回去进行细粒度的编辑。那么这会让广告行业走向何方呢?我认为这不会在一夜之间结束。世界充斥着各种类型的视觉广告。

有些好,有些坏。品味、创造力、概念,这些即使在引入AI后也不是无限的。想想超级碗广告。超级碗广告实际上是任何一年最重要的广告资产。

每个制作超级碗广告的人都至少,我可不是开玩笑,至少花了1000万美元用于该广告,包括广告时间和广告制作过程。通常更接近1500万或2000万美元。尽管如此,大多数广告仍然是垃圾。然而,绝对改变的是,视觉或印刷广告的成本结构不可能下降。围绕这些资产的创作过程不可能不变。

我们再次回到关于AI工作的奇异博士理论,我认为部分不同之处在于,创意人员将测试各种各样的想法。创意人员不会在只有少量样机的头脑风暴会议上坐下来,而是会测试数百个概念。他们将设计成群的代理来测试基于数十或数百种不同风格的概念。

他们可能还会有其他代理来根据理论上的人群面板测试所有这些广告。然后,最终,他们将利用AI的所有建议和想法,并运用他们的人类品味来做出判断。尽管如此,不可否认的是,这对广告行业来说是一个巨大的、重大的结构性变化时刻。试图将其视为任何低于这个水平的东西,对于在这个领域持有这种观点的企业来说肯定会有麻烦。

再说一次,这个版本发布才几天。我们只是触及了它所能做到的皮毛。我们已经有了这10个或更多领域发生了真正的变化。我个人非常期待接下来会发生什么。但现在,让我们结束这个节目,这样我们就可以在这一趋势完全消失之前,把我们所有的家庭照片都“宫崎骏化”了。一如既往地感谢您的收听或观看。直到下次,再见。