We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode The Hunt for State of the Art (with Suhail Doshi)

The Hunt for State of the Art (with Suhail Doshi)

2024/9/19
logo of podcast Lightcone Podcast

Lightcone Podcast

AI Deep Dive AI Insights AI Chapters Transcript
People
G
Gary
无足够信息创建详细个人资料。
J
Jared
M
Mark Mandel
S
Suhail Doshi
Topics
Suhail Doshi: Playground 的开发历程充满挑战,在发布前夕经历了彻底的改版。模型的文本生成能力是核心竞争力,团队为此付出了巨大的努力,并取得了显著的成果。Playground 的用户界面设计注重视觉优先,用户无需学习复杂的提示词工程即可轻松创建图像。模型能够处理极长的提示词,并具备强大的空间推理能力,这得益于团队对模型各个组件的精细化打磨。团队在模型训练过程中使用了极其详细的提示词,并通过与创作者合作,不断完善模板和提示词,以提升用户体验。Playground 的目标是成为图形设计领域的领导者,而非仅仅是一个娱乐工具。团队在发展过程中也面临着诸多挑战,例如如何平衡模型的精确性和美学,以及如何选择合适的用户群体等。 Gary: Playground 的图像生成质量和用户体验都达到了业界领先水平。用户可以像与平面设计师沟通一样与 AI 互动,创建图像和文本,并能根据用户反馈进行修改。 Jared: Playground 模型在文本准确性和一致性方面达到了业界领先水平,有潜力取代 Adobe Illustrator 等图形设计软件。Playground 的应用场景不同于以往的图像模型,它更侧重于辅助用户进行图形设计和插图创作,并能处理极长的提示词,具备强大的空间推理能力。 Mark Mandel: Playground 的用户体验非常出色,用户无需学习复杂的提示词工程即可轻松创建图像。 Mark Mirchandani: Playground 模型能够有机地整合文本,并允许用户精确控制文本的位置、大小和字体等属性。

Deep Dive

Key Insights

What makes Playground's AI image diffusion model state-of-the-art?

Playground's AI image diffusion model is state-of-the-art due to its exceptional text accuracy, prompt adherence, and user experience. It allows users to interact with the model in natural language, making it feel like talking to a graphic designer. The model can handle extremely detailed prompts, up to 8,000 tokens, and excels in spatial reasoning and text generation, which sets it apart from other models like MidJourney or Stable Diffusion.

Why did Playground focus heavily on text accuracy in its model?

Text accuracy was a top priority for Playground because text is integral to the utility of graphics and design. Without accurate text, designs often feel incomplete or less functional. The team faced challenges, with text accuracy initially at 45%, but they overcame this by focusing on detailed prompts and improving the model's understanding of text-related tasks, which is crucial for creating logos, t-shirts, and other design elements.

How does Playground's approach to prompting differ from other AI image models?

Playground's approach to prompting is more visual and user-friendly compared to other models. Instead of requiring users to write detailed prompts, Playground allows users to start with templates and modify them using natural language. This reduces the need for prompt engineering and makes the process more intuitive, enabling users to achieve their desired results without extensive trial and error.

What challenges did Playground face in developing its model?

Playground faced several challenges, including improving text accuracy from a low of 45%, ensuring prompt adherence without compromising aesthetics, and creating a user experience that felt natural. The team also had to navigate the complexities of integrating detailed prompts with visual design, which required significant research and innovation. Additionally, they had to balance the model's adherence to prompts with aesthetic quality, which sometimes led to lower user scores despite the model's accuracy.

How does Playground's model handle spatial reasoning and text generation?

Playground's model excels in spatial reasoning and text generation by allowing users to specify exact details like the position of elements, font size, and leading. It can handle complex prompts involving spatial relationships, such as placing a green triangle next to an orange cube, and generates accurate text that adheres to user instructions. This level of control and precision is a significant improvement over other models like MidJourney or Stable Diffusion.

What is the significance of Playground's marketplace for creators?

Playground's marketplace allows creators to design and sell graphics, stickers, and t-shirts directly through the platform. This not only provides a revenue stream for creators but also enriches the product with high-quality, user-generated content. The marketplace is part of Playground's strategy to make the product more accessible and useful for a broader audience, moving beyond just image generation to a full-fledged design tool.

How does Playground's model compare to MidJourney in terms of aesthetics and prompt adherence?

Playground's model often scores lower in aesthetics compared to MidJourney because it prioritizes prompt adherence. While MidJourney may produce more visually pleasing images by ignoring certain prompt details, Playground's model strictly follows user instructions, which can sometimes result in less aesthetically pleasing outputs. This creates a trade-off between adherence and aesthetics, which Playground is working to address.

What lessons did Suhail Doshi learn from his previous startups that influenced Playground?

Suhail Doshi learned the importance of focusing on the biggest market and avoiding niche or unsustainable user bases, as he did with Mixpanel and Mighty. He also emphasized the value of having a tailwind for a company, where external factors like technological advancements support growth. These lessons shaped Playground's strategy to target the broader graphic design market and leverage the AI revolution for scalable success.

How does Playground's model handle emotional expression in images?

Playground's model is designed to capture emotional expressions in images, such as happiness, sadness, or anxiety. This is achieved through detailed prompts that describe the desired emotional state, allowing the model to generate images that accurately reflect those emotions. This capability enhances the model's utility for creating expressive and meaningful designs.

What is the future direction for Playground's AI model?

Playground aims to continue improving its model by enhancing prompt understanding, text accuracy, and aesthetic quality. The team is also exploring new features like emotional expression and better spatial reasoning. Additionally, they plan to expand the marketplace for creators and integrate more user feedback to refine the product. The goal is to make Playground a comprehensive tool for graphic design, potentially rivaling established platforms like Canva.

Shownotes Transcript

Suhail Doshi,一位Y Combinator校友,之前创立了Mixpanel和Mighty,他与Playground团队一起创建了一个最先进的(SOTA)AI图像扩散模型。该应用程序允许你像与平面设计师对话一样与它互动,并帮助你为各种用例创建图像和文本。在本期Lightcone节目中,Suhail与主持人坐下来讨论了他与团队一起构建Playground的经验以及打造SOTA模型需要什么。

</context> <raw_text>0 我认为我们最初设想的产品形态与最终发布的产品完全不同,我们在发布前大约一个月半的时间里彻底推翻了之前的版本。我们当时就像迷失在丛林中一样,有点慌乱。基本上有很多未解决的问题。我的意思是,即使是这个版本的Playground,人们试用后可能会感到惊艳,但下一个版本将会更加令人难以置信。要达到SOTA水平,你基本上必须

对每一个细节都近乎疯狂。有些人训练他们的模型,可以得到很酷的文本生成效果,但字距可能不对。你是那种会在乎字距是否正确的人,还是不在乎,甚至根本注意不到的人?

欢迎回到Light Cone的另一期节目。我是Gary。这是Jared、Harj和Diana。我们共同投资的公司价值数千亿美元,通常只是一两个人刚起步的公司。我们正处于这场疯狂的AI革命之中。所以我们想邀请我们的朋友Suhail Doshi,Playground的创始人兼首席执行官,

Playground是一个拥有最先进图像生成模型和用户体验的应用程序,它刚刚发布。Suhail,你现在感觉如何?现在压力很大。

那就好。你像一个初创公司创始人一样开始,这是很正常的。也许最好的开始方式是看看你能够生成的图像的一些例子。这些都是刚发布的内容。在Y Combinator,我也是小组合伙人之一。所以我每批都会投资一些公司。我为夏季批次投资了大约15家公司。

我们现在看到的是我制作的T恤设计之一。正如你所看到的,上面有一个GPU,它是基于你库中的一个核心模板。我喜欢金属,所以这个设计非常吸引我。这个是基于贴纸设计的。

我想我只是非常喜欢那把剑。我可以添加GPU风扇。MARK MANDEL:太棒了!太棒了!MARK MIRCHANDANI:所以这是Playground值得注意的事情之一。你可以上传一张图片,它会提取

某种美学和一些特征的精髓。然后你可以重新组合它。- 这个感觉像纹身。- 是的,没错。- 你还记得你用什么提示生成的这些吗?- 哦,是的,关于Playground很酷的一点是,为了创建这个,我选择了一个我喜欢的默认模板,我认为它只有剑和丝带。我说,让丝带上写上“House Tan”,

并添加一个带两个风扇的GPU。我很具体,我想要一个双风扇的GPU。这是你在所有这些设计中都会看到的事情之一。这实际上是House Tan公司自己选择的T恤。

所以,这是一个非常夏日氛围的设计。我认为这是基于夏季和冲浪的主题,我们用GPU替换了冲浪板。我觉得你用的是我们预设的模板。是的,所有这些都是来自预设模板的。它们相当不错。

我认为值得注意的是,我不需要反复提示并不断尝试改进相同的文本提示。我实际上可以像和设计师对话一样,它就会给我想要的东西。例如,从左到右,默认情况下,我认为模板有这种黄色的背景,我说,把它改成白色的。这是一种非常……

不寻常的交互方式,我以前没遇到过。你通常会

在Midjourney的Discord服务器上进行交互,或者习惯于使用聊天界面,或者先输入提示,然后调整参数,反复提示,而这个感觉更像是自然语言,我可以直接与一个机器设计师对话,它会考虑我的反馈。是的,通常当你制作这类图像时,你必须详细描述所有内容,对吧?你必须说

我想要米色的背景,我想要橙色的日落。然后你甚至必须描述太阳的光线等等,或者你描述得不多,每次尝试的结果都与其他结果完全不同。所以通常情况下,你必须学习某种神奇的咒语。

而不是能够从你开始的东西中进行选择。而且对于这些图像,Gary,你是后期处理添加文本,还是模型实际上是有机地整合文本的?哦,模型既可以根据你的指示确定应该显示什么内容,以及它的

大小。你实际上可以指定设计中的位置。你可以说,我想要放在中间,我想要放在顶部。我们可以使用更大或更小的字体吗?更好的行距?你可以稍微调整一下吗?你可以用简单的英语与它交流。我今天在任何图像模型中都没有见过这样的功能。这太不可思议了,因为文本非常完美。任何使用DALI的人都知道,如果你试图让它写文本,文本会像

乱码和僵尸一样。是的,拥有准确的文本,并能够将文本放置在所需的确切位置,这真是太不可思议了。就文本的准确性和连贯性以及遵循提示方面而言,它确实是SOTA级别的,这真的很酷。我们认为非常酷的一点是它正在发明字体。是的。

例如,我不知道这是什么字体。它可能是一种真实的字体,但我认为在所有这些情况下,它实际上只是从许多不同类型的字体中进行推断,并实际上发明了新的东西。

这真的很酷。好的。这些只是其他几个版本。我看到了一些老式的东西,我想,好吧,你能做一个GPU的矢量版本吗?左边是GPU,右边是日本艺术馆的美学风格。这些都很棒。然后这个,如果让我自己处理,我会打印这个,因为我真的很喜欢……右边的那个?是的。我可以告诉它

让它更像典型的日本艺术风格。你知道,我想要更多的波浪,我想要更多的太阳。它基本上一直在这样做。我认为我知道这个预设。我记得大约一个月半前创建了这个预设。我认为它叫做“神话墨水”之类的。这就是应用程序的工作方式。你知道,你打开应用程序,选择一个预设,或者你可以上传你真正喜欢的自己的设计。然后它似乎会提取该特定事物的氛围。你知道,它不会复制,它会重新组合。你是故意设计它在文本处理方面如此出色吗?还是这只是你

架构设计的所有内容的涌现特性?我们确实专注于提高文本的准确性。我认为这是我们最重要的关注点之一。部分原因是,对我们来说,文本与图形和设计的实用性密切相关。因为很多没有文本的东西大多只是艺术。但是,文本确实是一个非常高的优先级。实际上这很难。可能有一个

点,我们的文本准确率只有45%。我们当时就像迷失在丛林中一样,有点慌乱,但我们最终解决了这个问题。我认为所有这些设计中值得注意的一点是,我本人也玩了很多。

很多输出都非常实用和有用,因为我玩过Midjourney和所有这些。我认为它们很有趣,但更像是玩具,更像是艺术。但如果你真的想设计logo、T恤、字体大小,那么很难使用它。我完全可以想象它会取代Adobe Illustrator,对吧?是的,是的,我认为,你知道……

部分原因很有趣。我之所以对平面设计如此兴奋,部分原因是当我年轻的时候,还在高中的时候,我曾经参加logo设计比赛,并试图赢得比赛。我认为有一个网站叫做sitepoint.net之类的。我只是想在大学之前,在去大学之前赚点小钱。所以我做了所有这些logo设计,并学习了所有这些教程。

试图赢得比赛。所以在训练这个模型的过程中,我用它测试了logo设计,我开始意识到,哇,它实际上比我所能做的任何东西都好得多。然后我也制作了我自己公司的logo,通常也很糟糕。所以对我来说,感觉如果能够得到文本,并且能够获得这些其他类型的用例,你可能能够击败至少中等水平的设计师。

平面设计师,也就是Illustrator使用者。然后我认为随着时间的推移,我们应该能够达到第90百分位的平面设计师水平。MARK MANDEL:所以这实际上是一个非常不同的用例,还没有得到解决。我还没有看到图像模型尝试设计图形或插图。它不太像是生成非常酷的图像来替换库存艺术之类的东西。

它更像是让你随时随地创建Canva类型的东西,而无需费心。用简单的英语即可。只需与模型对话。模型会创建你想要的东西。我从未见过这样的东西。

是的,我认为我们只是在考虑平面设计的用例。而且,有趣的是,它对现实世界有很大的影响,因为有保险杠贴纸和T恤,我认为上周末在Outside Lands音乐节上。我只是看着每个人的T恤,看看他们穿了什么。我看到Outside Lands上的一群女性穿着一件T恤,上面写着“我

感觉自己像2007年的布兰妮”。我只是觉得这件T恤太酷了。所以我们为此制作了模板并将其添加到产品中。但是现实世界中还有很多很酷的影响。而且我认为世界往往有时认为我几乎,我几乎有点失望,因为我的空间里没有那些曾经在我的空间里的人。因为它是一个非常具有表现力的社交网络。我觉得人类非常关心这种表达方式。是的,

所以能够制作一个真正专注于所有这些事情的模型真的很酷。但你实际上是在构建一个产品,而不仅仅是研究,因为有了Playground中的所有这些设计,你实际上可以购买它们,比如贴纸、T恤,对吧?是的。你能告诉我们一下你正在构建的这个市场吗?是的。我认为,你知道,我们学到的一点是,人们很难输入提示。因为很难输入提示,

我们还发现很难教人们如何输入提示。事实上,当你制作这些模型时,我们甚至不知道它是如何工作的。我们也正在与社区一起发现模型的工作原理。因此,我们决定做的一件事是,我和我们的设计师决定,一个核心信念是产品应该是视觉优先,而不是文本优先,这与语言模型和ChatGPT有很大的不同。

因为我们的产品是如此的视觉化,为什么它不应该视觉优先呢?因此,为了使其视觉优先,并使其无需学习如何输入提示,我们决定从模板开始,这是人们在Canva等工具中已经理解的东西。这不是我们发明的东西。到处都有模板。但我认为,如果你可以从模板开始,然后我们可以让修改模板变得非常容易,那么……

感觉我们已经完成了80%的旅程。如果它像“我感觉自己像2007年的布兰妮”,但你想把名人及其年份改成其他人。是的。

那么你完全可以做到。我想让这变得非常容易。但这还需要与研究进行大量的整合。因为你如何进行这些更改?你如何使它们保持一致?你如何保持相似性?这并不像将75到77个token输入到Stable Diffusion那样简单。现有的开源模型实际上并不具备这种能力。所以它需要

是的,就像将优秀产品应该具备的感觉与研究结合起来,这并非总是可能的。我认为这就是Gary所说的你构建最先进的UX,所有这些模型的UI。因为到目前为止,人们只是获得原始访问权限。感觉就像在过去,你只需要通过SSH连接到一台计算机并使用它。这就是人们与这些模型交互的方式。但是你……

基本上为它构建了一个全新的浏览器。没有人这样做过,而你做得非常好。你能谈谈这个放弃原始模型访问的想法吗?是的,我认为我们观察了18个月的用户失败案例。所以现在的AI有点奇怪,因为有一个很大的新奇因素,我想说。

这令人兴奋,因为我们能够做以前从未做过的事情。因此,你可以很容易地获得数百万用户使用你的产品。这完全发生在我们身上。所以感觉好像,哦,也许我已经有了产品。但是当你真正查看数据以及人们如何使用它时,人们使用产品的失败率很高。所以……是的,你指的是Playground的先前版本。Playground的先前版本,是的。所以它没有这种类型的模型。它没有……

设置确实相当不错。我们主要使用Stable Diffusion。我们使用了开源模型,然后我们开始训练一些与Stable Diffusion非常相似的模型,以此作为提升到我们现在水平的方式。当我们观察用户提示这个模型时,显然有两个反馈:这很有趣,很酷,我可以得到一只喝啤酒的猫。然后你把它发布到Twitter上,这很令人兴奋。但是……

但是人们为什么还会回来呢,这是一个很大的问题。然后第二点是,人们大量使用我们的服务,但他们并不总是大量使用我们的服务,因为它是一件有用的事情。这是因为他们没有得到他们想要的东西。所以他们必须不断重试。是的。是的。

你知道,谷歌试图让你离开网站,那种感觉就像人们过度使用它在某种程度上是糟糕的。而且,你知道,他们只是不断地,我们称之为“重新掷骰子”。对。不断地重新掷骰子以获得不同的图像或略微更好的图像,或者修复不正确的爪子或尾巴,你知道。然后发生的事情是,我们的模型可以接受非常长的提示。像大多数这些模型一样,你只能写75个token。但是对于我们的模型,它是……

8000个。大多数人现在永远不会超过1000个。我现在这么说,但我们会看到的。1000个token已经很多了。我们的模型允许你非常详细地描述。

所以你可以真正描述桌子的纹理,皮肤纹理。我们有所有这些类似拼图的提示,例如“绿色三角形旁边是一个橙色立方体”,你知道,它可以工作。实际上,包括文本生成在内的空间推理功能都存在。这完全是新颖的。而且我真的以前从未见过。是的。你知道,第一代这些模型,你几乎立即会做的事情是说,生成一个绿色,你知道,绿色球体放在蓝色球体上面。

三角形,但它不会这样做。就像会有这些元素,但它会全部混在一起,因为它使用了CLIP。它没有上下文推理或理解能力。是的,CLIP的训练实际上有很多错误,因为它只是使用从互联网上抓取的图像的alt标签,这些标签可能是任何东西

我们决定将时间花在提示理解和文本生成准确性上,因为我们也觉得美学有点饱和了。它们正在变得更好,但它们也并没有以足够快的速度变得更好。用户甚至会投票,例如在Midjourney的Discord服务器上,他们会对用户进行投票,并询问他们想要什么改进。美学在人们关心的东西的排名中越来越低。

所以我们想尝试跳到真正对用户重要的事情上,那就是针对这些用例的提示理解和文本生成准确性。但是当你有一个非常长的提示时,要求任何人写一篇论文实际上是不现实的。所以我们开始意识到,实际上提示有点像,它有点像图形的HTML,我认为这太酷了。我认为你已经做了一切。

很多事情,因为你完全拥有一个新颖的架构,它真正实现了神奇的提示,因为使用Playground的体验感觉就像你正在与设计师对话。它具有连贯性。它会倾听你的意见,因为对于其他,我不知道,对于Midjourney,如果你想移动文本或其他内容,它不会。位置感知能力不存在。我想你之前与我们

聊天时获得的一个见解是,你学习创建优秀设计时,必须对图像进行大量描述。用户基本上很懒惰,对吧?

是的。他们可能只会告诉你,我想要一个自然场景。如果你将其输入到Midjourney中,它会给你什么?是的,它会给你一个非常美丽、非常丰富、高对比度的自然场景。但是你做了一些非常有趣的事情。我们想谈谈你如何帮助用户并扩展提示以实际构建更好的东西。改进提示理解的第一件事就是改进你的数据。

几乎就是这样,实际上就这么简单。所以我们想做的第一件事是,我们想要非常详细的提示。因此,当我们训练模型时,我们使用非常非常详细的提示进行训练。但我们也希望用户感觉他们只需要说“自然场景”就可以了。所以你在这里看到的是

我们可以达到的详细程度。实际上,我们现在甚至比这更详细。当我们训练下一个模型时,它会比这更详细。但是一旦你达到这种详细程度,我的意思是,我们只是在教模型正确地表示所有这些概念,无论某个东西是在中心还是是否有背景模糊。我们想要改进的一件事,我认为我们现在已经做得相当好了,但那就是情感表达。

他喜欢另一件事?例如,我们有埃隆·马斯克的这张图片,他看起来很厌恶。他很焦虑。他很高兴。他很悲伤。他很自信,并且试图以所有这些不同的方式表达他的情绪。

所以这只是我们想要确保在这些提示中表示的一件事。显然还有更多内容,例如空间位置。因此,通过这样做,我们可以确保如果你是作为用户直接输入提示,如果你什么也没说,模型也能提供良好的体验。然后大多数时候,用户实际上不会写超过标题三之类的文字。我的意思是,即使那样也很多了。那很多。我认为当我玩的时候,我大多在5和6之间。

是的,是的,没错。当你玩的时候,普通人都在做5和6,然后那些狂热的提示者会互相复制提示,然后他们最终会更像1,但他们看起来并不像1。1是一种非常不自然的打字方式,你知道,没有人会写这些论文和段落,文字太多了。

这是我们知道如果我们期望用户这样做,我们可能会失败的一件事。所以这让我们转向了一种更视觉化的方法,你可以在我们理解其在模型中如何表示的世界中选择你已经喜欢的东西。然后我们可以进行这些更改和编辑等等。

这样扩展提示的好处是,你更有可能在第一次尝试时就得到用户想要的东西?还是说它只是让用户更容易迭代以获得他们想要的东西?MARK MANDEL:我甚至不知道我们是否需要这样做。但我认为我们之所以这样做,是因为最初我们不知道模型会好到什么程度。所以我们需要以用户已经使用现有模型的方式为用户提供服务。所以我们并不完全知道突破性的界面。我们还没有到达那里。

因此,为了确保我们的工作方式让每个人都满意,我们想以这种细分的方式进行。这几乎就像有损提示。所以这就是我们这样做的原因。但我认为,你知道,它甚至不是那么必要。但我认为这样做的另一个原因是,一旦提示变得非常详细,图像之间的差异就很难太大,因为你已经锁定在你的图像上了。

因此,通过在提示中加入一些模糊性,你可以获得更多变化的能力。所以有,我们称之为“图像多样性”。所以这样你就可以说“南瓜菜”,但每次都非常不同。我想你产品的很酷的一点是,你基本上消除了所有提示工程,因为你通过扩展和爆炸到这个多标题级别系统来在幕后完成它,对吧?我想起的是

在过去,如果你需要通过命令终端导航网站,你可能会使用curl并获取一些帖子,从字面上输入命令,直到你拥有一个浏览器来拥有正确的UI,对吧?我告诉我的团队说,我们应该为用户做提示工程。它不应该像用户是提示工程师或提示图形设计师一样,如果在这里的话。

但它不应该像用户必须去一样,“我们要做什么?写一本关于如何做到这一点的手册吗?”你知道,这太棘手了。只有1%的人类会理解那本手册,而且,

其余的人会说,我不知道如何使用它。太难了。所以我认为这非常有价值,你知道,我告诉我的团队,我认为我们做所有这些工作非常重要。我们应该对模型的工作原理有非常强的了解,而不是把它交给用户,我认为这是不可行的。然后我们做的另一件事是,我们现在与创作者合作,帮助我们构建这些不同的模板和围绕这些模板的不同提示等等。他们可能是愿意学习这一点的1%的人类。

代表用户。这完全正常。这就是YC所做的。我们建立了这些伟大的公司,数十亿人因此而受益。我想这里有两件事。一是,你可能会创造出一整套新的职业。在过去的设计中,你会有B端人员,人们会雇佣设计师。现在人们会……

通过Playground,雇佣那些顶级1%的AI设计师?对。好吧,我们实际上正在这样做。所以我们正在雇佣他们。哦,你在雇佣他们?是的,我们正在雇佣他们。我们实际上很快就会启动一个创作者计划。目标是吸引那些拥有良好品味的设计师。这仍然很重要,对吧?有一张南瓜菜的图片,但它不是一张非常美丽的图片。我认为品味在世界上仍然是真实的。而且,在设计中……

你知道,在LLM中,你可以衡量你在生物学考试中的成绩,这是一个相当客观的事情

但对于设计来说,它一直在不断发展。10年前的设计可能会过时,除非你是Dieter Rams。但我认为,更根本的是,我们想吸引那些将帮助创建其他人可以使用图形的创作者。我们实际上正在付钱给他们。我想很酷的一点是,第二点,正因为如此,你实际上在这个模型的许多方面都处于最先进的水平。

很多都是由产品驱动的,因为现在为了获得良好的字幕,你可能已经超过了GPT-4.0,对吧?就图像字幕而言?是的,我们现在有一个新的SOTA字幕生成器。为了生成这些。这不仅仅是为了成为一个基准,而实际上是为了构建模型的一个非常实际的目的。你能告诉我们一些底层的东西吗?因为……

Playground V3,对吧?在许多方面都是内部的和最先进的。是的,模型的整个架构,我们不得不彻底推翻一切。

Suhail Doshi,一位Y Combinator校友,之前创立了Mixpanel和Mighty,现在用Playground创建了一个最先进的(SOTA)AI图像扩散模型。这个应用程序允许你像与平面设计师对话一样与它交流,并帮助你为各种用例创建图像和文本。在本期Lightcone节目中,Suhail与主持人坐下来讨论了他与团队一起构建Playground的经验,以及打造SOTA模型需要什么。

</context> <raw_text>0 嗯,就像人们所知的普通稳定扩散架构一样,它有一个变分自动编码器VAE,然后是CLIP。然后对于内行人来说,还有一个单元架构。呃,从那时起,它已经发展到使用,嗯,更多的Transformer。我想威廉·皮布尔斯有一篇很棒的论文,

它做了DIT,我认为这就是人们认为Sora也基于它的原因。然后有一些新的模型正在使用它。我们实际上也没有使用任何这些新的架构。我们从头开始做了一些完全不同的事情。但我们必须彻底改变一切的原因之一是,你无法使用CLIP获得这种提示理解,因为CLIP中存在太多错误。它也仅仅受限于该模型的架构。第二件事是,

我们还需要文本精度非常高。因此,你不能只使用稳定扩散的现成VAE,因为它无法重建

小的细节,比如我不知道你们是否注意到,比如手和标志,手部特写,面部特写,是的,你需要一些东西,你还需要一个最先进的VAE,或者比现有VAE更好的东西,比如现有的四通道VAE,嗯,所以所有这些都是碎片,它们相互作用,嗯,它们都会限制

模型的整体性能,所以我们基本上检查了每一个部分,然后我想大约四个月前,我和团队一起,我们真的在白板前与研究团队一起,讨论了非冒险架构,它与现在的一些最先进的开源模型(如Floccs等)比较相似,然后还有一个不能说名字的架构,嗯

我们想,好吧,那是冒险的,我们甚至不知道它是否有效。如果我们尝试两三个月,我们会浪费计算资源。如果它可能会爆炸,那么我们会落后。我们把所有东西都押在了这个篮子里。我们决定别无选择。你知道,如果我们不做,我们注定会失败。我认为非常了不起的是,你们的模型在文本和许多其他方面都高出一个数量级,你们基本上是SOTA。我认为这非常令人印象深刻。我们能否多谈谈,只要你能说,

你们是如何改进文本编码器的?我的意思是,你稍微透露了一些。你基本上不使用CLIP,因为传统的稳定扩散只使用最后一层,对吧?但是你们做了一些完全新的事情,你们基本上允许了一个几乎无限的上下文窗口,因为Midjourney只有256。提示的遵循度很高。你可以像和设计师对话一样与它交流。所以,请告诉我们你能告诉我们的内容。是的。

尽可能多地告诉我们。我认为问这个问题是公平的。想分享多少就分享多少。我认为为了达到这个目标,你知道,你会做一些显而易见的事情。最显而易见的事情是,你知道,不要使用CLIP。但第二件最显而易见的事情是

利用语言领域已经发生的事情的优势。你知道,像语言模型已经非常深入地理解了关于文本的一切。所以有些模型使用这个,你知道,它们使用T5 XXL,它有这个,它就像另一个嵌入,但它是一个更丰富的语言理解嵌入。我觉得语言只是第一个,它只是,它就像第一件事,而且,

将会有很多AI公司出现,无论它们是否训练自己的模型,它们都将受益于语言领域和开源语言领域发生的一切。所以,你知道,我认为我们的模型能够拥有如此出色的提示理解,部分原因在于语言领域的巨大进步以及你们所做的一切,无论是谷歌还是Meta还是其他什么。所以我们只是……

在提示理解的语言方面,我们可以稍微落后一些,因为语言方面已经非常好了。它只会继续变得更好,我们的模型也会继续变得更好。所以这可能是我的一点小提示。

也许这个比喻与很多东西以及与你的聊天都相关,目前最先进的稳定扩散模型,它们的语言理解在NLP领域感觉就像Word2Vec,对吧?Word2Vec是谷歌在2013年发表的一篇论文,它并没有真正理解文本本身。它更多的是潜在空间。著名的例子是,它会取……

国王的向量,然后你会减去男人的向量,然后加上女人的向量,输出将是女王的向量。对吧,这非常基本,但仍然很酷,我认为这就是你之前使用的稳定扩散当前模型的样子。但是使用你的模型,你们为观众带来了

飞跃,你们基本上获得了GPT级别的理解。就像你乞求GPT的词一样,我不知道,比如……

是的,我会说它就像一个GPT-3级别的图像模型,现在具有某种提示理解能力。是的。我认为还有更大的飞跃。实际上还有另一个飞跃。实际上还有很多,我会这么说。这令人印象深刻。可以肯定地说,这是该模型有史以来最糟糕的状态。当然。当然。我的意思是,你知道,我们已经有一些想修复的小问题。比如,你知道,我们希望模型理解像胶片颗粒这样的概念。

它在空间定位方面仍然可以做得更好。即使是模型也有……

关于左右这样的概念的问题,比如把熊放在左边,左边是什么?是你的左边吗?是熊的左边吗?所以仍然有很多有趣的问题,我认为这些问题非常有趣,呃,我们可能必须解决,但我们从用户那里听到的是,他们现在感觉有很强的控制感,它具有非常好的提示遵循度,实际上有一件非常有趣的事情,当呃,你知道,我想大约

一周或两周前,我们意识到关于这个模型的事情,那就是当我们开始对美学进行评估时。我们这样做的方法是,我们只是展示两个,这是一个A/B测试。我们向用户展示两张图像,一张可能来自我们的竞争对手,另一张来自我们的模型。我们不断进行评估,并不断询问用户他们的想法,以便我们可以做得更好。无论如何,我们意识到的一件事是,

我认为还没有讨论过一件新事情,但如果已经讨论过,我向观众道歉,但是我们有一个纠缠问题,那就是如果模型过于遵循提示,它可以调整,它可以像,它可以对美学产生影响。

所以当我们将自己与Midjourney这样的东西进行比较时,我们实际上已经对其进行了评估,它具有极佳的美学效果,在世界上是最好的。其中一个问题是,我们的模型会因为更遵循提示而受到影响。我举个例子。我们有一张图像,它是一张女人的图像,它有点像一个分割平面,她在这边,那边也是。所以它就像两个,它就像一个合成物,而Midjourney不尊重这一点。它只显示女人。

在一个画面中,用户总是会选择那个,因为它在构图上更美观,而不是这个分割平面。但我们的模型遵循了这个提示。对吧。所以用户会批评我们,然后我们的美学分数会降低,因为它没有听话。所以存在这个纠缠问题。就像,你该怎么办?我们还有另一张图片,像是手绘棕榈树之类的东西。

用户选择了另一个模型,因为它们看起来不那么像手绘的。手绘的确实看起来不那么美观,但我们的模型遵循了提示。所以我们有这个纠缠问题,我们现在不知道如何衡量自己的美学水平。

而且没有,我不知道有任何,如果有人有任何文献,请发给我。但我不知道有任何关于这方面的文献。所以我们不知道该怎么办。我认为对我来说,这听起来基本上是你的模型太SOTA了,以至于目前的评估不起作用,因为它实际上是在遵循规则。

是的,我们正在努力弄清楚我们必须创建一个新的评估方法。你的模型太先进了。你破坏了测试。是的,你有点破坏了测试。所以现在现在它在外部有点奇怪。我们不知道,这显然是我们想向世界展示的,嘿,你知道,我们有这个伟大的东西,好吧,我们在某些方面输了。但实际上并没有。所以我想这就是你想要的。

是的,但它确实做了你想要的事情。所以我想我们会尝试,你知道,我们会更详细地讨论这种纠缠问题,因为它实际上是一个非常有趣、更基本的见解。是的,听起来你正在构建一种完全不同类型的公司。听到这里每个人都在谈论的主题是,

使用Playground的感觉就像你正在与平面设计师交谈,然后在我的脑海中,实际上这将你归类为YC中真正起飞的公司,它们正在取代某种形式的劳动力,这与人们谈论Midjourney的方式完全不同,它听起来就像一个可以玩耍的工具,但这实际上将成为雇用平面设计团队的替代品,这更有商业价值,而且

对,是的,是的。我的意思是,我们一直在寻找效用在哪里?人们如何使用Midjourney这样的东西?我认为对我来说,它实际上更简单。我只是认为我们只是让用户对整个过程有更多控制权。就像,

当我制作音乐时,我总是感到困扰。所以如果我创作一首歌曲,我必须去找设计师说,你能帮我制作一张专辑封面吗?然后我只得到四个版本。如果我不喜欢这四个版本中的任何一个,我会觉得不好意思再要第五个。但是你越让实际制作东西的人掌控,他们就越能够将他们正在寻找的东西与,你知道,核心产品或概念联系起来。

歌曲或他们正在制作的任何东西,所以我认为我们总是告诉创始人,嘿,你应该多与用户交流,或者你知道,你所做的是,你有这么多用户,你可以直接与他们交流。你需要看看他们实际上是如何使用它的?是的,在某些时候你意识到,有点不舒服的是,他们正在生成色情图片,接近色情图片,是的,我们得到很多接近色情图片和色情图片。嗯

然后,你知道,我认为人们在探索一个空间时,经常会遇到这种情况。就像,当你的用户不是你真正想要的用户时会发生什么?是的,我和我的CEO讨论过这个问题。我们想,如果我们听取用户的意见,我们最终将不得不建立一家色情公司。是的。

这不是我认为我妻子或我母亲会高兴的事情。这是一个棘手的事情,你就像,倾听你的用户,与你的用户交流。而且,我并不是说每个人都对图像模型这样做。当然他们不会。

但很多人确实如此。所以我们不得不问自己,那么你能用这些东西做什么呢?答案是,没有其他什么了。没有什么足够大且具有商业价值的东西。我们可以创建一个很酷的网站供人们使用。问题是所有图像生成网站都存在这个问题。我们都知道。我们都知道。而且存在巨大的安全问题。事实证明,这只是一项我们不喜欢的业务。

这是一个艰难的,就像,在,你知道,经过12、18个月的工作之后,这是一个艰难的事情。你就像,好吧,我并不太喜欢这个。现在怎么办?当我们寻找用例时,我们想,哦,所有用例都有文本。所有重要的用例。实际上所有用例。标志、海报、T恤、保险杠贴纸,所有东西。所有东西都有文本,因为文本也是与人类交流的一种方式。这就是为什么它成为我的第一要务,第一优先级。

这并不是你第一次遇到这个问题。你知道,在你之前的创业公司Mixpanel中,你将其发展成为一家年收入数亿美元的公司,它是分析领域的领导者之一,你很年轻的时候就创建了它,我认为你19岁时就创建了它,我记得因为我第一次见到你时,你刚开始创建它。那是另一个时刻,这里有一项全新的技术

你可以利用它来构建真正的业务,然后还有其他用例。在这种情况下,我认为是昙花一现的游戏运营商,它们会在Facebook上出现,窃取大量用户,然后消失。你必须做出一些选择,决定你想要哪些用户。就像,你想要那些可以……

长期为你支付真正产品费用的人,还是那种,哦,是的,他们来了又走了,我们可以让我们的图表上升。这是一种许多创始人面临的困境。你是如何处理这个问题的?是的。我的意思是,那个问题深深地印在我的记忆里。所以我们,你知道,简单来说就是,我们得到了所有这些游戏公司,在游戏鼎盛时期,你知道,Zynga、RockU、Slide等等。而且,嗯,

他们会,我们从他们那里赚了很多钱,但他们会倒闭,因为他们的留存率很低,或者游戏本身就有衰减因素。呃,你可以看出他们要倒闭了,哦,我们知道正在发生什么。它就像所有实时数据一样,呃,关于它。所以,你知道,有一天我去,我去,你知道,我的导师之一是Max Levchin,我在他另一家公司实习过。而且,

我说,嘿,你知道,这件事正在发生。我们有所有这些竞争对手正在构建游戏分析工具或产品。我真的不知道该如何竞争。仅仅针对游戏感觉有点奇怪,因为它就像一个奇怪的、易流失的东西。他看着我,只是有点像,

他说,你认为最大的市场是什么?我说,可能不是游戏,可能是互联网的其余部分。移动互联网刚刚起步。我们真的不知道。App Store中排名第一的免费应用是手机上的镜子。所以有点像,移动互联网会

也许明年会到来,我希望如此。但无论如何,我说,你知道,所以是互联网的其余部分,他说,好吧,如果你的,你知道,这是我们竞争对手的名字,他只是说,如果你的竞争对手明天被收购,价值1亿美元,你知道,专注于游戏,那就不要为此哭泣。只要去追求最大的市场。这就是我们所做的,然后移动互联网蓬勃发展。它发展得如此之大,它完全地,我们摆脱了所有游戏方面的东西,而且

那是一个100%正确的决定。所以我认为这就像对你的用户价值所在,对你在做什么,所有这些事情都非常,非常重要。我的意思是,这听起来你不得不关上门,然后,

上帝为你打开了一扇窗。是的。是的。我的意思是,我认为,是的,我们面临着类似的问题,那就是,你知道,我们当前的用户,我们当前的用户群,它并不完全是,你知道,我们团队想要做的一件令人兴奋的事情。所以然后我们就像在寻找,其余的价值在哪里。是的。那,

这是一个非常重要的教训。我的意思是,我认为这里最大的教训是,你可以选择你的用户或客户。你知道,通常你的客户或用户会选择你。如果你不想要他们,这是一个你可以做出的选择。有时它实际上可以让你找到全局最大值,而不仅仅是局部最大值。

是的,我们也面临着同样的决定。这几乎是一个实时决策。当你的决定正确时,谈论事情的结果是很有趣的。所以几年后我们会看看这是否正确。但我认为这很难,因为Midjourney的收入是2亿美元,3亿美元。但平面设计领域最大的市场可能是Canva,收入为23亿美元。所以我们只是有点像,好吧,算了吧。

让我们去追求世界上最大、最有价值的东西。而且,你知道,很多人对Canva不太了解,我发现,在硅谷。大多数人都知道Figma,但Canva的收入远远超过Figma。所以通过赋能所有人,所以如果你有这个令人惊叹的,你知道,某种AI图形设计师,赋能更多的人类,我发现,我的意思是,我认为很多人相信这一点,但我确实相信这一点,我认为AI肯定会,感觉它正在扩大所有这些市场的蛋糕,而不是像,

它们的大小并不相同,我认为大多数情况下是这样,对吧?就像你让更多原本无法编写代码的人能够编写代码一样,你知道,诸如此类的事情。我认为Playground有趣的一点是,它也是你之前进行的一次更激进的转型,因为你已经两次通过了YC。是的。所以你用Mixpanel通过了,它成为一家成功的公司,收入数亿美元。然后你用Mighty通过了。Mighty。

你能告诉我们第二次通过YC的情况吗?然后是什么,然后你转向了——是的,我做了一家名为Mighty的浏览器公司,我们的目标是尝试流式传输浏览器。真正的目标是尝试制造一种新型计算机。我们基本上做到了。但问题是,我们遇到了一个障碍,那就是我不再相信它会成为一种新型计算机了。我无法让它快两倍以上。

而且我觉得如果我无法在这件事上获得10倍或5倍的提升,或者至少看不到它能够获得10倍的提升,那么它就不是一家我想要继续工作的公司了。我记得在我回来之前,我已经投资了。一个重要的

真正让我震惊的是,实际上我们的MacBook Pro当时真的很糟糕。是的,它们确实很糟糕。当时还没有M1。是的,而且我们实际上,我认为我们甚至不知道苹果要发布自研芯片了。这很有趣。我认为在硅谷,我们可能会低估战略的价值,主要是因为战略如此有趣,而且MBA进入我们的行业后会立即抓住这一点。

并且想要,你知道,你需要一个战略人员作为,你知道,作为联合创始人。这就像,不,不,不,我们实际上不需要那个。但这并不是说在这个特定情况下不需要战略。就像,我认为

但我们试图解决一个真正的问题,那就是我们的浏览器真的很糟糕。云计算变得越来越好。然后突然,你知道,当苹果发布自研芯片时,迷宫发生了变化。好吧,他们显然也这么认为。所以,你知道,从某种意义上说,战略是正确的,就像试图让我们的计算机更快这一总体问题一样。他们能够制造出一块芯片。

是的。

是否有人会接近M1,或者不会?所以我认为一个问题是,希望他们落后于你对你的公司来说并不理想。不要与宏观经济趋势对抗,这就是问题所在。是的,你绝对不想与宏观经济趋势对抗。然后我认为第二点是我与一位在V8(Chrome背后的浏览器引擎)工作的工程师坐下来。然后我向他提出了我和团队想到的关于如何加快浏览器引擎速度的所有想法。

他对所有这些都有答案。当我意识到团队基本上专注于1%的改进,而且他们已经尝试了一切时。我的意思是,那是一个非常令人沮丧的时刻。我黔驴技穷了。你知道,人们会说,什么时候是转型或改变的正确时机?我已经黔驴技穷了。但我真的想坚持下去。但我就是想不出另一种方法来实现它。我们甚至尝试在数据中心构建一台计算机。

我们已经弄清楚了如何在数据中心合法地使用消费级CPU,并采用正确的架构。而且,我认为PG曾经来过一次,那里只是所有这些组件的蔓延,也许我们正在构建物理的,我们正在构建硬件。我在Mixpanel学到了重要的教训,但在Mighty学到的一个重要教训是,为你的公司拥有顺风比逆风更有价值。在我们前进的道路上存在如此多的障碍,你知道,无论是M1还是

你知道,没有真正的方法可以改变浏览器的基本架构。你知道,JavaScript本质上是在标签页中单线程运行的。我们无法改变这一点。对于Playground来说,感觉它一直都是顺风。你知道,我们只是等待,事情就会变得更好。事情会变得更快、更便宜、更好、更容易。

我认为这很了不起,你凭借着构建标准SaaS业务Mixpanel取得了令人印象深刻的职业生涯。你尝试过浏览器GPU。然后你重新调整自己,并构建了这个SOTA稳定扩散模型。

那段旅程是什么样的?你是如何重新调整自己的?这是令人印象深刻的事情之一。我只是开始学习。我不知道。我参加了所有我能参加的AI课程。不幸的是,Carpathia课程当时还不存在。但我认为起初我试图在浏览器中构建一个更好的AI地址栏,它现在已经存在了。我认为谷歌刚刚发布了它。是的。

这是在GPT-4之前。我认为我们当时正在与OpenAI交谈。他们非常乐于助人,因为我认为他们没有……ChatGPT当时还不存在。我们试图弄清楚如何在低延迟下将它集成到地址栏中。所以我当时正在学习AI,学习AI,学习如何在所有这些事情发生之前训练模型。但我认为发生了一些奇怪的事情,那就是在做这件事的过程中,在与OpenAI的人们建立联系并学习这些东西的过程中,

我最终看到了它的发生。就像我知道它即将发生,比其他人早。我有点幸运,我想。很多人可能还记得Dolly 2的时刻。那是一个疯狂的时刻,图像生成,你知道,真的很令人兴奋。然后,所以我只是尝试,我只是继续学习。然后,你知道,我认为稳定扩散出现了,也许,也许我提前两周获得了访问权限。

在它发布之前。所以它就像,通过参与这件事,我看到了即将开始的一切。所以我认为我们是第一个你可以访问并注册的AI图像生成网站,你不需要在某些GPU上手动运行它。所以我认为我们的网站因此而迅速发展。这是最简单的事情。我认为Midjourney仍在Discord上。

对吧?所以我们想,如果你创建一个网站会怎么样?我实际上不知道这个故事。我的意思是,这对任何技术创始人来说都是一个很好的教训,对吧?就像,本质上,你偶然发现了我们这一代最大的顺风,只是通过关注你发现有趣的技术事物。这太棒了。是的,有点奇怪。在Mixpanel之后,我实际上……

尝试只在AI公司实习,因为我不知道我想要做些什么,但还没有准备好创业,我只想与AI公司交谈,我像在OpenAI面试,

他们想让我每周工作五天,但我不想工作三天。然后不知何故,在那之后,我在2018年犯了一个巨大的错误,我当时认为AI领域没有什么有趣的事情发生,因为我当时正在训练。即使在那时,我也在训练我自己的模型。我试图帮助一家滑板车公司让滑板车检测它们是在人行道上还是在路上,因为旧金山的法规要求他们这样做。

而且我学习了所有这些东西,参加了所有这些活动,然后是的,我得出结论,什么也没有。然后我开始了Mighty。

我当时就差了大约三个月。所以某种程度上我感觉自己得到了救赎,你知道的。我不知道。很难把握这些事情的时间。你怎么知道自己是领先还是落后?然后很长一段时间,你在 Playground 的模型上落后了,对吧?我一直感觉自己落后。但现在,在了解了微软和微处理器的历史之后,我意识到,

我不知道。这可能才刚刚开始两年。这一切都可能还非常非常早。我们真的不知道它会走向何方。运行 Playground 的感觉如何?Playground 既是创业公司,也是研究实验室,而不是纯粹的创业公司?嗯,我们试图做的一件事是,我们试图在不追求 AGI 上与众不同。这是我们试图说我们不做的一件事,因为很多人都在做这件事。我觉得研究工作非常容易处理,研究工作并非总是那么清晰。我已经了解到,你不能仓促地进行研究。所以一个大问题是,

当你建立一家创业公司时,你想要发布所有东西。你今天就想发布它。你想修复这个bug。你想发布这个功能。你只是试图以如此快的速度前进,但这对于研究来说是不可持续的。研究正在快速发展。

但你不能发布你的新模型。你不能在一周内构建和发布你的模型。我认为这非常具有挑战性。我不得不调整我的大脑来适应不同的团队。是的,我认为过去成功的研究实验室中有一件有趣的事情,如果你看看贝尔实验室,例如,实验室首席执行官的主要责任几乎是保护实验室免受商业产业的影响。

那些正在推动现在的事情。但作为 Playground 的首席执行官,你既是研究人员的保护者,也是商业利益的代表。你如何权衡这些相互竞争的力量?是的,我可能还没有掌握它,但我认为我曾经问过 Sam Altman,你知道,他在多大程度上允许 OpenAI 的研究人员漫游,我想。所以我真的不确定,你知道,通常情况下,这是一个任务,你完成了它。

但是漫游呢?漫游对研究人员或工程师、工程团队有什么意义?他说有一个,他说,有很多漫游。所以我铭记于心。所以我让研究团队漫游,直到他们能够展示令人印象深刻的结果。然后我们开始加速。

但在此之前,没有什么可做的。并非所有漫游的人都迷路了。我喜欢这句话。这应该印在T恤上。我们会在视频下方添加链接。我会成为 Playground 市场上的创作者。你问过,这两个团队如何在创业公司中整合?我认为

我们现在有了这个渠道,我们可以看到如此多的反馈,现在研究人员实际上可以调查失败的原因,他们可以在漫游时自己决定,“我想修复它吗?这令人惊讶。为什么会发生这种情况?”所以我想要尝试整合这两者,因为我认为这是当今更具差异化的因素。我认为研究实验室非常注重实验室。

他们不一定,他们并不总是深入研究真实的使用者行为。他们到底想做什么?但有时只是,我们需要达到这个目标,我们需要在这个评估中获得高分,我们必须把它写进论文里。然后我们必须获得 LLM 竞技场的好成绩。然后有一些 KPI,你知道的,要做这件事。但是,你知道,这件事重要吗?它有相关性吗?我们在世界上看到的评估,它与

对用户的有用性有很强的相关性吗?例如,我仍然希望 LLM 能够帮助我创作说唱歌词,但对此没有评估。那么,谁会做这件事呢?这将如何发生?当然有可能做到这一点。但如果你注意到,我总是挑这个说唱歌词的事情,因为我

对我来说,它揭示了人们评估模型的一个根本问题,因为模型应该非常擅长它,但它们并非如此。也许问题在于其中一些,商业化和研究之间存在差距,因为所有这些公开的评估都是学术性的,与你想击败 Canva 的用例非常不同,比方说。是的,我在这里可能说得有点过分了,很抱歉 LLM 的朋友们,但是

如果你去看语言模型的评估,它们都是数学、生物学、法律问题。难怪 ChatGPT 最大的用例是家庭作业。因为他们,你知道,所有模型都基本上达到了这些数字,对吧?最初,也许现在不一样了。它们现在可能更复杂了。但难怪这些模型擅长家庭作业。这是一个巨大的类别。所以你做到了 SOTA。现在人们正在观看,他们只是在问,怎么做?

你对此的答案是什么?有一种感觉,你只需要大量的数据和大量的计算。然后你运行,你训练这些模型,你就会到达那里。你知道,它们会泛化,突然一切都会变得很好。我认为有很多聪明的软件工程师。因此,他们从根本上理解这些是制作这种优秀模型的核心组成部分、成分。但这比这复杂得多。而且

我至少在我的经验中,要达到苏打水,你基本上必须对模型的能力的每一个细节都非常狂热。例如,你可以看看文本生成。有些人可能会训练他们的模型,他们会得到很酷的文本生成,但字距调整不对。

你是那种会在乎字距调整的人吗?或者你是那种可以接受它的人?或者你甚至没有注意到它。你有没有这种狂热的感觉?我们看看皮肤纹理。

我的眼睛基本上因为看最小的皮肤纹理而感到疲劳,你知道的,光滑的。我们作为研究团队日复一日地讨论这些事情。我们喜欢争论它来构建这些苏打水模型。你必须如此,你必须非常关心,在我们的世界里,它是图像质量和质量。

而且,你知道,我们甚至会关注一些小事情,例如,如果甚至有一点细微的胶片颗粒缺失,我们会说,哦,提示理解字幕模型不好。不够好。我们需要在这方面做得更好。我认为这种狂热的心态,我认为,如果你这样做 100 次,模型就会推断。

更多。我认为人们并没有完全理解所有这些维度的外推以及它们如何协同工作以使一切变得更好。例如,你不知道在这里改进一件事情会如何影响那里的另一件事情。我们不能,很难理解这一点。但我认为这就是获得 SOTA 模型所需要的。这是可能的。这是可能的。这是可能的。但这并不容易。