We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode When AI Meets Art

When AI Meets Art

2024/7/30
logo of podcast a16z Podcast

a16z Podcast

AI Deep Dive AI Chapters Transcript
People
A
Ammaar Reshi
A
Anish Acharya
C
Conor Durkan
H
Hang Chu
M
Mohammad Norouzi
V
Victor Perez
Topics
Anish Acharya:AI将提升艺术创作水平,降低参与门槛,使更多人能够参与其中。AI工具不同于以往的计算工具,它们有意地追求不精确,从而产生独特的艺术效果。每一次新技术的出现都会显著增加艺术作品的数量,AI技术也遵循这一规律。 Justin Maier & Maxfield Hulker:Civitai是一个大型社区,用户使用社区创建的模型和补丁进行AI作品创作。 Mohammad Norouzi:AI可以帮助人们以视觉和创造性的方式表达自己,尤其是在图像和文本结合的领域。 Conor Durkan:AI可以使音乐创作更加丰富和便捷,让更多人能够创作音乐。 Victor Perez:编程和AI模型的结合具有巨大的创造潜力。Krea的设计理念是兼顾易用性和可控性,以满足不同创意用户的需求。Krea的病毒式传播并非一蹴而就,经历了多次迭代和改进。 Ammaar Reshi:个人兴趣和意外的病毒式传播推动了他在AI领域的职业发展。亚马逊的便捷出版服务使得他能够快速迭代和发布作品。ElevenLabs的工具帮助一些失去声音的人重新获得表达能力,这是意外且令人鼓舞的应用。用户对AI工具的应用方式往往超出预期,需要根据用户需求调整产品功能。未来,语音交互将成为人机交互的主要方式,取代传统的物理界面。 Hang Chu:Viggle的病毒式传播得益于其易用性和娱乐性,吸引了大量普通用户参与创作。Viggle正在向一个更广泛的AI赋能内容平台转型,目标用户包括内容创作者和消费者。当用户能够比开发者更熟练地使用工具时,说明产品设计成功。 Anish Acharya:消费者对AI艺术作品和创作工具的付费意愿很高。 Justin Maier & Maxfield Hulker:Civitai需要在支持创作自由和内容审核之间取得平衡。正在探索新的商业模式,以奖励AI艺术家的贡献并使其创作能够变现。 Diego Rodriguez & Victor Perez:Krea的用户群体涵盖专业创意人士和业余爱好者,他们的使用目的和方式各不相同。AI工具提升了创意工作者的效率,使其能够专注于更高级别的创意工作。 Mohammad Norouzi:用户反馈对产品迭代和功能优先级排序至关重要。 Hang Chu:Viggle正在探索两种不同的方式来改进对现实世界的建模。 Conor Durkan:AI工具降低了音乐创作的门槛,让更多人能够参与其中,并加速了专业音乐人的创作流程。

Deep Dive

Chapters
The episode introduces the AI Artist Retreat and explores the commonalities between founders and artists, highlighting the interdisciplinary nature of their work.
  • First-ever AI Artist Retreat in New York City
  • Bringing together AI tool builders and artists
  • Surprising commonalities between founders and artists

Shownotes Transcript

六月二十七日,我们的团队去了纽约市。

我们在a16z办公室参加了有史以来第一次AI艺术家撤退活动。

那是Anish Acharya(a16z普通合伙人)和Justine Moore(a16z消费者团队合伙人)。Justine是参加这次撤退的众多合伙人之一,这次撤退汇集了一些最受欢迎的AI创意工具的创建者,例如ElevenLabs、Civitai、Krea、Ideogram,以及15位顶尖艺术家。

这些人经常使用这些工具做最酷的事情。他们正在突破这些工具的创造力界限。

今天,您将听到许多AI创始人讲述他们的故事,他们与这些艺术家一起,正在推进创造力的含义。

艺术将变得比以往任何时候都好。平均艺术产出将提高,上限也会提高。参与率也会更高。每个对创造力感兴趣的人都能够进行创造并表达自己。

它真的非常好?那是Anish Acharya(a16z普通合伙人)。

但不仅仅如此。我做过两次创始人。我已经做了25年的DJ,而且我对AI很感兴趣。那么……

当我们将所有这些投资者、艺术家和创意工具创始人聚集在一起时会发生什么?

同样的氛围,而且感觉很棒?我认为最令人惊讶的是,每个人有多少共同点,比如创始人更有创造力,而创意人员和艺术家更技术化,其他方面只是跨学科的,人们制作视频想要玩生成视频。制作音乐的人想玩声音效果。这太不可思议了。

最酷的事情之一是,许多创始人通过他们的在线屏幕名称认出了人们,或者说,“哦,我的天哪,你用我的工具创作了这首超级病毒式的歌曲”,或者“你用我的产品制作了这种令人惊叹的视频动画,我们的整个团队都在谈论它一个星期”。这些人过去六个月、十二个月、十八个月,有时甚至两年都在网上每天互动,但他们甚至不知道对方长什么样。

现在,您将看到这次活动的幕后花絮,包括许多这些工具的起源故事,顺便说一句,有些故事从未公开分享过,以及这些工具是如何度过它们自己的病毒式时刻,以及它们对AI浪潮和未来展望的看法。让我们开始吧。

提醒一下,此处的內容仅供参考,不应被视为法律、商业、税务或投资建议,也不应被用于评估任何投资或证券,并且并非针对a16z基金的任何投资者或潜在投资者。请注意,a16z及其关联公司可能会对本播客中讨论的公司进行投资。有关更多详细信息,包括a16z投资的链接,请参阅a16z.com/disclosures。我们正处于2024年一个令人兴奋的转折点,您的创造力正在被可用工具所释放。

我的意思是,我们还处于早期阶段,但现在制作艺术的人和制作艺术工具的人比以往任何时候都多。如果您观察一下技术和艺术的历史,每次出现新技术时,艺术的数量都会急剧增加。人们担心合成器会与乐器竞争,但实际上,现在用合成器和乐器制作音乐的人比以往任何时候都多。所以我认为,在技术和艺术领域,我们正处于一个类似的时刻,每个人只要对艺术有兴趣,都能进行创作。

许多人将此与之前的计算浪潮进行了比较。但这有什么不同吗?好吧……

不同之处在于,这是我们第一次创造这种左脑的东西,我的意思是,计算机和计算平台一直专注于精确性。而现在,我们正在创造有意不精确的产品,美丽的不精确的产品。所以感觉这是一种我们从未见过的产品和产品设计的完全不同的风格。

所以,让我们向您介绍一些产品背后的团队。

我们这里有涵盖几乎所有创意形式的公司:图像、视频、音乐、语音等等。

那……

包括Conor,我是Udio的联合创始人。

以及ElevenLabs的设计主管Ammaar。两家公司都专注于音频,Udio专注于音乐,而ElevenLabs则致力于从语音到音效的一切。与此同时……

像Hang Chu(Viggle联合创始人)、Diego Rodriguez和Victor Perez(Krea联合创始人),以及Mohammad Norouzi(Ideogram联合创始人),这些创始人正在构建日益复杂的2D成像和视频以及3D世界。例如,Ideogram允许您使用文本生成精确的图像,这是一项令人惊讶的困难的技术壮举。另一方面,Viggle正在构建视频和3D的交叉点。与此同时,Krea提供了一套AI工具,例如升级和实时生成,或者在Civitai的情况下,一个新型的市场。

我是Maxfield Hulker,我是Civitai的首席运营官。

也是联合创始人。是的,我是Justin Maier,Civitai的首席执行官兼联合创始人。很多事情。

a16z的乐趣在于,我们拥有一个庞大的社区,他们使用社区制作的模型和社区维护的补丁制作大量的AI作品。这些模型被称为“loRA”。我们让人们能够针对一些特定模型进行训练,例如专注于动漫的模型或专注于逼真图像的模型,或者他们可以选择自己的自定义模型进行训练。

最重要的是,随着AI发展如此迅速,很明显,我们不再仅仅生活在ChatGPT的世界里。在我的旅程中,许多公司都从这个领域起步,并以前所未有的速度发展壮大。因此,我们认为有必要退一步,记录下这个令人惊叹的机会。

而且,许多这些创始人多年来一直在默默地从事研究工作。他们的起源故事通常始于他们自己对AI的探索,例如Mohammad来自Ideogram。

我认为部分原因是每个人都有内在的创造欲望。作为人类,我们心中都有一个创造力丰富的孩子。不幸的是,教育体系有时会扼杀这个创造力丰富的孩子。

而AI最终能够做到的是帮助人们以视觉和创造性的方式表达自己。所以这是有趣的部分。当您考虑使用图像进行交流时,如果您将图像和文本结合在一起,那么您可以更有效地进行交流——来自Mohammad。

这确实是文本和图像的独特组合。

对我来说,成像和视频非常贴近我的心。

但对Conor来说,是他与音乐的联系。对我来说,音乐……

是一种非常特殊的媒介。它无处不在,无时不在,就像在背景中一样。当您在餐厅喝咖啡时,当您戴着耳机时,当您早上上班时,它确实对人们产生了情感上的影响。对我来说,让这种丰富性成为通用建模的领域,这意味着很多东西比以往任何时候都更加丰富。

而对Victor来说,是他发现编程本身就是创造力的入口。

当我发现编程时,这对我来说很棒,因为我意识到通过编码,你也可以非常有创造力。但是当我发现早期的生成模型,如DCGAN,后来是StyleGAN时,我的思想被打开了,我意识到设计学具有创造潜力,那时我才真正沉浸其中。我觉得Krea对我来说就像一个滚雪球的过程,它始于我意识到你可以以创造性的方式使用人工智能。

但对于Ammaar来说,是他自己开发的副项目以及分享他所学知识的愿望,实际上促使他加入ElevenLabs。

这真的很有趣。在过去几年里,我开始深入研究AI工具,当时ChatGPT问世,我开始为了好玩而制作一些东西。其中之一是一本儿童读物,它意外地走红了。

这算是我的AI之旅,通过创作那本书,我开始探索其他AI工具。我真正喜欢的是分享我正在做什么以及我是如何做到的。所以我发现了ElevenLabs,并用ElevenLabs制作了一个播客。

所以我像是在和一个虚构人物说话。我们进行了一场来回的对话,它也在推特上获得了关注。然后我想,我喜欢使用这个工具。

我要制作我自己的短片,实际上只是为了朋友们,所以他们给了我一些免费的ElevenLabs积分,因为这部电影用光了所有的积分,她说,你应该见见创始人Ammaar。我们见面了,我们一拍即合。Ammaar以他一贯直接的方式,在通话结束时说,好吧,我们实际上正在寻找一位设计主管,你感兴趣吗?然后我开始在一个我使用了一年多的产品上工作。

这段经历也让他体验到了这个领域发展的速度,以及……一个巨大的成功。它就这样发生了……

因为我的一个朋友有了他们的第一个孩子,我给她读了我的儿童读物。我喜欢这个故事,它很有意义。所以我回家了……

我一直在使用ChatGPT,将两者结合起来创作那本书。然后我想,我该如何出版它?亚马逊有一个很棒的出版服务。

你可以在48小时内出版一本书,72小时内拿到一本平装书,速度很快。这真的很有趣,因为写书并在亚马逊上出版就像迭代软件一样。如果我发现了一个错误,无论是什么,我都会更新PDF。

新书出来了,新的出版线也出来了。所以,是的,我把书发布了出去,得到了很多反馈。是的,那是一次非常有趣的经历。

免费的AI。我们正处于一个消费者时代,在这个时代,吸引人们的注意力非常困难,让他们下载一个新应用或尝试一个新工具也很困难。你必须在客户获取上花费很多钱。

现在,围绕AI的真正兴奋之处在于,如果你制作一个核心产品,你可以把它送到人们手中,让他们使用它,并谈论它。

Victor和Krea的情况就是这样,他们最终迎来了自己的病毒式时刻。虽然一开始并不容易,他最初的作品被称为“Genius SE”,来自“Generative Universe”,这是有史以来最好的名字。基本上,它有两部分:一方面,这是一个他公开提供的开源库;另一方面,他真的不知道如何进行UI设计或任何类似的事情,它有星星等等。

所以就像星系,就像“Generative Universe”,对吧?然后你可以添加标签,你可以添加图像,你有一些可以操作的东西,你可以生成图像。你会看到图像实时演变,你喜欢的图像可以保留,它们会被添加到这个宇宙中。

基本上,你最终在这个交互式空间中得到了大量的图像。对我们来说,我们一直都牢记着两点:一方面是可控性,另一方面是易用性。我们如何制作看起来不那么令人生畏的工具?因为AI是一个新的创意媒介。

很多人都是第一次使用它,我们希望他们能够获得这样的体验:AI按照你的预期工作,你不需要学习疯狂的提示工程或其他技巧才能获得良好的结果。另一方面是可控性,因为我们与创意人员打交道。我们与那些不仅对美丽的混乱感到满意,而且想要这种美丽的混乱的人打交道。

所以这是我们从那时起就秉持的两个原则。我们为AI创建了一个类似Figma的界面。我们拥有当时所有可用的AI模型。我们拥有所有技术,所有控制,所有东西都在那里。但是,你知道,它不起作用。

它有一个学习曲线,有些人就是不愿意去学习。所以,当我们发布这个东西时,我们迎来了第一次病毒式时刻,它几乎相当于一个主要的生成器。我记得我们看到推特上所有这些带有螺旋的图像。

发生了什么事?我们能做到。这只是一天的工作。我记得当时的想法是,我们应该做点什么。我们应该利用这个病毒式传播的机会。我当时更倾向于,我们应该完善我们当时正在开发的功能,直到有一天我们意识到,好吧,让我们把它搞定吧,我们以最快的速度,在一两天内完成了它。我们……

发布到推特上,然后……它就像我们第一次看到PMF的样子,第一次感觉是,“哦,我的天哪,好吧,这就是它的样子,好吧,我想睡觉了,我能感觉到心跳。”

然后你睡了三个小时,你醒来是因为你知道事情坏了。电子邮件开始泛滥。星星开始出现,突然之间,字面意义上的。

每一天都像前一天一样令人心碎,哦,我的上帝,一千人,哦,我的上帝,一万人。而我,哦,我的上帝,就像足球蓝色的爆发,就像排名第一的袜子俱乐部一样利用了我们。为什么?有多少粉丝?哦,我的上帝,在这个平台上有一亿多粉丝。

好的。我觉得你实际上很努力,作为创始人,你就像把多年的成果投入到很多事情中,而我们真正喜欢的事情,它并不重要,它给你带来所有的成功。所以这是一个反思的时刻。你就像有时世界抛出真相来争论。

但那些年的努力并非徒劳。

而且我不认为我们一直在努力的那些年是浪费的。不,实际上。哦,那就是你在技术层面上学习IT如何工作的地方。我的意思是,因为有很多失败,我们了解了,好吧。你与你沟通吗?

我认为关于那些时期需要注意的是,我们非常非常清楚这是一股潮流,而这并不是我们正在构建的最终产品。这几乎就像我们用来获得更好运行和知名度的营销引擎,他们因为一个原因找到我们,而他们留下是因为另一个原因,那就是我们正在开发的其他产品。即使我们也知道这一点。

我认为我们从这次经历中获得的核心教训是,人工智能的感觉不断变化,就像每个月或每两个月都会有新的突破、新的技术和新的做事方法。而我们正在构建的工具,它已经开始变得过于复杂,因为我们试图将所有内容都放在一个工具中。我认为我们从医院最终的经验中学到的是,简化超级简单易用的案例有很多价值。

当L发布时,情况再次如此,对吧?我们看到了这个笔记,gy,那一刻,我们利用了从第一次进入到第二次进入中学到的所有经验。在第二个版本中,我们知道它不是一种趋势。

它非常有价值。我们终于能够获得我们一直在寻找的互动,差不多有几年了,对吧?就像我们可以实时生成图像,并完全控制颜色、构图、形状,所有的一切。这几乎就像梦想成真。

胜利以前多次遭遇失败。但你能否创造这种势头,在某些情况下,这完全取决于拥有一个其他地方没有的关键特性。来自IUgram的穆罕默德。

所以基本上它是0.1版本,我们称之为IT。这可以追溯到2023年9月。这是一个有效的模型。

如果你觉得它已经足够好,可以提供给用户,那么它就不完美了。它是第一个能够将清晰的文本放入图像的模型。所以它因为模型的独特功能而病毒式传播。不知何故,将文本放入图像的能力似乎是必要的。

但在其他情况下,这关乎巧妙地赋能大众,或者在这种情况下,赋能迷你创作者,通过大幅降低参与门槛。这是Hang与Viggle的故事。它病毒式传播了,对吧?将产品交付到如此多的用户手中,并亲眼目睹这种传播,感觉如何?

是的,我一开始肯定没想到会这样。大多数目标是内容创作者,但不知何故,主要的创作者错过了星期四的赶工。

这就是它变得非常流行的原因。这也要感谢我们花费大量时间讨论的一些时间地点,例如为什么会出现这种情况。有一个模板,小丑压力来到街上。有一个小丑角色。我替换了视频上的内容,我们看到数百万个不同的角色只是在重新混合同一时刻,并意识到人们使用它的主要原因是它非常容易使用,基本上,你可以更新一张图像,然后单击一下选择那个t,只需几秒钟,你就可以让自己基本上处于同一时刻。

也许病毒式传播的另一个方面是,正如你所说,创作者们掌握了它。它有一种有趣,甚至可以说是愚蠢的方面。你是怎么考虑这个问题的?

我认为这体现了娱乐价值。任何东西要具有真正的娱乐价值,它必须有效。它必须运作良好。

这实际上需要大量的资源投入。所以我们对“认真地搞怪”非常认真。这需要相当多的反向研究才能做到。

第二点是,你必须有一个提供精确控制的工具。然后,因为人们得到了他们想要的东西,他们就可以尽情享受乐趣。你提到了。

你几次提到了角色和模板。你最喜欢的在平台上生成的示例有哪些?

一个是州长时间模板上的小丑。那个时刻,人们意识到实际上更多的人想要重新混合。它具有可变性和趣味性。

第二个是一个摇滚广告歌曲,人们在跳舞。这也很有趣,看到数百万人在重新混合同一个模板。这对我们来说很有趣,因为它让我们意识到,只要它有这种有趣的元素,人们实际上并不介意内容中包含一点品牌信息。

当你考虑应用程序时。我知道现在还为时过早,但你对Viggle的应用方式感到惊讶吗?每次他们找到他们的产品创造者时,他们都会有他们设想的应用。然后最好的产品往往是人们以意想不到的方式使用它们,这让他们感到惊讶。

这正是我们一开始的情况。我们主要考虑的是电影制作人、游戏制作人。使用它可能就像快速动画。对他们来说,预可视化实际上非常适合。我们也看到早期用户采用了这一点。

但我们从未预料到创作者们会这样做,因为他们也会提供这些模板,所以他们一直在关注最新的流行舞蹈动作、体育赛事,因为人工智能。我们还看到内容创作者加入了进来。他们实际上会联系我们,说,你能否在你的平台上展示我们的舞蹈、我们的歌曲?然后我们能否合作推广其中一些?这非常有趣。

我们问了同样的问题,以及通过观察大众的使用方式而学到了什么。

我们最初推出的模型是一个小型模型,它生成32秒的片段。因此,要制作完整的曲目,你将需要向各个方向扩展它。你可能会把它扩展成ASN,O。

你会这样创作一首歌曲,你会从这些片段开始。我想我们很快就意识到,人们在听歌时的体验,当他们听到一首歌曲时,实际上更关注的是整体性。所以他们想要一首从头开始的歌曲。

也许结尾可能不需要很长,它可能是一首两分钟的短歌,但它有主歌、副歌和桥段,它有结构。我想我们实际上低估了这一点的重要性。所以这是我们正在改进的事情。

ElevenLabs最近也对令人惊讶和鼓舞人心的用户案例并不陌生。

是的,我认为最令人惊讶的一个是那些失去声音的人,然后使用ElevenLabs来让他们的声音重现生机,然后做他们喜欢做的事情。所以我们有Lori Co.,她是一名律师。有一天早上她失去了声音,她的一个朋友用ElevenLabs帮她复制了声音。

然后她回到了法庭,陈述论点。对我来说,这是一个令人难以置信的时刻,因为你不会想到这一点。我认为我们的想法是,嘿,我们将用我们的产品和工具为想法赋予声音。

但这让某人找回了自己的声音。我认为看到这一点真是太棒了。我们再次看到这种情况发生在一个气候活动家Bill Wheel身上,他正在发表他的获奖感言。不幸的是,他患有失声症,但他再次能够复制他的声音,然后发表获奖感言。所以我认为这些事情就像,哇,这项技术被我们意想不到的方式使用,当然,我们现在想深入研究这一点。

帮助他人,也许在相反的意义上。有没有你实际构建或设计过的应用程序,例如每个人都会为此使用它,显然,这种情况实际上并不存在。

当我们推出配音和自动配音时,这很有趣,我们想,是的,就是这样。每个人都会使用配音,太棒了。当然,我们正在进行配音。

最重要的事情之一是准确性,对吧?因此,我们意识到自动配音。人们仍然希望对配音进行大量的创意控制。因此,我们最终不得不构建配音工作室,允许人们对配音进行非常精细的调整,并更改大量内容。然后我们还引入了直播工作室,这基本上是创意团队,可以帮助你与擅长此事的专业人士一起处理你的内容。

因此,我们意识到人们实际上更需要的是这个,而不仅仅是自动化所有事情,对吧?然后我又想起了这一点,即使在我还在Pound工作时,我也学到了这一点,那就是尝试自动化一切或将人工智能用于一切的诱惑,但实际上这有很多价值。就像中间有人,并且仍然有人为的触感来完成最终的润色,这是我们学到的一件事。

随着这些公司获得所有这些新数据,确定他们应该迎合谁并不总是那么容易。那么,你是如何考虑你构建的内容以及你的目标用户是谁的呢?理论上是每个人吗?

我认为我们承认的是,我们可能拥有不同类型的用户,例如在最顶端是那些在工作室制作专辑的人。然后在规模的另一端,可能是那些在手机上想要一首有趣的歌曲发送给朋友的人。

这两种体验非常不同,有点类似于你通常可以从乐器中获得的输出。就像有人可以在家里有一把吉他,他们只是偶尔弹奏一下,这完全是个人行为。这没有什么严肃的。

这是一种用音乐表达自己的方式,就像有人可以拿起同一把吉他,而专业人士可以把它带到录音棚,并把它融入一些很棒的东西中。我们希望这项技术能够支持所有这些结构的各个方面。

一些公司不出所料地利用他们的新用户飞轮来告知他们的决策。

是的,我们使用我们的用户群以及他们进入系统所作出的承诺来决定如何评估模型的质量以及要优先考虑什么。有趣的是,我们的用户使用Ideogram来告诉我们他们想要什么。所以他们说,我们想要图像上传,我们想要评论,我们想要更多服务器。

所以我想好消息是,我们已经有这些用户飞轮在使用它。有些是付费的,有些是免费的。对我们来说,Hang的愿景是。

Viggle实际上利用了这些新的学习成果来扩展他们的目标用户。你是如何考虑你现在的目标用户是谁的呢?你是否正在调整或调整以整合这些新的用例?

所以我们从某种意义上打破了我们的目标受众。所以我们看到这实际上是朝着一种新型的人工智能驱动内容平台的方向发展。内容平台拥有所有这些创作者非常重要,而这些仍然是内容创作艺术家、电影制作人、游戏制作人。

他们是所有这些新的人工智能创意或新模板的来源,然后我们把这些带给了内容消费者。基本上,Viggle是一种新的内容消费方式。在人工智能之前,这就像如果我喜欢某个时刻,我会分享它,我会喜欢它。

但你可以与那一刻进行更深入的互动。我可以说,我非常喜欢这一刻,我想放上我自己的化身。这几乎就像在平行宇宙中。

我想看看它是什么样子。我自己重新体验那一刻。所以这是一种新的内容消费方式。这实际上是最重要的方面之一,因为可变性实际上来自所有这些创意。

所以对我们来说,一切都是为了首先赋能创意社区,确保他们拥有他们想要的东西,他们拥有最好的工具。他们可以优先体验新功能。他们几乎拥有无限的访问权限。

另一方面,Ideogram比以往任何时候都更专注于实验。并且有成功的迹象。

当你的用户比你自己更擅长使用你的工具时。我认为我们推出的每个工具都遵循类似的过程。我认为这一切都始于假设。

我认为这些最初的假设需要来自创始人,需要来自你自己的直觉。但我们在验证这些想法的方式上有很多错误。当我们犯错时,我们会通过倾听社区的声音,看看他们如何使用这些工具来了解。

我认为一个很好的经验法则,或者说我发现的一个很好的方向,来判断某件事是否优秀,那就是当你的用户比你自己更擅长使用你的工具时。这一点对我来说至关重要,因为有些实时功能,我当时想,“他们是怎么做到的?”在视频方面,我试图做一个演示,展示一些很酷的东西。

我尝试了一些东西,但没有成功,我查看推特上所有用户用我们的产品创作的东西。我无法达到那种质量,我无法获得那些结果。所以我认为,每当你的用户比你更擅长使用你的产品时,

这是一个好兆头。与此同时,像 Civitai 这样的公司正在开辟新的领域,但也正在发现新的局限性。

Stable Diffusion 允许你创作任何东西。所以当我们发布时,我想确保我们能够继续支持这个社区,因为它非常多元化。

并且有关于你可以用 Stable Diffusion 制作什么的持续不断的梗图。最前面是有人制作搞笑的迷因,然后后面有一列火车开来,对吧?当然。

人们知道你可以制作所有这些东西。我的意思是,这就是这项技术的意义所在。创作任何东西,对吧?对我们来说,重要的是要说,嘿,我们希望能够在技术发展过程中支持这项技术。这意味着我们需要包容一切,而这并非易事。制定允许创作所有事物的政策,同时不会伤害他人,并且以一种让用户仍然拥有必要的控制级别来防止创作有害内容的方式来做到这一点,这非常困难。

起初,我们的政策非常简单。它们大致是这样的:只要不违法,只要在道德上没有完全败坏,我们就会允许它出现在平台上。当我们只有少量用户群体时,我们对此还可以接受,即使我们发现每次我们不得不真正具体化时,事实证明,互联网上有一些子部分会转向你从未听说过的最奇怪的事情。

这可能会非常有趣。

这可能会非常酷,有些非常有趣。有些则让人觉得,哦,我的天哪,这就像一个反复尝试的过程,试图弄清楚,好吧,为了成长,你必须做什么,我们创建了一个由版主组成的委员会来帮助我们,真正地聚集在一起,看看当这些新事物出现时,我们会怎么想。

让我真正感到震惊的一件事,当你开始关注整个审核方面时,是其他平台是如何处理这些问题的,它们是否会复制其他平台的做法。它们的做法是,它们没有定义任何这些内容。这些都没有被定义。

我们必须想出一些术语,例如如何定义什么是儿童?如何定义什么是照片般逼真?如何定义什么不是?所有这些术语以前都没有任何定义。

也许这并不奇怪,因为这个行业如此新兴,新的创意层出不穷,所以会出现新的审核挑战。事实上,我们从我们交谈过的大多数创始人那里了解到,专业人士和普通用户之间存在这种差异。这是来自 Krea 的 Victor 的说法。

创意人员的范围相当广泛,使用 Krea 的人可能是拥有二十年创意行业工作经验的人,例如,我不知道,艺术家、平面设计师,甚至是摄影师等等。但我们也发现很多人没有专业的创意背景。你会发现他们做了很多原型设计。

例如,当他们开始一个新项目时,他们可能会使用 Krea 来快速集思广益。他们会为此使用我们拥有的实时工具。他们可以做一个非常简单的草图或文本提示,然后得到看起来非常逼真的东西,这可以给他们提供想法,甚至可以作为最终交付品,这取决于他们在做什么。当我们谈论不太专业的创意人员时,实际上更多的是为了娱乐。他们将 Krea 用于你能想象到的所有事情,从想象新的墙壁、创作绘画到创作角色或各种各样的东西。

随着越来越多的人参与进来,这些新平台不仅培养了新的人才,也带来了新的期望,例如对速度的期望。

与此同时,我们正在做的就是建立社区,并为社区带来他们想要的东西。现在,我们不仅仅关注我们现在可以用现有的技术做什么,我们非常深入地参与到 AI 社区中。每当我们认为某些东西在创意方面很有价值时,我们就会立即执行。所以我们的工作方式几乎就像一家游戏公司,只不过我们制作的是工具而不是游戏。每六个月左右就会有一个新的工具,因为这个领域恰好以每六个月就会出现一项新技术的方式发展,你可以用它来制作一个新工具,以此类推,直到我们能够使用实时系统做一些更有趣的事情。

这股新浪潮也改变了人们的付费意愿,回到 Anish 的观点。我认为付费意愿……

消费者愿意支付的金额非常高。这非常有趣,因为长期以来,我们一直采用这种金字塔模式来资助艺术。人们一直认为,人们对付费艺术的兴趣正在下降。

相反,我们看到的是完全相反的情况。人们想要为艺术付费,为制作艺术的工具付费,而且愿意支付很多钱。对我来说,这是一个非常令人兴奋的发展。

这种付费意愿也正在解锁新的商业模式。

人们创作了如此多的东西,因为它是一个创作任何东西的工具,看到人们能够创作的东西,无论是游戏资产还是跳舞的花朵视频,都令人难以置信,可能性是无限的,看到人们如何玩耍……

做以前无法做到的事情,这也很令人鼓舞,Civitai 也正在研究一种奖励 AI 艺术家贡献的新方法。

当我们开始做这件事时,我们真正意识到这可能是一项业务,是因为我们与许多从事这种创作的人进行了交流。这需要大量的时间、金钱和技术能力才能做好这些事情。成千上万的人只是出于对游戏的热爱而这样做,他们只是非常享受创作的过程。很明显,这几乎是一个全新的创作者经济,因为它是一群人,他们正在付出努力和爱,如果他们有即使是最小的方式来根据他们获得的点赞数和用户使用情况来建立模型,那么这很容易成为他们的生计。所以,是的,我们一开始的目标非常明确,那就是弄清楚我们如何才能保持清晰的路线图,同时保持开源的性质。

我们实际上刚刚宣布了一些我们希望在未来六周内推出的内容,然后我会给你一些历史背景。所以我们在四个月前启动了一个创作者计划,我们将其开放给大约五十位创作者的小群体。我们开放了申请,并挑选了符合特定标准的人。

并且一直在尝试各种方法来帮助他们将作品货币化。我们为将在未来六周内开放的下一代所做的决定是,让人们能够通过他们在我们网站上创作的内容来赚钱。所以,如果他们制作了一个旨在制作新角色的资源,比如他们制作的特定角色,而有人选择在生成器中使用它,他们将获得我们为此生成收取费用的 25% 的分成。所以目标是让人们能够通过允许在我们的网站上方便地使用他们的资源来获得报酬。

在我们添加任何真正的激励机制之前,我们立即看到的一件事是,我们引入了广告系统,因为我们知道很多人正在联系创作者,要求他们在平台之外工作。

正因为如此,我的意思是,我们收到了无数人联系我们,说非常感谢这个平台,因为他们能够联系到老板、Hand Eye 或其他一些突然使用这项技术并彻底改变他们生活的人。以前我每年只能赚三万美元,或者其他什么。现在我做这件事每年能赚六位数,这对我来说是一种激情,我已经记不清有多少其他人了。

联系我谈论这件事。所以这真的很酷。所以从我们的服务方面来看,我们希望能够让这变得更容易,让人们能够直接销售他们的服务和专业知识。企业从这个系统……

并非孤例。ElevenLabs 也正在为声音构建一个市场。我知道你们也在构建某种市场,这样人们就可以上传声音,或者可以使用其他人上传的声音,是的。

我认为这是一种非常令人兴奋的方式,可以让大家获得被动收入。也许你是一位配音演员,你没有得到你想要的机会,但现在你可以把你的声音放在那里。你可能会变得非常受欢迎。

我们看到人们在我们的平台上赚了不少钱。所以这个库是一个很好的方式来……一、发布你的内容。我们希望与更多配音演员合作,说实话,是为了拥有更多富有表现力的声音,然后为人们提供优秀的声音来创作内容。

所以这是一条双向的道路,但这不仅仅是市场,还有界面。

我认为我们一直梦想与我们所有的产品进行语音交互。如果你想想《星际迷航》和《霹雳游侠》与他的汽车对话,这是一直是流行文化历史的一部分。但我认为我们还没有达到那种质量、声音和力量,让它感觉像它应该的那样自然。所以我认为我们正处于这样一个阶段,大型语言模型使用语音界面进行交互变得非常自然,感觉就像在与人交谈。

所以我完全能看到未来,你四处点击的许多物理界面将会消失,你将能够提出你想要提出的问题,并进行你想要进行的对话。我知道《她》是关于 AI 女友的热门电影,但我认为这部电影中有一件事比他与她的互动更让我印象深刻,那就是电影中有一幕,每个人都低头看着他们的手机,不停地滚动。在电影的后面某个转折点,实际上每个人都在和他们手机里的东西说话,我认为这是一个非常有影响力的画面。我认为我们会看到更多这样的情况,人们会与 AI 女友或任何 AI 进行更自然的对话。

是的,这让我想起了我丈夫的祖母,她说她第一次听到有人在杂货店里打电话时,她以为他们在自言自语。所有这些新的互动,你只是不习惯……所有那些进监狱的人十年后出来,每个人都低头看着手机,意识到我们的口袋里装有这些疯狂的电脑。

所以,我特别喜欢 AI,以及所有这些 AI 创造的工具,那就是魔法,你有一个想法。现在你可以想象它,对吧?你可以想象你脑海中想要的那张图像,以及你脑海中的梦想,现在或者说,你可以想象你脑海中可能听到的声音,而其他人听不到。

但这不仅仅是一个新的用户界面。也许这是一种对世界本身建模的新方法,来自 Viggle 的 Hang。

我真正期待的一件事是,就像我说的,下一代模型。所以我们真的希望将这个角色模型扩展到世界其他地方,比如物体和场景。所以我认为这是我们对现实世界建模的两个主要途径。

一个是,我们采用这种固定级别的方法。所以扩散模型非常擅长这一点,但它的缺点是很难操作。而现实世界本质上是物理的。所以像素并不是一个有效的表示方法,但它有一个优点,你可以用任何视频进行训练并生成任何东西。

希望在那里,我们可以将其提升到一定程度,可控性将会出现,这将是另一种不同的方法,我们想首先确定的是,它与图形一样精确和可控。然后我们从那里开始。所以我认为,这两种方法是如何发展的,以及它们实际上如何结合成一种沉浸式体验。

在我们结束这一集时,很难理解这些工具在多大程度上正在改变成为创意人员的意义,无论对于现有的艺术家,还是对于那些以前从未称自己为艺术家的人来说。来自 Udio 的 Conor。

进入录音棚的门槛太高了。现在呢?

这项技术的承诺在于,它能让数量级甚至两个数量级的更多人参与到创造性的体验中,对吧?人们可以通过这种方式表达自己,但更具体地说,随着世界不同文化时刻的发生,你现在可以为它们添加音乐,因为技术可以以有趣的方式动态地附加到这些事物上。这非常引人注目。

这是一个以前并不存在的市场,仅仅是因为探索这种方式才成为可能。我认为,我们也着迷于如何从最高层面,比如现有的艺术家或制作人,来看待这如何基本上可以作为一个创意引擎,一种你可以从中提取创意的无限创意源泉。也许你已经有了一个曲子的开头。

你有一个参考,你有一个这个。你想看看,从这里可以发展到哪里?如果我稍微重新混音一下,在这个基础上进行一些变奏,这也是一件非常引人入胜的事情,同样是因为这是以前需要花费大量时间的事情。所以它也加速了专业人士的创作速度。

我还没有遇到过一位实际使用这些产品的艺术家会担心这些产品会与他们竞争。我反复听到的最大担忧是有人会……

夺走他们的饭碗,并从创造中……一个很好的提醒,提醒我们这场转变是多么的巨大。

我本人就是一名创作者,从事平面设计、摄影工作。我尝试用Flash制作电子游戏、动态图形、特效,以及在犀牛三维建模软件中进行建筑可视化。我感觉到了那种恐惧。

重点是什么?这东西什么都能做,对吧?但我认为情况并非如此。我认为正在发生的是,这项技术赋予了创作者如此强大的力量,以至于那些曾经像工作一样的事情,现在你甚至都不会去想。

这就是这项技术的作用,对吧?有一天,从美国东海岸到西海岸要花费大量时间和精力,人们会在这个过程中死去。而现在,你就像,“我花了二十分钟才到达机场”,你不会真的去想你像绿巨人一样飞过了飞机。相反,你会从更高的层面思考。

你只是,我不知道,在接电话的间隙飞来飞去,去做更大的事情,对吧?所以我觉得同样的事情也会突然发生,比如用三维模型做东西,以及所有素描方面的事情,你将节省你生命中大量的時間,因为不必去做那些事情。你可以专注于拥有更好、更疯狂的想法。我真的很、很、很期待看到创作者们将能够做到什么。

好了,现在就到这里。白天的演示之后,晚上在纽约市创意社区举办了一个画廊派对,展示了许多艺术家的作品。所以,如果你想近距离接触这些工具,请访问a16z.com/aiart查看他们的演示和更多内容,我给你看一小段预告。

女士们,先生们,我很高兴来到a16z艺术家隐居地。

是的,让你兴奋不已。

你可以生成任何你想要的东西。

太棒了。是的。

这是一首完整的歌曲。

哇。

这太好了。我们也在研究一种新型的……

事实上,我认为如果我们……

慢动作观看会更好。

这从确定性变成了完全不同。

如果你喜欢,可以重新混音这集节目。帮助我们宣传这个节目,与朋友分享,或者如果你感觉很有雄心,你可以在ratethispodcast.com/a16z留下评论。制作播客有时会让你感觉自己只是在对着虚空说话。所以,如果你喜欢这集节目,如果你喜欢我们的任何一集节目,请给我们评分。下次再见。