嘿,在节目开始之前,我有一个小小的请求:如果您喜欢《整洁眼秀》,请花一点时间在您的播客应用程序上评分并留下评论,告诉我们您最喜欢的剧集以及您想听到哪些主题?您的反馈能帮助我们改进节目,满足您的好奇心,带来精彩的内容,并为您提供最佳体验。
自从互联网调制解调器进入我们的家庭以来,人们就开始上网,有时只是为了看看网络上所有疯狂的东西。从那时起,这种需求就由在线社区得到满足,创意人士汇聚在一起,互相启发,分享他们的技巧。像DeviantArt这样的网站为艺术家提供了一个展示其多样化数字创作的空间。
Newgrounds 成为古怪 Flash 游戏和动画的中心,而 Vimeo 则始于一个为有抱负的电影制作人提供的简朴社区。近年来,您可能注意到 AI 生成的图像在您的社交媒体上不断涌现,那些通常超现实的肖像或奇幻的风景看起来几乎完美得不像真的。随着这种新型创作的出现,一个新的平台也应运而生,那就是 Civitai。
这是一个中心,初学者、专业艺术家和工程师汇聚于此,一起试验最新的模型,例如 Stable Diffusion 和 Midjourney,对其进行调整,开发新技术并分享他们的工作流程,随着社区的壮大,工具变得越来越容易获得,模糊了所有角色之间的界限。只需点击几下,任何人都可以在这个生态系统中玩耍。
任何人都可以从消费者转变为创造者。但这对艺术的价值究竟意味着什么?民主化这项技术,能够创造几乎任何你能想象到的东西,其风险和回报是什么?
这就是 TED AI Show,我们将在这里探讨如何在 AI 改变一切的世界中生活和发展。
我们曾经对未来的大部分想象如今都已实现。
口袋大小的无线电设备将使个人能够与任何地方的任何人进行沟通。
但这种重塑现实的过程也充满了难以驾驭的棘手问题。欢迎收听 Shift,这是 PRX 的一个新的每周播客。
PRX。
我会说……
我的最大技能之一就是我与人互动的能力。
我是您的主持人 Chafer Strong。您可以在 shift.show 上了解更多信息。
为了帮助解答这些问题,我们邀请到了 Civitai 的联合创始人 Justin Meyer 和 Maxfield Hulker。我们将一起探讨内容创作和消费的未来、所谓的“互联网死亡理论”,以及为什么 NSFW 内容仍然存在于他们的平台上?好的,Justin 和 Maxfield,欢迎来到节目。
再次感谢你们的邀请。很高兴来到这里。
每个人都有自己的起源故事,我很想知道是什么最初吸引你们进入 AI 和创意技术的世界。
你想先说吗,Justin?Max 在 2022 年 8 月向我介绍了 Midjourney,在此之前我已经关注 AI 图像生成技术的发展有一段时间了。我对 Midjourney 的成果感到着迷,我一直是一个有创造力的人。工程对我来说总是更容易一些,但能够利用我的工程技能来修改提示并与 AI 来回互动,对我来说是具有改变意义的,也是令人振奋的。
Maxfield,你呢?
是的,我在 Midjourney 出现之前很久就开始玩 DALL-E 了。而且,我喜欢 Google 开放的 DALL-E,你实际上可以修改它。我用它生成的第一个图像只是我融化成一个景观图像,那完全是像素化的,被破坏了。看到这种新型的艺术形式,它更像是电脑生成的,而不是人造的,这真的很有趣。
很有趣。我认为对我来说也是如此,我认为这是 2022 年 Midjourney v3。我相信当人们真正开始使用它时,能够查询人类创造力的某种提炼,并得到反馈,这非常令人兴奋。
当然,这也是开源 AI 真正起飞的一年,对吧?Stable Diffusion 和 Imagen 出现了。所以,我很想知道,你们几年前推出了 Civitai,每月有数百万访客。你们在 AI 创作领域解决了什么问题?在你们第一次推出这款产品时,你们是在解决什么痛点?
我可以回答这个问题吗?Maxfield。
是的,请说。
这是你的愿景。我从 Midjourney 转向开源图像生成,是因为 Midjourney 的无限计划实际上并不无限,它有速度限制。所以我需要为我的爱好找到一个新的出口。
Stable Diffusion 刚刚发布。所以我开始积极参与那个社区。每次有人发布图像时,人们都会问,你的提示是什么?你是怎么做到的?对吧?人们开始创建自定义模型。
他们会添加新的概念,添加新的风格。他们会添加新的角色,诸如此类。所以 Civitai 的目标就是解决这个问题。我们希望让用户能够在一个地方找到所有模型和所有他们需要的资源来创作东西,并且无论何时他们发布图像,我们都会捕捉到关于它是如何制作的所有信息,包括用于制作该图片的模型。很多社交功能都是由此产生的,因为,你知道,人们需要能够讨论他们制作的这些很棒的东西。所以这就是目标。
我的意思是,这真的很有趣,因为你是完全正确的。每个人都非常关注使用什么提示,但这不仅仅是提示。所以你们的平台有点像追踪所有权,它记录了生成该图像的完整工作流程,对于那些不了解的人来说,你能稍微解释一下开源 AI 以及它对微调模型的意义吗?你知道,人们会使用诸如“LoRA”之类的术语,你能为听众简单地解释一下吗?
你如何解释?Maxfield?我认为你可以比我更简单地解释。
我喜欢复杂性。绝对是。是的,让我考虑一下。所以我认为你有一些通用的基础模型,这些模型是由大型公司花费数百万美元创建的,因为它们需要大量的训练数据。
LoRA 和嵌入是你可以根据这些基础模型进行微调的,以便进一步调整并获得图像生成的最后 10%。你试图在概念上获得什么,而无需拥有深厚的资金来资助这项工作。我们说这可能是最高级别的部分,它允许在基础模型上进行构建。谢谢。你想分解一下你们社区正在进行的微调的一些例子吗?也许是一些你最近遇到的杀手级例子?
自一开始以来,对我来说最有趣的大概是这个想法,你知道,如果一切都是华夫饼,或者如果一切都是由电线制成的,或者如果一切都是由咖啡杯制成的,这个世界会是什么样子?是的,完全正确。如果我们都感觉……
然后他们能够使用 Civitai 将其与不同的风格叠加,对吧?所以这里有一个非常好的图像,如果一切都是由毛毡制成的。然后,这是一个图像,如果一切都是由毛毡制成的,并且它像 Studio Ghibli 的风格。
能够将这些复杂的概念叠加在一起,这正是开源的优势所在,因为你无法使用任何这些封闭的工具可靠地做到这一点。能够进行特定阶段的人类表达真的很有趣。我认为我通常难以做到的一件事是能够进行特定的面部表情,并且能够对诸如面部表情之类的概念进行训练。这真的非常酷,因为同样,你可以准确地得到你想要的东西。
可以说这是一种更花哨的方式来过滤或聚焦你从这些模型中得到的东西,并获得某种一致的风格,然后其他人可以复制。我喜欢你关于将这些部分组合在一起的观点,因为确实感觉在开源方面,所有这些都是乐高积木,你不会在封闭源代码中看到。
好吧,他们最终会找到某种方法来做到这一点,Midjourney 有他们的风格参考,它慢慢地出现,但开源的出现几乎是瞬间的。所以我很想知道,在你们创建 Civitai 之前,生态系统是什么样的?合作在哪里发生?你提到过,你想分解一下 Civitai 之前和之后社区的重心是什么?
是的,我认为问题是当时没有重心,它是如此分散,对吧?世界各地都有不同的社区。有些人专注于工具,有些人专注于模型开发。有些人专注于,你知道,最新的研究论文是什么。所有这些都在 Civitai 汇聚在一起。
我完全理解。社区是重点,因为 Civitai 来自于拉丁语中“社区”一词。但在网上呢?社区对于使开源 AI 能够发挥作用至关重要,这可能与所有其他构建这些 AI 创作工具的方法不同……
与封闭源代码开发等相比。这实际上取决于公司内部的小团队以及他们背后拥有的所有资源,以推动某事向前发展,而开源开发则完全不同。但它真正归结为的是一群人能够在继续开发某事方面有多高的效率。
这有点像一种新型的开源运动,人们推动事物的方式不是通过软件,而是通过训练。所以这创造了一种新型的分布式训练,这种训练在这些封闭源代码模型中并不存在。相反,它允许许多人添加他们认为需要添加的东西,然后人们从那堆东西中提取他们想要的东西。因此,社区至关重要,因为它基本上使人们能够找到并提供他们最擅长的细分领域。基本上,如果没有社区,开源开发就不会真正发生。
这说得通。或者说,为什么信任少数被任命的产品经理来决定要为绝对所有事情构建什么?让社区参与进来。完全正确。
我本来想说……这与其说是关于开源 AI,不如说是关于开源内容的整体。关于这一点,有趣的是,它正在推动内容方面的新界限,那就是它不再是静态的,而是更具交互性。它更易于定制,并且更适合……观看它的人。
关于这一点,有趣的是,当你脱离工具本身作为问题,它们是开源的、封闭源代码的或其他任何东西时,重要的是内容有多容易复制,以及它看起来有多好。所以艺术本身就像一个完整的垫脚石。我的意思是,它是一个全新的想法。想象一下,如果你有一个 YouTube 视频,它展示了拍摄地点使用的每一件设备、每一个角度、每一个灯光功能、每一个你喜欢的每一件设备的粗略设置,以及如何制作视频,这样你就可以真正准确地制作出来……这有点像这样,能够完全重新创建,然后能够即时进行混音和更改媒体,这很酷,是开源内容。
Maxfield,这是一种非常有趣的说法。就像我们用 TikTok 的兴起以及基本上混音内容的能力看到了一点这种现象,或者像把东西拼凑在一起。这总是让我想起那些在 Reddit 社区上进行 Photoshop 比赛,有人会上传照片,然后其他人会添加一些东西。
然后,在这个对话的过程中,你可以看到这个……基本上像……活过来了。我们以更静态的方式看到了这一点,再次使用这些短视频平台。但是,是的,你刚才描述的,能够查看某些东西,然后基本上拿走它,然后……是的,混音它……甚至还没有完全实现……重新创建它,然后按照你想要的方向进行处理……非常令人兴奋。是的,在我看来,没有什么东西能与之相比……
完全是新时代的媒体,对吧?我的意思是,即使在这个播客中,如果你想想十年后,你会说我不喜欢这里出现的嘉宾,让我们替换他们。让我替换概念,或者让我替换出现在这里的人……
是的,Justin……
地方……让我得到 David Bowie……这是一个非常酷的想法,我非常喜欢。也许这……
是预兆,因为我们肯定会回到现实与想象之间的界限模糊以及其中各种含义的问题,但回到 Civitai,开源似乎是如此基础,并且指出能够看到完整的“配料表”并了解复制和混音某些东西的说明,这真的很酷……但显然,你们刚刚宣布了 Spine,你们也正在采用封闭源代码工具,例如 Eleven Labs、CleanAudio。你如何看待开源和封闭源代码运动,以及你如何看待 AI 在这种我们必须同时使用这两种工具的世界中如何发展?
我认为,最终我们看到的是,最好的内容不仅仅是使用一种工具。他们会开始使用像Flux这样的开源模型生成图像,Flux在IT方面有一些限制。然后,在他们制作完图像后,将其导入到像Luma或Plage这样的视频工具中,然后他们会使用Soo或Audacity之类的工具为其添加音乐。我们看到的是,人们希望能够使用所有这些工具来创作内容,最终目标是能够支持Max所说的这种新媒介,在这种媒介中,我们可以完全重新创作内容并使其可混搭。
你将Civitai描述为AI之于互联网,Civitai之于AI艺术。你能详细解释一下吗?请记住,我们的一些听众年龄不到30岁,不记得没有AOL的时代……AOL是什么?嗯,安装风险?犯罪?是的,是的。
对于那些不熟悉AOL的人来说,它基本上使互联网的所有内容都可以在一个地方访问,对吧?你可以进行即时通讯,你可以发送电子邮件,你可以查看股票,所有这些,人们当时在界面上做的事情。
在某种程度上,我们现在正在做的就是尝试将人们用来创作AI内容的所有工具整合到一个地方,就像那样,这样,现在就不必了解所有不同的东西,也不必知道当前最好的工具是什么,并试图弄清楚我们如何才能帮助你找到你认为有趣的东西,这将允许你用不同的动画或动画风格替换所使用的视频。诸如此类。现在,不必再费心去寻找做某件事的地方,你可以来到一个将所有内容整合在一起的地方,并且根据正在制作的最佳内容,看看什么适合你想要制作的内容。
我喜欢它,我喜欢它。好的。所以这很有趣,对吧,能够了解某物是如何创建的本质是一样的。但由于人们使用的是闭源工具,你无法获得这些信息,也无法让这些工作流程为其他创作者所用。我一直在与设计师和大型科技公司交谈,他们一直在Civitai上下载模型。他们也说,我必须非常小心我在屏幕上显示的内容。
有些人认为我实际上是在工作,而这正是开源的有趣之处,对吧?不适合工作的(NSFW)内容一直是重要的驱动力。在许多方面,开源AI都是如此。Civitai也是如此。你能向我们的听众解释一下为什么不适合工作的(NSFW)内容在开源AI的发展中如此重要吗?
嗯,几件事。我的意思是,我认为首先,农民是一个老生常谈,对吧?所有新的媒体形式都是由色情内容推动的。这是一个陈词滥调,但它之所以成为陈词滥调是有原因的,在很多方面,只有那些推动它的人……实际上非常渴望制作这些东西的人,也是那些推动技术进步的人。
在我们最初构建Civitai时,我们思考了很多问题,例如我们是否应该为不适合工作的(NSFW)内容设置一个单独的部分,或者我们是否不允许不适合工作的(NSFW)内容?我认为,就这一点而言,我们需要保持这些资源的多功能性,因为它们有很多不同的用途。例如,当时,用于制作女性角色的最佳模型实际上是一个色情模型,因为它接受过大量人体训练,显然。所以,它被大量的人使用,他们并没有做任何不适合工作的(NSFW)的事情,但他们使用这个色情模型是因为他们只是想获得对人体在不同姿势下的最准确的表示。在这一点上,我认为,你知道,我只是进行了一次谈话,真的,我们可以关闭这些东西,因为它有很多用途,不仅仅是它被宣传的用途以及它可能被用于的用途。
你还有什么想补充的吗?我同意你的说法,我们看到的是,人们投入到使用AI制作成人内容的精力最终推动了模型质量的提高。因此,对我们来说,这方面很重要。我们希望确保能够支持人们使用AI制作的所有内容。
就像你说的,开源技术的吸引力在于,这些闭源平台对你施加的限制不存在,对吧?你可以制作各种各样的东西,好的和坏的,能够拥有一个能够支持它的空间并非没有挑战。我们一直在学习、成长,并尽最大努力通过我们的网站设置一些限制。
但是,绝对是。这是一个艰难的决定,但我对我们做出了这个决定感到高兴,因为我认为这创造了一种独特的体验,使我们能够成为所有事物的中心,可以说,不仅仅是一半。
有趣的是,早期的Stable Diffusion版本在人体解剖学方面非常出色。然后,当Stability AI从其训练数据中删除色情内容后,突然之间,在你知道的,如何重建人体解剖学方面出现了大幅下降。但我必须想象,你们必须处理一些道德和伦理问题。
例如,我知道你们已经做了很大的努力来减少平台本身的不适合工作的(NSFW)内容数量,并且有一些人使用这些模型来创作儿童色情内容。这段旅程和经历是什么样的?你们是如何重新设置限制的?我很想让你更详细地介绍一下。
是的,这对我们来说是一次有趣的学习经历,因为显然,在我们最初构建它的时候,我们并没有意识到人们可能会用它做什么。所以,我们甚至在最初构建这个网站的时候,都没有真正考虑到这一点。
当我们第一次遇到这个问题时,我们意识到,好吧,明白了。所以我们应该,我们需要开始迅速采取一些措施来限制这种情况。所以我们做的第一件事就是制定了一些我们认为是常识的内容策略。
关于我们认为不仅在法律上允许在互联网上发布什么内容,而且在道德上我们认为什么是正确的,内容策略既围绕着真实人物的内容,也围绕着未成年人的内容。例如,今天仍然有效的规则之一是,我们不允许平台上出现任何逼真的未成年人图像。这纯粹是因为,再次,它有太多太多可能被误解或被滥用的可能性。
然后,我们不允许任何未经许可的真实人物图像,除非是在工作或学校等环境中。这包括姿势和面部表情。我们围绕此事的核心思想是,我们都是父亲,我们都已婚,我们想,我们想让我们的孩子或我们的配偶以这种方式被描绘吗?不。所以让我们制定一些规则来防止这种情况。
当然,你谈到了非自愿的深度伪造问题,对吧?是的,你可以伪造任何东西。
是的。我们一直在不断突破上传内容数量的新里程碑。因此,处理这种数量并非没有挑战。我们不得不创建我们自己的独特模型来帮助处理文本内容。这是一段旅程,我们一直在不断改进它。
我们致力于的一件事是,我们在去年9月启动它的时候,实际上是与Thorn以及该领域的其他几家AI公司合作,准备了一份名为“安全设计”的白皮书,目的是真正开始,我想,建立一个报告我们所看到的内容并处理这些模型的规范,以便我们能够帮助,我不知道,让未来的事情更安全。现在的事情本质上并不安全,这是一个狂野的西部。
这是一个全新的领域,对吧?这并非没有风险,并非没有危险。所以,我们真正想要做的是思考,好吧,如果这就是我们现在的处境,这就是我们生活的荒野,那么未来会是什么样子?我们如何才能让未来的事情更安全?
我们如何才能开始处理这种向我们袭来的海量内容,因为人们每月会生成数十亿张图像?现在,我们确实积极地与政府机构(如NCMEC)以及其他机构合作,以应对更广泛的安全性问题。得到他们的支持并了解我们如何尽自己的一份力量来解决这个问题,因为这个问题正在以一种新的形式出现,这很有帮助。
你经常在开源中遇到这种两难境地,例如你信任人们,并赋予他们权力去做任何他们想做的事情,而设置最少的限制。你希望设置最少的限制,因为这是你促进创新的方式,对吧?也许在光谱的另一端,你有一堆闭源模型,我可能会补充一点,其中一些模型……
有明显的伦理问题,因为它们是用所有这些类型的数据进行训练的。他们不会让你随意提示。如果以DALL-E为例,我不能要求它生成哥斯拉,但我如果要求它生成一条尾巴很长的恐龙,我基本上就会得到哥斯拉。
所以,你知道,问题是,执法应该在哪里发生?是在模型创建时?是在生成时?是在分发时?我很好奇你对此有什么想法,因为你非常深入地参与了模型创建方面。但现在,你的产品中确实有推理功能和工作流程,但你无法真正控制分发,对吧?
对吧?是的,我认为最终必须两者兼顾。开源技术的有趣挑战之一是你无法真正控制人们一旦掌握了模型后会做什么。
所以你能做的最好的事情就是控制你训练的内容。我们实际上在6月启动了“开放模型倡议”,就在SD 3发布后不久。人们意识到,我们必须开始构建我们自己的替代方案,由社区驱动,并采用开放许可证。
我们在早期做出的一些决定,当我们讨论数据应该是什么样子时,是,我们可以有成熟的内容。我们需要能够捕捉人体解剖结构,但让我们将此与创建儿童的能力分开,对吧?所以在模型开发方面,已经有一些工作需要完成,以确保你知道,至少你正在制作和发布安全的东西。
人们之后会做什么,这就是开源的乐趣,也可能是危险的。但这就是第二部分的用武之地,对吧?以及我们如何强制执行诸如控制这些模型的输出之类的功能。所以我真的最终会说,它必须两者兼顾。但我认为,进一步考虑,人们对这些内容做了什么,这才是我们应该管理这些内容的地方,即发布这些内容的网站,以及共享这些内容的工具。
我们能否改为强制执行关于人们使用他们制作的内容的策略?如果他们能够以某种方式绕过TikTok和微软等公司设置的过滤器并制作内容,那么他们不应该在共享这些内容的平台之外传播这些不应该制作的内容。所以我认为,这就是我认为最终的X过滤器应该应用的地方,但当然,必须在这两个方面都做一些事情。
完全同意,这听起来我们需要一个全面的解决方案。但关于社区在2023年对这些模型和这些功能做了什么,每月有大约一万名独特的创作者向Civitai贡献模型,这推动了这种参与度,就像你知道的,一小部分超级用户。
我认为Max会跳出来说云是第一个癌症。我能理解。我能理解他的想法。我们有排行榜。我自己也在玩游戏,Max也是。
所以我们了解激励机制是如何运作的,我们希望鼓励社区参与,并为他们提供继续创作的手段。这就是Buzz发挥作用的地方。但即使在引入Buzz之前,我想说,激励人们的第一件事是,嘿,我想让我的名字闪耀。
要在Civitai上访问某些工具,你需要使用一种名为Buzz的货币,你可以用货币购买Buzz,也可以通过创作或为平台做出贡献来赚取Buzz。这是如何运作的?这如何融入你们正在构建的创意经济中?Max,是的,是的,绝对的。
我们……我们……我正在从让一切免费过渡,因为最初,就像所有生成一样,网站上的所有内容对任何想要使用它的人都免费。而我们……我们……这是不可持续的。我们必须实际收取费用,尤其是在想要开始支持创作者经济的情况下。然后另一件事是,好吧,你能通过实际互动来提供价值吗?你可以通过对你使用过的图像提供反馈来提供价值。
你生成的每一张图像,你都会为社区本身带来一些价值,无论人们是否将其用于训练数据,或者他们是否将其用于改进自己的提示,或者他们只是将其用于你创建的资源的反馈,你在社区中的每一次互动都有价值。我们应该相应地给予你价值。而我们的解决方案……
那就是Buzz,对吧?所以这个想法就像要给他们Buzz,以此表示,嘿,感谢你与社区互动。并且了解你如何才能使用它来使用这项付费生成服务,因为他们使用Buzz平台,然后我们可以用它来资助创作者经济。
创作者经济的核心目标之一是,当我们开始启动Civitai时,我们注意到,我的意思是,如果你与这些创作者交谈过,你会知道创造这些资源需要多少时间、汗水和泪水,更不用说金钱了,尤其是一些高端资源,这需要很多钱和很多时间才能做好。而所有这些人都在免费做这件事,这没有多大意义。我们必须给他们一些报酬,尤其是在所有受益于它的人面前。
创作者经济确实源于这个想法,即我们必须确保这些人得到正确的补偿,这将我们引入了Buzz系统。我们已经通过两种方式来分配它。
因此,创作者可以通过两种方式在平台上赚钱,一种是早期访问系统,他们可以将资源放在那里,本着开源的精神,而不是仅仅将其放在付费墙后面。你可以将其放置十五天,基本上是早期访问。然后我们还允许对平台上所有生成的图像进行分成。
因此,创作者现在可以获得25%,也就是所有在任何单一生成上花费的Buzz的25%。但是,是的,我们现在有更多计划,让创作者在未来能够获得更多收益。但这些是目前主要的两种方式,而且进展相当顺利。我们收到了使用它们的人们的一些很好的反馈。
你完全正确。开源人士投入了大量时间到基本上是公共共享社区资源中,看到一个你可以赚钱并获得一部分收益的社区,即使你的模型被用来创作图像,这真的、真的非常酷。
你们最终看到的用户类型是否有不同的角色?例如,我设想一些常规的模型贡献者,他们只是付费下载模型。其他人则在平台上创作内容。你们如何看待Civitai所服务的各种利益相关者?
是的,是的,很早就这样了。我们将其大致分为三类,它们各自具有不同的用途,并且相互建立。第一类用户是我们所谓的创作者。
他们是制作模型的人,然后吸引了我们下一类用户,称为爱好者,他们会使用这些模型来创作图像、创作内容,这反过来又会吸引下一类用户,称为消费者。所以,我们就是这样分层的。我们发现,有很多消费者。
基本上,90%的用户是消费者,接下来的9%是爱好者,而顶尖的1%是创作者,据我所知,这在公众中很常见,是的,是的,完全正确。然而,有趣的是,现在比以往任何时候都更容易向上移动。因此,我们一直在努力寻找方法,帮助消费者成为爱好者,并鼓励爱好者成为创作者,因为你不需要成为某个超级技术人员才能弄清楚这些东西,因为现在,任何人都可以创作,你只需要一个好主意。然后,我们可以引导你,让它变得很棒。
嗨,我是Grant,播客《重新思考》的主持人,在这个节目中,我和一些当今最伟大的思想家谈论他们看待世界的不寻常方式。在《重新思考》中,你将从科学家、领导者、艺术家等等人物那里获得令人惊讶的见解,例如Race、Weather、Spoon、Gladwell和Yuval Harari,这些课程将帮助你在工作中取得成功,建立更好的关系等等。在任何你收听播客的地方都能找到《重新思考》。
说到钱,我必须问一下。你们去年在Andreessen Horowitz的领导下进行了一轮510万美元的种子轮融资。过去一年,人工智能领域发生了很大的变化。
投资者现在如何看待你们改进后的使命?你们是否面临着必须盈利,而不是你们最初专注于艺术和社区的使命的压力?这些激励措施是否完全一致?或者你们是否面临着一些需要应对的紧张关系?
这很有趣。是的,我的意思是,确实有盈利压力,也有成为一家企业的压力。然而,这个媒介的酷之处在于,与传统艺术不同,传统艺术中,你知道,它依赖于一个人去创作一件作品,而且其他人并没有真正的方法来投入资金。
这是不同的,对吧?就像我们有很多空间可以对人们想要使用的服务进行货币化。因此,实现盈利是一件我认为只会变得越来越可持续的事情。这实际上很有趣。
我们分享的一部分宣传是,当我们增加货币化功能、启动Buzz系统并开始收取生成费用时,我们实际上看到了参与度的增加,以及社区中创作者数量的增加。所以这很酷,因为它实际上以目前不存在的方式使艺术和社区变得可持续,因为它增加了一种全新的参与方式,这自然会吸引资金。所以我希望我们可以保持这种状态,使其可持续发展。到目前为止,看起来我们正在按计划进行,但获得这些资金确实帮助了我们。我们曾认为自己最初可能会资金紧张,但要同时为一百万人做到这一点,对于一家小型公司来说,这是一件很难做到的事情。
Max,还有什么要补充的吗?
是的,我想说一件有趣的事情是,每个人都在寻找可比物,尤其是在风险投资领域,比如,你正在颠覆哪个行业,或者你正在取代谁?你正在做什么?很难做到的是,哦,不,我们实际上是在设计一种全新的内容和内容消费形式。
感觉这不仅仅是关于创作,它完全是关于消费以及消费方式的转变。你谈到了重混的概念,它在某种程度上使创作更容易获得,因为你没有空白画布的问题,对吧,突然间你有一个起点,或者你有可以组合在一起创造出完全不同事物的多个基本元素。
我思考的一件事是回到重混的短视频类比,这些平台是如何快速地反向工程你的灵魂的,它们是如何找出你喜欢什么类型的视频的。当然,你有一端是用户生成的内容,另一端是用户。
以及一个进行匹配的算法。我不禁想象,未来我们将走向内容个性化、一次性使用、实时为你创建。你们如何看待随着我们正在构建的工具和能力的发展,消费的未来将如何演变?
我喜欢你思考的方式。我完全同意。我认为,我的意思是,现在可以创作如此多的内容,没有理由不将其全部个性化。即使它是其他人制作的,即使是用非母语制作的,它也会被翻译。我的意思是,为什么不会呢,对吧?
所以,我认为,你知道,看着我们已经身处其中的这些算法的泡沫,为我们提供我们想要看到的东西,并将其提升到另一个层次,因为它会进一步个性化,这将很有趣,而这些限制可能是什么。所有的广告是否都会包含我的照片,或者我的家人的照片,或者他认为我最有吸引力的人的照片?思考这些限制可能是什么,以及在这种情况下我们如何仍然拥有协作体验,这是一种很长远的事情,对吧?
如果一切都是个性化的,我们如何联系?我们可以观看相同的内容吗?但其中会有细微的差别吗?我仍然可以围绕《绝命毒师》的故事与你联系吗?
即使这个系列中我看到的部分与你完全不同,看看随着我们所看到的内容的变化,世界将如何变化,这将很有趣。我们今天看到的内容更像是一个宇宙,而不是一个快照。所以期待一下。
宇宙的比喻很有趣,我确实听到了你的名言,“不要制作电影,要制作宇宙”,是的,这正是我想知道的问题的核心。未来的共享体验是什么?你会看《CSI:迈阿密》的第十七季吗?情况会是这样吗?这些将我们联系在一起的共享故事和体验,与迷失在自己个性化内容的小岛上相比,哪一个更重要?最近让我想到这一点的一件事是,每当我问别人他们最喜欢的YouTube频道是什么时,我都会得到三个新名字,然后我去搜索它们,它们都有数百万粉丝,而我从未听说过它们,所以我设想在这些之上又会产生一个生态系统,这就像一个无限的分形。嗯,我很想知道这是否会引起你们的任何回应,因为它似乎正朝着这个方向发展,是的,是的。
嗯,我经常谈论这个。我个人的观点是,是的,我们基本上只是进入我们自己媒体创作的兔子洞,而且我们永远不会出来,因为没有动力,我的意思是,为什么你会呢,对吧?如果你看看像TikTok这样的东西的流行程度,TikTok完全是一个发生在内容上的算法,对吧,这就是TikTok的价值所在。
如果你赋予TikTok随时随地为你生成你想要看到的一切内容的能力,你永远不会让人们离开它,他们会被困住。我认为这将是很大一部分人口的命运,可以肯定。这让我想起了《WALL-E》中的场景。
那里的人们就像漂浮在海面上,它只是一座垃圾山,直接通向虚无。老实说,这也带来了一种非常有趣的……你们两位作为创始人所拥有的化学反应,你们有点像一对奇怪的组合,你给我的感觉更像是一个人工智能乐观主义者,而Max,我不想说你是一个悲观主义者,但你肯定有更务实的视角。
我认为自己是现实的乐观主义者。
这意味着悲观主义……啊,这是一种美好的悲观主义。我很好奇,当你们建立这家公司并做出产品决策以及决定下一步方向时,这种动态是如何发挥作用的?
我个人认为它运作得非常好。进入平台的大多数功能都是Justin的创意,他从社区的反馈中获得这些创意。我们花了很多时间收集社区的反馈,然后这总是很有趣,因为他们会说,哦,我们应该这样做。
我们应该这样设计,就像,不,人们会滥用它。如果我们实施它,我们会赔钱,你知道,我们可以这样做。嗯……嗯……所以这很好,Max基本上……
会告诉我人们滥用它的所有方法,因为这是悲观的观点,而且……
就像红帽子,你知道……
节省了我们大量的法律费用,对吧?
因为你做对了,你做对了,我们可以这样做。
所以这对于平台建设来说非常棒,因为它在平衡方面做得很好,就像,好吧,这是我们真正想要加入的东西。但是,你知道,它可能会出错,对吧,对吧?然后大多数时候,你知道,我甚至知道,我认为,我悲观主义的优点是,我的一部分人真的想看到它出错,对吧。
所以我仍然会去做,无论如何都会推动它。我想看看什么会坏掉。这意味着我们非常快速地推出很多功能。我认为这对平台来说效果很好。
喜欢这样。Maxfield,你认为你对世界的看法是否促成了你对“互联网死亡理论”的信念?你能向那些不了解的人解释一下这是什么吗?
当然。是的。我对“死互联网理论”的个人定义是这样的:我们用足够多的互联网内容替换掉那些实际上并非来自其他人,或者你可以本能地认为它们并非来自其他人,或者你根本不在乎它们是否来自其他人,以至于它失去所有价值。
而且没有真正的理由整体地留在互联网上,除了作为一个信息获取设备。是的。不,我认为我们实际上正在为它做贡献。
我认为人工智能正在积极地为它做贡献。我个人认为这是一件好事。多年来我一直对互联网感到幻灭,如果可能的话,我希望整个互联网都烧毁。所以如果我们能帮助它……
那么我完全赞成。你对麦克斯菲尔德对这方面的看法怎么看?
我的意思是,我坐在那里笑着,因为他已经无数次地和我谈论过这个,而且他并没有错。我的意思是,这绝对是一个挑战。制作如此多的内容,如此多的AI“垃圾”(他们现在这样称呼它),这仅仅是个开始。
同样,这将需要我们换一种思考方式。互联网将不得不改变,比如,直到互联网上只有10%的内容是由人类创作的,还需要多久?我想,另一方面是,这实际上并不重要。就像有些人,我真希望我实际上不必与他们交谈,我可以直接说,“嘿,LLM,帮我跟这个人谈谈,我必须处理这种关系”。
就像贾斯汀的数字孪生。
是的,我们可以让贾斯汀的代理人帮我处理事情吗?
那太好了。每次我被迫上推特时,我都觉得,如果这些是AI聊天机器人就好了。我认为,如果整个推特都是AI混乱,那实际上会是一种更好的体验,因为它现在就像我被迫一直经历这种垃圾一样。
所以我同意你的观点。它不可避免地是……你知道,这是一件奇怪的事情,我正在做一些提示,把我的几个要点转换成一封电子邮件,而另一个人正在使用新的苹果智能(NEL LLM)来总结它,为什么我们不能只发送要点呢?所以这就像正在发生的压缩和解压缩,但在它的核心仍然是人类密集型的。但你可以很容易地看到这种变化,比如我们一直在猜测的完全生成的TikTok feed的例子。所以,我必须问,你认为三年后的创作会是什么样子?
我认为让它仍然很困难的一点是,我看看视频在过去一年里发展得有多快。我不知道你们是否看过,比如一年前那个疯狂的史密斯吃东西的TikTok,和今天相比,它看起来像是真的威尔·史密斯。我不知道那个自动生成的TikTok会是真的。我不会感到惊讶。
三年后就会有自动生成的短视频,也许它们还没有完全个性化,但它们可能正在朝着这个方向努力。我认为另一个让我非常感兴趣的是游戏开发,感觉我们仍在考虑,你知道,如何降低成本,但实际上,在你改变视角之前,你只能削减这么多成本,从关注效率转向关注“好吧,我们可以用它做哪些有趣的事情?”以及这将如何改变游戏?
你能详细说说游戏方面吗?这很有趣。我在GTC上确实有机会问詹森这个问题,他预测未来一切都会生成而不是渲染。我认为考虑一下当模型不再是创作手段,而是你正在体验的内容本身时会发生什么,这很有趣。这会激发你任何想法吗?
是的,有几件不同的事情。大约两三个月前,在一个周末里,我有机会制作我自己的小型AI游戏,并使用AI代理作为管理游戏的人,游戏中的角色,为游戏创作内容的人。
这很清楚地表明,如果我们现在已经能够做到这一点,而我在周末就做到了,那么我们肯定会有这些AI生成的游戏,你进入游戏后,也许其中一些是由其他人构建的,也许没有,但一切都可以按需制作,并且可以调整自身以适应你正在做的事情。我认为我所想象的是,未来大部分将要生成的内容将是游戏的内容,而人们不会在那里……
进行创作不是一项创造性行为。它是关于享受内容,它是关于探索,关于做出选择并观察结果。我认为这可能会改变游戏,并且可能会让更多以前不是游戏玩家的人成为游戏玩家,因为现在它可以适应任何……
感兴趣的东西。完全回到个性化。所以,麦克斯,每个人都在谈论用AI制作电影,这在推特上似乎非常流行。但是,当我再次看看人们真正用眼睛消费并推动观看时间的内容时,它有很多短视频内容,我认为这确实吸引了很多注意力。你认为几年后最主要的消费形式会是什么?
关键是现在是短视频内容,对吧?我的意思是,我们的注意力只会越来越短,如果不是已经这样了的话。我的意思是,谷歌最有趣的事情是什么?谷歌的出现是因为我们将许多记忆外包给了互联网,我们只是停止了增强自身的能力。
随着ChatGPT和其他通用工具在我们生活中越来越普遍,我们将把越来越多的可变性外包出去,去思考、创造,以及真正地,你知道,参与。我的意思是,你知道,在YouTube上你可以看到最流行的内容形式之一是,在新的电影上映后,是一堆解释性视频,这些视频会进行回顾或评论,对吧?因为人们不喜欢……我不想要看这部电影……
我想看它8分钟的回顾,并有人告诉我它讲的是什么,这样我不必去思考它讲的是什么。在我看来,我认为大多数人与内容互动的方式是,他们只想得到它的短视频版本,这并不是因为他们懒惰,而是因为他们的思维已经被这样训练了:好吧……
这是我能最轻松地把信息塞进脑袋里的方式。我已经到了不消费任何非2倍速媒体的地步了,因为它太长了,我无法忍受观看任何非加速的内容。
是的。内容的数量也在增长,对吧?所以我们有更多可供选择的内容,而不是像书籍、电影、电视节目,当然还有社交媒体内容,绝对呈爆炸式增长。所以,理解它的一种方法就是对所有内容进行快速浏览。看到“无书摘要”的爆炸式增长以及人们获得播客摘要的情况,这对我来说真的很有趣。无论你的媒介或格式是什么,你最舒服的消费方式是什么,你都可以将任何内容转换成任何内容,并且它具有我在你的平台上看到的重混、迭代的方面,因为它更疯狂,但我可以想象它会更多地转向消费……
这个规模更大的推论是,你知道,我现在至少有一天,我有一个记录我参加的每一个会议的AI,检查我发送的每一封电子邮件,并建立我的数据库,对吧?我可以预见一个非常非常可能的未来,与其让我参加播客,不如说,“嘿,你用我的AI等价物来做这件事”,然后他们甚至会给我一个口袋,在那里我这样做,你将来可以拥有你的等价物,只要问他们问题,如果你有这些问题,或者你知道我可以拿你的等价物,让你替我问我的等价物问题,用不同的方式为我总结它,所以就像,好吧,你知道,在这一点上,你知道,像什么才是我能获得的最简洁的内容形式?对吧?我们是否需要费心去处理任何这些?或者我可以直接得到一个要点列表?就像这个人相信什么,然后继续。
我认为从某种意义上说,这是不可避免的。我们将有一堆代理人,我们委托他们进行一堆互动,而我们彼此交谈,谈判,做各种有趣的事情。所以,在我们结束的时候,我很想知道你们每个人,在这个新世界中,是什么赋予了艺术和创造力深刻的价值?Civitai如何为你们的社区放大这种价值?
你知道,你的第一个……等等,给我一秒钟。
当然,当然。慢慢想。
我必须向你报告我正在思考什么。
没错。这很糟糕。这违背了TED的初衷。我们可以看到真正的思想的耻辱。
不用快速过一遍。贾斯汀,如果你想说的话,就说吧。是的,是的。
不,我认为,我认为关于所有这些创造性方面真正让我感兴趣的是它较少的人为方面,对吧?这是这样的想法:当然,人类正在提供某种……一般的指导。但实际上,它几乎就像是一种机器中的幽灵。
我最喜欢的艺术,来自所有这些艺术,是当人们结合这些资源时,他们没有给出任何提示,什么都没有!他们根本没有给出任何东西来作为创作的依据。而它产生的东西是奇特而奇怪的,显然是训练数据的产物。
但它与我认为人类艺术家会想到的东西不同,它在某种程度上缺乏意图……这对我来说是独特的,因为我认为我们推崇的艺术家,最伟大的艺术家能够以最超然的方式表达情感,这样你就能感受到某种感觉,而无需在某种艺术形式中明确地表达出来。而就我个人而言,这就是我从许多直接的机器人创作中获得的感觉,这些创作没有任何人为干预。这些模型变得更好吗?你实际上会失去很多东西。你会失去越来越多的这种……静态的东西,而更多的是……来自人们的意图,而这……你知道,这也很有趣,因为看到那些显然没有古典艺术技巧的人,无论如何,否则永远无法创作这些东西,能够表达对他们有价值和意义的想法,并且感觉能够以你否则可能无法做到的一种方式与某人交流,也许只是通过对话。
喜欢这个。贾斯汀,你怎么看?
是的,我认为,我认为我想说的是,与麦克斯所说的内容非常一致,我认为我对我们在这里所做的事情最兴奋的是,赋予每个人能够以以前非常有限的方式进行创作和交流的能力,这需要几十年的训练、经验和探索。
现在你可以看到其他人创作的东西,并创作出你自己的类似或更好的东西。在30秒内,你知道,我认为这从根本上改变了交流的能力,我认为提高我们的交流能力将帮助我们更好地一起工作。而这正是我想做的,我想帮助我们朝着我梦想中的乌托邦前进,而不是麦克斯可能告诉我将会发生的可能的末日。
麦克斯,贾斯汀,非常感谢你们加入我们。
非常感谢你们邀请我们。
好的。与贾斯汀和麦克斯交谈后,我不禁觉得我们正处于一个迷人的转折点。最突出的是Civitai如何将整个创意配方烘焙进去。每个模型、每个提示、每个操作步骤都直接融入内容本身,就像在艺术作品中嵌入教程一样,创造了前所未有的重混、迭代和透明度水平。无论你看到的是图像还是视频,你都可以准确地看到它是如何制作的,并且可以以此为基础进行构建。
但这同时也引发了更深层次的问题:当内容变得不那么静态,而变得更动态,几乎对每个观看者都个性化时,共享体验会发生什么?我们是否走向了AI生成内容的个人泡沫,完美地定制以进行测试?或者我们将找到新的方法来一起构建共享宇宙,以我们无法想象的方式共同创作和重混?虽然贾斯汀和麦克斯可能不同意我们是否朝着乌托邦还是“死互联网”前进,但他们都在帮助构建将定义我们在新时代如何表达自己和联系的工具,随着人类和AI生成内容之间的界限越来越模糊,像Civitai这样的平台提醒我们,社区和创造力将对接下来发生的一切至关重要。
TED AI Show是TED音频联盟的一部分,由TED与Cosmic Standard联合制作。我们的制作人是多米尼克·贾德和亚历克斯·希金斯。我们的编辑是班·本钦。
我们的节目主持人是埃文·塔克。我们的工程师是阿西亚·波拉·辛普森,我们的研究员和事实核查员是克里斯蒂安。此外,我们的技术总监是雅各宾,我们的执行制片人是阿利泽·史密斯。我是贝洛维德·斯·图多。别忘了评分和评论,我们下期再见。