Hear how this technology might disrupt traditional music workflows. Learn how musicians and creators can leverage this new model for innovation. Learn how musicians and creators can leverage this new model for innovation.Try AI Box: https://AIBox.ai/AI Chat YouTube Channel: https://www.youtube.com/@JaedenSchaferJoin my AI Hustle Community: https://www.skool.com/aihustle/about </context> <raw_text>0 今天的播客,我们将讨论Stability AI及其最新发布的一项全新功能。那就是他们生成音频的能力。这是他们最近推出的一项新更新。Stability 是一家很有趣的公司。你可能记得它,因为它曾是AI革命的领导者之一。他们实际上发明了稳定扩散,以及我们使用AI生成图像的方式。
然而,这家公司却面临着许多财务问题,发展落后。但我认为他们即将扭转局面。因此,我认为现在还不能完全忽视这家公司。在我们深入探讨之前,我想提一下,如果你还没有尝试过,我的初创公司AIbox.ai已经正式上线。
它已经正式推出,我们的第一个产品是AI Box Playground。我们现在有一个测试版,它基本上允许你访问所有顶级AI模型,所有这些都位于一个平台上。你可以在同一个聊天中与它们进行聊天。我们拥有音频、图像和文本,所有这些都在同一个聊天中,每月20美元。因此,你无需订阅20个不同的平台。你只需一次性付费,然后就可以访问所有不同的平台。你可以查看一下,链接在描述中,AIbox.ai。
好了,让我们来看看Stability AI发生了什么。他们最新的更新,除了他们发布了一种音频模型之外,真正有趣的是,我应该先说明一下,他们发布了一个关于音频模型的大型公告,但这并不是一个语音模型。这是一个音乐模型。它专门用于生成音乐。有很多不同的竞争对手,比如Suno和Udio也在做这件事,但是大多数这些生成音乐的模型,
人们批评它们侵犯版权。他们说,这些人从互联网上抓取了所有这些数据。他们抓取了所有人的音乐。他们训练了一个模型,现在它可以创作音乐了。所以人们对这个数据集中的版权问题感到不满。Stability试图避免这种情况。他们做了一些很酷的事情。首先,这是一个非常轻量级的、小型模型,实际上可以在你的手机上运行。这意味着Suno和Udio有可以在手机上运行的应用程序,但这显然是上传到服务器、云端,并在他们自己的、他们的
他们自己的网站和服务器上运行,你必须能够访问互联网。使用这个应用程序,你理论上可以在你的手机上完成所有操作。你的手机功能强大到足以运行这个模型,并且它可以为你生成内容。现在,我要补充一点,这不如Suno或Udio好。这只是事情的本质。所以
Stability只使用他们拥有版权的内容进行训练,这太棒了,对吧?他们在发布时不想涉及任何知识产权风险。他们说它完全由免版税的音频库、免费音乐档案和免费声音组成。这些是他们的来源,他们被允许这样做,这
在技术上是很棒的,除了它不够好。我认为这是最重要的一点。它非常小,只有3.41亿个参数,并且专门针对ARM CPU进行了优化。ARM制造芯片。这些都是基于,你知道,这个模型基本上是为了能够在ARM CPU上运行,直接在手机上运行而构建的。这些ARM CPU通常被安装在手机中。但是,它专门用于生成的是快速
的较短音频样本和音效。你可以生成鼓声、乐器和riff,它最多可以生成11秒的音频。你可以在智能手机上进行操作,大约需要8秒钟。所以,这绝对比你平均的UDO或Suno AI作品要快,但是
但是,我并不是说它不好,事实上,我认为对于它能做的事情来说,它相当不错,但它不生成人声。所以,如果你想制作一首完整的歌曲,或者说实话,一首非常棒的歌曲,在我看来,Suno和Yudio在制作音乐方面会做得更好。我已经尝试过两者,我广泛地尝试过Suno,它做得令人难以置信,创作出令人惊叹的音乐。人们
人们批评它是在受版权保护的数据上进行训练的。我不太担心这个问题。这并不是我的问题。我相信人们会因此而生气或批评我,但这只是我的意见,就像
那是他们需要处理的版权问题,作为用户、消费者和想要创作东西的人,我将使用最好的模型。这就是我对Suno或UDO的看法。不过,我想给你听一个样本,因为我对他们能够证明的东西印象非常深刻。它是完全免版税的,没有任何问题。所以他们有一些它能够实际做到的样本。你实际上可以上网查看SoundCloud。他们有很多不同的样本。
他们所有的样本都比较短,但是,你知道,它们准确地向你展示了它的功能。他们可以制作一些鼓声、一些音乐。除了我已经提到的所有限制之外,它还有一些其他的限制。首先,它只能处理用英语编写的英语提示。如果你说其他语言,你必须将你的提示翻译成英语,使用谷歌翻译或类似的东西。
它无法生成逼真的声乐或高质量的歌曲。它的质量比较低。它也没有很多不同的音乐风格。它实际上只是基于一堆他们称之为西方偏见训练数据的构建的。所以这些免费音乐库并不十分广泛。它主要是一些西方音乐。
它还有一些使用限制。这并不是世界末日。总得赚钱。所以,对于研究人员、业余爱好者和年收入低于一百万美元的企业来说,它是免费的。但如果你年收入超过一百万美元,你必须支付Stability的企业许可证费用。这并不是世界末日。我认为这是一个相当标准的许可协议。虽然,是的,感觉他们会制作一些开源的东西。所以,我想有些人……
对此感到不满。现在,稳定扩散是一家过去遇到很多问题的公司。他们去年筹集了一些新资金。他们的许多投资者,包括谷歌的埃里克·施密特,Napster的创始人肖恩·帕克,众所周知,他投资了Meta,他们正试图扭转局面。Emod,大多数堆栈是他们的,
联合创始人,他曾经是首席执行官。他显然严重误管理了他们的财务,几乎完全摧毁了公司。大量员工辞职。他们与Canva的合作破裂了。投资者对此非常担忧。所以在过去的几个月里,他们实际上获得了一位新的首席执行官,并将詹姆斯·卡梅隆任命为董事会成员,这很有趣,因为通常情况下,这家公司以图像公司而闻名。
有了詹姆斯·卡梅隆,你可以想象他们将走向何方,它将成为一家视频公司。所有这些AI生成的图像都非常适合创建AI生成的视频。他们还发布了一系列新的图像生成模型。所以看起来Stability正在朝着一些很酷的方向发展。我认为,如果我们关注视频,制作这些音效和一些较小的音乐片段是有意义的。如果他们制作音乐曲目,他们希望这些音乐在背景中,
或者说,视频,如果背景中也有AI生成的音乐,那就太酷了。所以这与他们的战略方向非常吻合。我非常好奇他们会走向何方。这是一家非常多产的公司。它筹集了大量资金,做了很多有趣的事情,但同样,它也面临着许多挑战。所以我会随时向你更新Stability发生的一切。请务必在你收听播客的任何地方留下评分和评论。再次,如果你还没有尝试过AI Box,描述中有一个链接。我很乐意让你尝试一下。你可以放弃大量的订阅。
每月20美元,你就可以访问所有顶级AI模型。你可以并排比较不同模型的结果。你可以在同一个聊天中与所有模型进行聊天。你无需切换,或者没有能力继续与不同的模型交谈。这很有趣。所以,请查看AIbox.ai,我们下次再见。