We're sunsetting PodQuest on 2025-07-28. Thank you for your support!
Export Podcast Subscriptions
cover of episode Stability AI Drops AI-Powered Music Tool

Stability AI Drops AI-Powered Music Tool

2025/5/29
logo of podcast AI Education

AI Education

AI Deep Dive AI Chapters Transcript
People
无名氏
Topics
无名氏: Stability AI发布了一款新的音频工具,专注于音乐生成,这被视为该公司的一个重要转折点。尽管过去面临财务困境,但Stability AI通过避免版权问题和优化模型在移动设备上的运行,试图在竞争激烈的AI音乐生成领域占据一席之地。然而,由于其模型在音质和功能上存在一些限制,例如无法生成高质量人声和音乐风格的局限性,它在与Suno和Udio等竞争对手的比较中处于劣势。尽管如此,Stability AI的战略方向似乎是将其AI生成的音乐与视频生成相结合,这可能为公司带来新的发展机遇。我个人认为,Stability AI的未来发展值得关注,特别是在其转型为视频公司的背景下,AI音乐生成可能会成为其重要的组成部分。

Deep Dive

Shownotes Transcript

今天播客中,我们将讨论Stability AI及其最新发布的一项全新功能。那就是他们进行音频处理的能力。这是他们最近推出的一项新更新。Stability是一家很有趣的公司。你可能记得它,因为它曾是AI革命的领导者之一。他们实际上发明了稳定扩散以及我们使用AI生成图像的方式。

然而,这家公司却面临着许多财务问题,发展落后。但我认为他们即将扭转局面。因此,我认为现在还不能完全忽视这家公司。在我们深入探讨之前,我想提一下,如果你还没有尝试过,我的初创公司AIbox.ai已经正式推出。

它已经正式启动,我们的第一个产品是AI Box Playground。我们现在有一个测试版,它基本上允许你访问所有顶级AI模型,所有这些模型都在一个平台上。你可以在同一个聊天中与它们进行聊天。我们拥有音频、图像和文本,所有这些都在同一个聊天中,每月20美元。因此,你不必订阅20个不同的平台。你只需支付一次费用,然后就可以访问所有不同的平台。你可以查看一下。链接在描述中,AIbox.ai。

好了,让我们来看看Stability AI发生了什么。他们最新的更新,除了他们发布了一种音频模型之外,真正有趣的是,我应该先说明一下,他们发布了一个关于音频模型的大型公告,但这并不是一个语音模型。这是一个音乐模型。它专门用于制作音乐。有很多不同的竞争对手。有Suno和Udio也在做这件事,但是大多数这些生成音乐的公司,

人们批评他们的版权问题。他们说,这些人从互联网上获取了所有这些数据。他们获取了所有人的音乐。他们训练了一个模型,现在它可以创作音乐了。所以人们对这个数据集中的版权感到不满。Stability试图避免这种情况。他们做了一些很酷的事情。首先,这是一个非常轻量级的、小型模型,实际上可以在你的手机上运行。这意味着Suno和Udio有可以在手机上运行的应用程序,但这显然是上传到服务器、云端,并在他们自己的、他们的

他们自己的网站和服务器上运行,你必须能够访问互联网。使用这个应用程序,你理论上可以在你的手机上完成所有操作。你的手机功能强大到足以运行这个模型,并且它可以为你生成内容。但是,我要提醒一下,这不如Suno或Udio好。这就是事物的本质。所以

Stability只使用他们拥有版权的内容进行训练,这太棒了,对吧?他们在发布时不想涉及任何知识产权风险。他们说它完全是由免版税的音频库、免费音乐档案和免费声音组成的。这些是他们的来源,他们被允许这样做,这

在技术上是很棒的,只是它不如其他产品好。我认为这是最重要的一点。它非常小,只有3.41亿个参数,并且专门针对ARM CPU进行了优化。ARM制造芯片。这些都是基于,你知道,这个模型基本上是为了能够在ARM CPU上运行,直接在手机上运行而构建的。这些ARM CPU通常被安装在手机中。但是,它专门用于制作的是快速

的较短音频样本和音效。你可以制作鼓声、乐器和riff,它最多可以制作11秒的音频。你可以在智能手机上进行操作,大约需要8秒钟。所以,这绝对比你平均的UDO或Suno AI作品要快,但是

但是,我并不是说它不好,事实上,我认为对于它能做的事情来说,它相当不错,但它不包含人声。所以,如果你想制作一首完整的歌曲,或者说实话,一首非常棒的歌曲,在我看来,Suno和Yudio在制作音乐方面会做得更好。我已经尝试过两者,我广泛地尝试过Suno,它做得令人难以置信,创作出令人惊叹的音乐。人们,

人们批评它是在受版权保护的数据上进行训练的。我不太担心这个问题。这并不是我的问题。我相信人们会因此而生气或批评我,但这只是我的意见,就像,

那是他们需要处理的版权问题,作为用户、消费者和想要创作东西的人,我将使用最好的模型。这就是我从Sunora UDO中得到的。不过,我想给你一个示例,因为我对他们能够证明的东西印象非常深刻。它是完全免版税的,没有任何问题。所以他们有一些它能够实际做到的示例。你实际上可以上网查看SoundCloud。他们有很多不同的示例。

他们所有的样本都比较短,但它们,你知道,向你展示了它能够做什么。他们可以制作一些鼓声和音乐。除了我已经提到的所有限制之外,它还有一些其他限制。首先,它只能处理用英语编写的英语提示。如果你说其他语言,你必须将你的提示翻译成英语,使用谷歌翻译或类似的东西。

它无法生成逼真的声乐或高质量的歌曲。它的质量有点低。它也没有很多不同的音乐风格。它实际上只是基于一堆他们称之为西方偏见训练数据的构建的。所以这些免费音乐库并不十分广泛。它主要是一些西方音乐。

它也有一些使用限制。这并不是世界末日。你总得在某个地方赚钱。所以,对于研究人员、业余爱好者和年收入低于一百万美元的企业来说,它是免费的。但如果你年收入超过一百万美元,你必须支付Stability的企业许可证费用。这并不是世界末日。我认为这是一个相当标准的许可协议。虽然,是的,感觉他们会制作一些开源的东西。所以,我想有些人……

对此感到不满。现在,稳定扩散是一家过去遇到很多问题的公司。他们去年筹集了一些新资金。他们的许多投资者,包括谷歌的埃里克·施密特,Napster的创始人肖恩·帕克,他,你知道,投资了Meta,他们正试图扭转局面。Emod,大多数堆栈是他们的,

联合创始人,他曾经是首席执行官。他显然严重误管理了他们的财务,几乎完全摧毁了公司。大量员工辞职。他们与Canva的合作也告吹。投资者对此非常担忧。所以在过去的几个月里,他们实际上获得了一位新的首席执行官,并将詹姆斯·卡梅隆任命为董事会成员,这很有趣,因为通常情况下,这家公司以图像公司而闻名。

有了詹姆斯·卡梅隆,你可以想象他们将走向何方,它将成为一家视频公司。所有这些AI生成的图像都非常适合创建AI生成的视频。他们还发布了一系列新的图像生成模型。所以看起来Stability正在朝着一些很酷的方向发展。我认为,如果我们关注视频,制作这些音效和一些较小的音乐片段是有意义的。如果他们制作音乐曲目,他们希望这些音乐在背景中,

或者说,视频,在背景中加入AI生成的音乐会非常酷。所以这与他们的战略方向非常吻合。我非常好奇他们会走向何方。这是一家非常多产的公司。它筹集了大量资金,做了很多有趣的事情,但同样,它也面临着许多挑战。所以我会随时向你更新Stability发生的一切。请在你收听播客的任何地方留下评分和评论。再次,如果你还没有尝试过AI Box,描述中有一个链接。我很乐意让你尝试一下。你可以放弃大量的订阅。

每月20美元,你就可以访问所有顶级AI模型。你可以并排比较不同模型的结果。你可以在同一个聊天中与所有模型进行聊天。你不必切换或无法继续与不同的模型交谈。这很有趣。所以,请查看AIbox.ai,我们下次再见。