We're sunsetting PodQuest on 2025-07-28. Thank you for your support!

Inside the Launch of AI-Powered Music Tool

2025/5/27

LLM

AI Deep Dive AI Chapters Transcript

People

Jaeden Schafer

Topics

Jaeden Schafer: Stability AI最近推出了一个全新的音频功能，专注于音乐生成。我认为这对于Stability AI来说可能是一个重要的转折点，因为他们曾经是AI图像生成领域的领导者，但后来在财务上遇到了一些问题。这个新的音乐模型旨在解决现有音乐生成AI模型的版权问题，因为它只使用拥有版权的内容进行训练。然而，这种做法也导致了它的生成质量不如其他使用更广泛数据集的模型，如Suno和Udio。尽管如此，我认为Stability AI的战略方向是正确的，尤其是在他们可能转向AI视频生成领域的情况下，这个音频模型可以为视频提供背景音乐。我个人认为，虽然版权很重要，但作为用户，我更倾向于使用效果最好的模型，即使它可能使用了受版权保护的数据。当然，版权问题应该由模型开发者来处理。总的来说，我对Stability AI的未来发展持乐观态度，并将持续关注他们的进展。

Deep Dive

Chapters

This chapter explores Stability AI's new music-generating AI model. It discusses the model's lightweight design, its ability to run on smartphones, and a comparison to competitors like Suno and Udio, highlighting its strengths and weaknesses regarding copyright and audio quality.

Stability AI released a new AI model for music generation.
The model is lightweight and can run on smartphones.
It uses royalty-free audio libraries to avoid copyright issues.
The quality is not as high as competitors like Suno and Udio.

Shownotes Transcript

今天播客中，我们将讨论Stability AI及其最新发布的一项全新功能，那就是音频处理能力。这是他们最近推出的一项更新。Stability AI是一家很有趣的公司，你可能还记得它，因为它曾是AI革命的领导者之一。他们实际上发明了稳定扩散技术，以及我们使用AI生成图像的方式。

然而，这家公司却面临着许多财务问题，发展落后。但我认为他们即将扭转局面。因此，我认为现在还不能完全忽视这家公司。在我们深入探讨之前，我想提一下，如果你还没有尝试过，我的初创公司AIbox.ai已经正式上线。

它已经正式推出，我们的第一个产品是AI Box Playground。我们现在有一个测试版，它基本上允许你访问所有顶级AI模型，所有这些模型都在一个平台上。你可以在同一个聊天中与它们进行对话。我们提供音频、图像和文本，所有这些都在同一个聊天中，每月20美元。因此，你无需订阅20个不同的平台。你只需一次性付费，然后就可以访问所有不同的平台。你可以查看一下，链接在描述中，AIbox.ai。

好了，让我们来看看Stability AI正在发生的事情。他们最新的更新，除了他们发布了一种音频模型之外，真正有趣的是，我应该先说明一下，他们发布了一个关于音频模型的大型公告，但这并不是一个语音模型，而是一个音乐模型。它专门用于制作音乐。有很多不同的竞争对手，比如Suno和Udio也在做这件事，但是大多数这些生成音乐的模型，

人们批评它们侵犯版权。他们说，这些人从互联网上抓取了所有这些数据，抓取了所有人的音乐，训练了一个模型，现在它可以创作音乐了。所以人们对这个数据集中的版权问题感到不满。Stability AI试图避免这种情况。他们做了一些很酷的事情。首先，这是一个非常轻量级的、小型模型，实际上可以在你的手机上运行。这意味着Suno和Udio有可以在手机上运行的应用程序，但这显然是上传到服务器，到云端，并在他们自己的、他们的

他们自己的网站和服务器上运行，你必须能够访问互联网。使用这个应用程序，你理论上可以在你的手机上完成所有操作。你的手机功能强大到足以运行这个模型，并且它可以为你生成内容。但是，我要提醒一下，这不如Suno或Udio好。这就是事物的本质。所以

Stability AI只使用他们拥有版权的内容进行训练，这太棒了，对吧？他们在发布时不想有任何知识产权风险。他们说，它完全是由免版税的音频库、免费音乐档案和免费声音组成的。这些是他们的来源，他们被允许这样做，这

在技术上是很棒的，除了它不够好。我认为这是最重要的一点。它非常小，只有3.41亿个参数，并且专门针对ARM CPU进行了优化。ARM制造芯片。这些都是基于，你知道，这个模型基本上是为了能够在ARM CPU上运行，直接在手机上运行而构建的。这些ARM CPU通常被安装在手机中。但是，它专门用于制作的是快速

的较短音频样本和音效。你可以制作鼓声、乐器和riff，它最多可以制作11秒的音频。你可以在智能手机上进行操作，大约需要8秒钟。所以，这绝对比你平均的UDO或Suno AI作品要快，但是

但是，我并不是说它不好，事实上，我认为对于它能做的事情来说，它相当不错，但它不处理人声。所以，如果你想制作一首完整的歌曲，或者说实话，一首非常棒的歌曲，在我看来，Suno和Udio在制作音乐方面会做得更好。我已经尝试过两者，我广泛地尝试过Suno，它做得令人难以置信，创作出令人惊叹的音乐。人们

人们批评它是在受版权保护的数据上进行训练的。我不太担心这个问题。这并不是我的问题。我相信人们会因此而生气或批评我，但这只是我的意见，就像

那是他们需要处理的版权问题，作为用户、消费者和想要创作东西的人，我将使用最好的模型。这就是我从Suno或Udio中得到的。不过，我想给你一个示例，因为我对他们能够证明的东西印象非常深刻。它是完全免版税的，没有任何问题。所以他们有一些它能够实际做到的示例。你实际上可以上网查看SoundCloud，他们有很多不同的示例。

他们所有的样本都比较短，但它们确实向你展示了它的功能。他们可以制作一些鼓声和音乐。除了我已经提到的所有限制之外，它还有一些其他的限制。首先，它只能处理用英语编写的英语提示。如果你说其他语言，你必须将你的提示翻译成英语，使用谷歌翻译或类似的东西。

它无法生成逼真的声乐或高质量的歌曲。它的质量比较低。它也没有很多不同的音乐风格。它实际上只是基于一堆他们称之为西方偏见训练数据的构建的。所以这些免费音乐库并不十分广泛，主要是一些西方音乐。

它还有一些使用限制。这并不是世界末日。你总得赚钱。所以，对于研究人员、业余爱好者和年收入低于100万美元的企业来说，它是免费的。但如果你年收入超过100万美元，你必须支付Stability AI的企业许可证费用。这并不是世界末日。我认为这是一个相当标准的许可协议。虽然，是的，感觉他们会做一些开源的东西。所以，我想有些人……

对此感到不满。现在，Stability Diffusion是一家过去遇到很多问题的公司。他们去年筹集了一些新资金。他们的许多投资者，包括谷歌的埃里克·施密特，Napster的创始人肖恩·帕克，他众所周知地投资了Meta，他们正试图扭转局面。Emad Mostaque是他们的

联合创始人，也是前首席执行官。他显然严重误管理了他们的财务，几乎完全摧毁了公司。大量员工辞职。他们与Canva的合作也告吹。投资者对此非常担忧。所以在过去的几个月里，他们实际上获得了一位新的首席执行官，并将詹姆斯·卡梅隆任命为董事会成员，这很有趣，因为通常情况下，这家公司以图像公司而闻名。

有了詹姆斯·卡梅隆，你可以想象他们将走向何方，它将成为一家视频公司。所有这些AI生成的图像都非常适合创建AI生成的视频。他们还发布了一系列新的图像生成模型。因此，Stability AI似乎正在走上正轨，准备做一些很酷的事情。我认为，如果我们关注视频，制作这些音效和一些较小的音乐片段是有意义的。如果他们制作音乐曲目，他们希望这些音乐在背景中，

或者说，视频，在背景中加入AI生成的音乐会非常酷。所以这与他们的战略方向非常吻合。我非常好奇他们会走向何方。这是一家非常有影响力的公司，它筹集了大量资金，做了很多有趣的事情，但同样，它也面临着许多挑战。我会随时向你更新Stability AI的最新情况。请在你收听播客的任何地方留下评分和评论。再次，如果你还没有尝试过AI Box，描述中有一个链接。我很乐意让你尝试一下。你可以放弃大量的订阅。

每月20美元，你就可以访问所有顶级AI模型。你可以并排比较不同模型的结果。你可以在同一个聊天中与所有模型进行对话。你无需切换，并且可以继续与不同的模型对话。这很有趣。所以，请查看AIbox.ai，我们下次再见。

Inside the Launch of AI-Powered Music Tool 07:52 Share

LLM

Deep Dive

Shownotes Transcript

Inside the Launch of AI-Powered Music Tool