Stable Audio logo

Stable Audio

Stability AI最新推出的音乐生成工具

AI音乐创作
Stable Audio

详细描述

AI音乐创作 Stable Audio 系统概述 AI音乐创作 Stable Audio 是一款由 Stability AI 公司开发的音频生成工具,它利用人工智能技术,允许用户轻松创作音乐。
用户只需描述他们想要的音乐风格或特点,系统即可生成符合描述的音乐。
Stable Audio 的基础模型是使用 AudioSparx 的音乐和元数据进行训练的,AudioSparx 是一家音乐库,两家公司之间的合作将为各方带来经济和创意价值。
发展历程 Stable Audio 的第一版在 2023 年 9 月发布时,仅为一些付费用户提供最多 90 秒的音频,这意味着用户只能制作短音频片段来实验。
而 Stable Audio 2.0 提供了完整的三分钟音频片段,这个长度的歌曲大多数适合电台播放,而所有上传的音频必须是无版权的。
技术路线 Stable Audio 的模型结构如下: 1. 主要组件:变分自动编码器(Variational Autoencoder, VAE):VAE 允许模型通过接受输入音频数据并以压缩形式输出,其中包含足够的信息进行转换,从而更高效地学习和操作。
文本编码器(TextEncoder):该编码器名为 CLAP,从零开始在研究人员策划的数据集上进行训练。
这确保文本特征包含足够的信息来建立单词和声音之间的连接。
CLAP 编码器的倒数第二层的文本特征通过 U-Net 的注意力层进行传递。
扩散模型结构(Diffusion Model Architecture of U-Net):该模型是基于 Moûsai 模型的 U-Net 架构,拥有 907 百万参数。
它使用残差层、自注意力层和交叉注意力层的组合,基于文本和时间嵌入对输入数据进行去噪。
2. 文本提示的集成:文本提示使用名为 CLAP 的冻结文本编码器进行集成,该编码器从零开始在研究人员策划的数据集上进行训练。
这确保文本特征包含足够的信息来建立单词和声音之间的联系。
3. 时间嵌入的创建:为了创建时间嵌入的音频片段,计算了片段的开始秒数(称为“seconds_start”)和原始音频文件中的总秒数(称为“seconds_total”)。
定价 Stable Audio 提供了基本的免费版本,用户可以用它生成和下载长达 20 秒的音轨。
付费用户每月支付 11.99 美元,可以生成高达 90 秒的商业音乐,而免费用户每月可以生成 20 个非商业音乐,每个音乐长度为 20 秒。
如果用户希望在拥有超过 100,000 月活跃用户的应用程序、软件或网站中使用 Stable Audio 生成的音乐,他们需要签订企业计划。
优点 Stable Audio 的主要优点在于其能够以多种流派生成音乐作品,并提供用户友好的基于浏览器的界面,面向需要快速背景音乐的创意专业人士。
此外,它还能在较长时间内生成专业音频,且生成的音乐上连贯的作品,并以 44.1kHz 的专业音频质量。
生成的样本音频听起来非常真实,几乎不会让人怀疑背后没有人类作曲家。