
详细描述
AI音乐创作 Stable Audio 系统概述 AI音乐创作 Stable Audio 是一款由 Stability AI 公司开发的音频生成工具,它利用人工智能技术,允许用户轻松创作音乐。
用户只需描述他们想要的音乐风格或特点,系统即可生成符合描述的音乐。
Stable Audio 的基础模型是使用 AudioSparx 的音乐和元数据进行训练的,AudioSparx 是一家音乐库,两家公司之间的合作将为各方带来经济和创意价值。
发展历程 Stable Audio 的第一版在 2023 年 9 月发布时,仅为一些付费用户提供最多 90 秒的音频,这意味着用户只能制作短音频片段来实验。
而 Stable Audio 2.0 提供了完整的三分钟音频片段,这个长度的歌曲大多数适合电台播放,而所有上传的音频必须是无版权的。
技术路线 Stable Audio 的模型结构如下: 1. 主要组件:变分自动编码器(Variational Autoencoder, VAE):VAE 允许模型通过接受输入音频数据并以压缩形式输出,其中包含足够的信息进行转换,从而更高效地学习和操作。
文本编码器(TextEncoder):该编码器名为 CLAP,从零开始在研究人员策划的数据集上进行训练。
这确保文本特征包含足够的信息来建立单词和声音之间的连接。
CLAP 编码器的倒数第二层的文本特征通过 U-Net 的注意力层进行传递。
扩散模型结构(Diffusion Model Architecture of U-Net):该模型是基于 Moûsai 模型的 U-Net 架构,拥有 907 百万参数。
它使用残差层、自注意力层和交叉注意力层的组合,基于文本和时间嵌入对输入数据进行去噪。
2. 文本提示的集成:文本提示使用名为 CLAP 的冻结文本编码器进行集成,该编码器从零开始在研究人员策划的数据集上进行训练。
这确保文本特征包含足够的信息来建立单词和声音之间的联系。
3. 时间嵌入的创建:为了创建时间嵌入的音频片段,计算了片段的开始秒数(称为“seconds_start”)和原始音频文件中的总秒数(称为“seconds_total”)。
定价 Stable Audio 提供了基本的免费版本,用户可以用它生成和下载长达 20 秒的音轨。
付费用户每月支付 11.99 美元,可以生成高达 90 秒的商业音乐,而免费用户每月可以生成 20 个非商业音乐,每个音乐长度为 20 秒。
如果用户希望在拥有超过 100,000 月活跃用户的应用程序、软件或网站中使用 Stable Audio 生成的音乐,他们需要签订企业计划。
优点 Stable Audio 的主要优点在于其能够以多种流派生成音乐作品,并提供用户友好的基于浏览器的界面,面向需要快速背景音乐的创意专业人士。
此外,它还能在较长时间内生成专业音频,且生成的音乐上连贯的作品,并以 44.1kHz 的专业音频质量。
生成的样本音频听起来非常真实,几乎不会让人怀疑背后没有人类作曲家。