Meta 宣布了一款新的生成式 AI 工具「AudioCraft」,只要输入文字描述,AudioCraft 就可根据文字内容生成一段全新音乐或音效给你。借助该工具,内容创作者只要输入简单文字描述就能产生复杂的创作旋律,甚至模拟整个管弦乐队。
以文字与静态图片为中心的生成式 AI 模型已受到广泛关注且相对容易使用,但生成式音乐工具的发展却滞後了,之前利用 AI 生成连贯音乐的方法通常是 MIDI,但这些方法无法完全掌握完整音乐的细微差别与风格元素。
由於生成式音乐非常复杂(比如需针对不同尺度的复杂讯号与模式进行建模)且开放度不够,人们也无法轻易使用它。
现在,Meta 希望他们新推出的 AudioCraft 工作能在 MIT 许可下,提供简单音乐让社群更加丰富。
AudioCraft 由 3 个核心训练模型组成:AudioGen,用於生成各种音乐效果与音景的工具;MusicGen,可以根据描述创造音乐作品和旋律;EnCodec,一种基於神经网路的音乐压缩编解码器(codec)。
Meta 表示,EnCodec 经过改善调整後能生成更高品质的音乐,此外,AudioGen 还可以创造音效,如狗叫、汽车喇叭鸣声、木地板上的脚步声等。MusicGen 则可以根据「具琅琅上口的旋律、打击乐、欢快节奏的流行舞曲、非常适合海滩」等不同文字描述,从头开始创作各种类型的歌曲。
Meta 也在网站提供多个样本供参考,听完可以发现生成式音乐确实符合描述,但品质还不够高,不足以取代专业制作的商业音乐或音效。
- Meta releases open source AI audio tools, AudioCraft
- Meta’s AI music generator could be the new synthesizer — or just muzak
- Introducing AudioCraft: A Generative AI Tool For Audio and Music
- Open sourcing AudioCraft: Generative AI for audio made simple and available to all
(首图来源:Meta AI)