深入浅出AI落地应用分析：AI音乐生成之「Suno.ai」

接下来会每周集中体验一些通用或者垂直的AI落地应用，主要以一些全球或者国外国内排行较前的产品为研究对象，「AI 产品榜： aicpb.com」以专题的方式在博客进行分享。
在这里插入图片描述
本节主要介绍和体验AI音乐生成应用产品Suno AI，Suno来自目前最强的文字转音频（TTS）开源模型 Bark。
产品链接：https://app.suno.ai/

一、产品介绍

Suno，印地语中意为「倾听」。
在这里插入图片描述
与多数 AI 音乐应用不同的是，它专注于创作全新旋律和人声，而不是模仿已有的知名艺术家声音或歌曲风格。首席执行官兼联合创始人 Mikey Shulman 表示，尽管以特定艺术家风格创作新歌很酷、很有趣，但长期来看，这种体验不会给消费者带来持久的乐趣。

他们的理念是让更多人收获创作音乐的乐趣，同时也更加重视人声音乐。Mikey Shulman 表示「大多数人不会演奏乐器，也不了解复杂的软件，到目前为止，这一直是创作优美音乐的障碍。声乐也是其中一个非常重要的组成部分，也是「Suno」的与众不同之处。」

二、功能简介

创建自己的音乐
Suno 的使用方式非常简单，直接用自然语言描述想要生成的音乐，可以是想要的主题、音乐风格或大概的情绪氛围（比如：「一个关于祭奠过去的自己的歌曲，风格偏灵魂和民谣」）。然后，Suno 会生成两首旋律和歌词各不相同的曲子。讲真蛮好听😁

我制作的「我的旅程」：https://app.suno.ai/song/ce2c8d96-0d2a-4c04-b88b-2b6ba2153a93
编辑已经创建的音乐
也可以在 Suno 生成的作品基础上进行进一步地编辑，比如修改歌词和音乐风格，或者生成一首完整的曲目。目前，用户还可以自己编写并上传歌词，选择想要的风格（如「情感乡村民谣」）来生成相应歌曲。
浏览别人的作品

排行第一的作品：https://app.suno.ai/song/5357415b-a202-4798-af1b-3bea6e8939bd

三、技术模型

Suno开发了两个深度学习模型， Bark和Chirp。Bark 表示狗叫的声音，Chirp是鸟儿嘁嘁喳喳的声音。主要区别在于它们的用途和功能。这些模型利用了人声、旋律、节奏作为训练数据。

Suno Bark是一个基于Transformer的文本到音频的模型。它可以生成高度逼真的多语言语音以及其他音频。此外，该模型还可以产生非语言交流，如笑、叹气和哭泣。Bark是一个开源模型，Github地址为https://github.com/suno-ai/bark。

Chirp是Suno AI的最新音乐模型。它使用先进的AI技术生成真实和高质量的音频内容，如语音、音乐及音效。

总的来说，Bark主要用于生成语音和其他音频，而Chirp则专注于音乐生成。

四、盈利模式

用户在官网登录后即成为免费版本用户，每天可以使用 5 次提示，可生成 10 首歌曲。Suno 的盈利模式为会员订阅，每月支付 8 美元可生成 500 首歌曲，每月支付 24 美元的用户可生成 2000 首歌曲，同时还提供年度订阅折扣。
在这里插入图片描述

Suno目前提供免费计划及多种付费订阅计划。

免费计划：

所有用户在加入Suno的Discord时都将自动订阅免费计划。
免费计划现在每天包括50个积分（5次Chirps）。

专业计划Pro：

专业计划每月费用为$8。
专业计划用户享有每月2,500个积分。
付费订阅用户（Pro或Premier）在订阅期间生成的歌曲归其所有。对于免费用户，Suno保留对生成的歌曲的所有权，但允许其用于非商业目的。

五、产品剖析

跟 AI 生成文本和图像相比，使用 AI 生成可用的音乐要困难得多。音乐的复杂性远超语言，它包含了丰富的情感和细微的表达。AI 需要学会如何在保持音乐连贯性的同时，捕捉和复制这些微妙的情感变化。系统需要处理更多元素，从语音到个别音符、排列和流程。

AI 生成音乐的难点包括：

复杂性：音乐具有多层次的结构和丰富的情感表达，这要求模型能习得复杂的音乐理论，并能够理解并模拟人类情感。
数据量和质量：高质量的音乐数据集对于训练有效的 AI 音乐生成模型至关重要。然而，获取大量、多样化且高质量的音乐数据集来训练和解读音乐风格及情绪描述仍然非常困难。
长期连贯性：音乐中的某些模式可能跨越很长的时间跨度，这对于模型来说是一个挑战，因为它们需要记住并利用这些信息来生成连贯的音乐。
风格和情感的表达：捕捉和复制特定风格或情感的音乐是非常复杂的，这需要模型能够理解和模拟音乐的情感维度。
评估和反馈：评估生成的音乐质量是一个主观过程，缺乏客观的度量标准。此外，模型可能需要反馈来改进，但在音乐领域，这种反馈机制不如图像或文本生成领域成熟。
版权和伦理问题：AI 生成的音乐可能涉及到版权问题，尤其是在模仿特定艺术家或作品风格时。此外，还需要考虑 AI 在艺术创作中的角色和伦理责任。

尽管存在这些挑战，AI 音乐生成技术仍在不断发展，研究人员正在探索新的方法来克服这些问题，以创造出更加丰富和多样的音乐作品。

六、相关竞品

在这里插入图片描述

2023年1月微软宣布与Suno的合作，在微软的AI聊天机器人Copilot中以插件的方式集成Suno。

现在，Copilot用户可以通过微软聊天机器人直接访问Suno，例如直接在文本框中输入：“Create a pop song about adventures on Mars”。

除了Suno之外，其他大型科技公司也在测试生成式AI音乐工具，如Meta的开源音频工具AudioCraft，该工具也可以根据文本提示生成歌曲，以及谷歌的YouTube工具，该工具可以根据哼唱的歌曲或文本提示生成原创音乐曲目。

此外，还有许多其他承诺提供类似工具的AI音乐初创公司进入市场，如Soundful、Magenta、Beatbox（可以生成节奏和器乐曲目）、Soundraw、Loudly、Boomy、Beatoven.ai等。

七、关于AI音乐生成

从B端和C端来看，音乐生成类产品的应用场景十分广泛。TTS（文本到语音）技术大幅降低了电影、电视、游戏和广告等领域的音频制作成本。电影和游戏制作公司需要大量的背景音乐和音效，AI可以根据特定场景批量生产相应的音频，而广告公司也可以利用这一技术创建独特的广告音乐，以增强广告效果。

在消费者市场领域，随着音乐创作门槛的显著降低，人们有望通过音乐进行自我表达，使音乐成为互联网交流的一种独立内容形式。

目前，互联网的内容主要由文字、图片和视频构成，对应的热门社交产品分别是以文字为主的推特、微博，以图文为主的Instagram、小红书，以视频为主的抖音（Tiktok）。根据内容创作的不同出发点，可分为记录事实和艺术创作，分别侧重熟人社交和陌生人社交。

Instagram 最初通过提供好看的滤镜来美化照片，聚焦记录现实并让现实更美一点，最初获得摄影师的欢迎与推广。之前在 Gen-Z 群体中广泛流行的 Snapchat 故事将拍照从一种 "艺术 "形式变成了一种低门槛的交流方式，全球月活用户达到 7.5 亿。在图文领域，与 Instagram、Snapchat 对应的产品是图片社交分享网站 Pinterest，不同于熟人社交的网络关系链而更偏兴趣社交场景。

相比于图文和视频，音乐真的适合自我表达吗？人们往往把音乐当成一种属于音乐爱好者的小众表达方式，而忽略了声音作为最古老的交流媒介所承载的社会文化意义。但仔细想想，自石器时代以来，乐器演奏和集体合唱就是社会和组织中创造叙事最核心的部分，比如国歌、校歌、队歌、新闻联播的前奏，和我们在 KTV 里必点的那首属于青春的歌。

音乐在人类之间创造了一种共同的语言和文化，是个体与组织层面最社会化的自我表达形式之一。然而目前还没有出现以音乐作为独立内容载体的产品，主要原因可能来自音乐创作的复杂性和相应情感表达的模糊性。

音乐创作包含歌词和音频两部分，依赖复杂的乐理和器乐知识。同时，音乐作为时间戳上的连贯性内容，创作需要「所见即所得」的及时反馈。当我们开始演奏一种声音时，就会形成一个反馈回路（feedback loop），当节拍或音调不合适我们会立刻感知到，而如果形成正确的反馈回路我们则会顺畅地进入「心流」状态。然而，目前的多数音乐制作工具都不支持这种流动状态，让音乐创作变得非常困难。

生成式 AI 技术能够实现内容创作的连贯性与反馈及时性。

另一方面，音乐真的可以实现不同情感的表达吗？「声无哀乐」是魏晋时期著名的音乐家、文学家嵇康的观点，他认为声音本身没有哀乐之分，是人的情感赋予了声音哀乐。声音本质上作为一种波动现象，本身是中性的。人在听到特定音乐或声音时产生的情绪反应，是大脑处理声音信息的过程中的生理反应。特定的声音频率、节奏和音调可以刺激我们的大脑和神经系统，使我们感到兴奋、轻松、紧张或悲伤。

比如，大脑会在听到快节奏音乐时产生兴奋反应，在听到小调音乐时产生悲伤反应。这种自动化的情绪反应并非完全是我们赋予声音的过程，而是人的生理反应。因此，对不同音乐进行情感表达也依赖大量的标注数据。

SunoAI 目前生成的歌曲已经具备了较高的专业度和可拆解性，用户可以对曲风和情感进行描述和调整。通过音乐实现跨文化的自我表达，或许就在不远的未来。