深入浅出AI落地应用分析:AI音乐生成之「Suno.ai」

接下来会每周集中体验一些通用或者垂直的AI落地应用,主要以一些全球或者国外国内排行较前的产品为研究对象,「AI 产品榜: aicpb.com」以专题的方式在博客进行分享。
在这里插入图片描述
本节主要介绍和体验AI音乐生成应用产品Suno AI,Suno来自目前最强的文字转音频(TTS)开源模型 Bark。
产品链接:https://app.suno.ai/

一、产品介绍

Suno,印地语中意为「倾听」。
在这里插入图片描述
与多数 AI 音乐应用不同的是,它专注于创作全新旋律和人声,而不是模仿已有的知名艺术家声音或歌曲风格。首席执行官兼联合创始人 Mikey Shulman 表示,尽管以特定艺术家风格创作新歌很酷、很有趣,但长期来看,这种体验不会给消费者带来持久的乐趣。

他们的理念是让更多人收获创作音乐的乐趣,同时也更加重视人声音乐。Mikey Shulman 表示「大多数人不会演奏乐器,也不了解复杂的软件,到目前为止,这一直是创作优美音乐的障碍。声乐也是其中一个非常重要的组成部分,也是「Suno」的与众不同之处。」

二、功能简介

  1. 创建自己的音乐
    Suno 的使用方式非常简单,直接用自然语言描述想要生成的音乐,可以是想要的主题、音乐风格或大概的情绪氛围(比如:「一个关于祭奠过去的自己的歌曲,风格偏灵魂和民谣」)。然后,Suno 会生成两首旋律和歌词各不相同的曲子。讲真蛮好听😁
    在这里插入图片描述
    我制作的「我的旅程」:https://app.suno.ai/song/ce2c8d96-0d2a-4c04-b88b-2b6ba2153a93

  2. 编辑已经创建的音乐
    也可以在 Suno 生成的作品基础上进行进一步地编辑,比如修改歌词和音乐风格,或者生成一首完整的曲目。目前,用户还可以自己编写并上传歌词,选择想要的风格(如「情感乡村民谣」)来生成相应歌曲。
    在这里插入图片描述

  3. 浏览别人的作品
    在这里插入图片描述

排行第一的作品:https://app.suno.ai/song/5357415b-a202-4798-af1b-3bea6e8939bd

三、技术模型

Suno开发了两个深度学习模型, Bark和Chirp。Bark 表示狗叫的声音,Chirp是鸟儿嘁嘁喳喳的声音。主要区别在于它们的用途和功能。这些模型利用了人声、旋律、节奏作为训练数据。

Suno Bark是一个基于Transformer的文本到音频的模型。它可以生成高度逼真的多语言语音以及其他音频。此外,该模型还可以产生非语言交流,如笑、叹气和哭泣。Bark是一个开源模型,Github地址为https://github.com/suno-ai/bark。

Chirp是Suno AI的最新音乐模型。它使用先进的AI技术生成真实和高质量的音频内容,如语音、音乐及音效。

总的来说,Bark主要用于生成语音和其他音频,而Chirp则专注于音乐生成。

四、盈利模式

用户在官网登录后即成为免费版本用户,每天可以使用 5 次提示,可生成 10 首歌曲。Suno 的盈利模式为会员订阅,每月支付 8 美元可生成 500 首歌曲,每月支付 24 美元的用户可生成 2000 首歌曲,同时还提供年度订阅折扣。
在这里插入图片描述

Suno目前提供免费计划及多种付费订阅计划。

  1. 免费计划:
  • 所有用户在加入Suno的Discord时都将自动订阅免费计划。
  • 免费计划现在每天包括50个积分(5次Chirps)。
  1. 专业计划Pro:
  • 专业计划每月费用为$8。
  • 专业计划用户享有每月2,500个积分。
    付费订阅用户(Pro或Premier)在订阅期间生成的歌曲归其所有。对于免费用户,Suno保留对生成的歌曲的所有权,但允许其用于非商业目的。

五、产品剖析

跟 AI 生成文本和图像相比,使用 AI 生成可用的音乐要困难得多。音乐的复杂性远超语言,它包含了丰富的情感和细微的表达。AI 需要学会如何在保持音乐连贯性的同时,捕捉和复制这些微妙的情感变化。系统需要处理更多元素,从语音到个别音符、排列和流程。

AI 生成音乐的难点包括:

  • 复杂性:音乐具有多层次的结构和丰富的情感表达,这要求模型能习得复杂的音乐理论,并能够理解并模拟人类情感。

  • 数据量和质量:高质量的音乐数据集对于训练有效的 AI 音乐生成模型至关重要。然而,获取大量、多样化且高质量的音乐数据集来训练和解读音乐风格及情绪描述仍然非常困难。

  • 长期连贯性:音乐中的某些模式可能跨越很长的时间跨度,这对于模型来说是一个挑战,因为它们需要记住并利用这些信息来生成连贯的音乐。

  • 风格和情感的表达:捕捉和复制特定风格或情感的音乐是非常复杂的,这需要模型能够理解和模拟音乐的情感维度。

  • 评估和反馈:评估生成的音乐质量是一个主观过程,缺乏客观的度量标准。此外,模型可能需要反馈来改进,但在音乐领域,这种反馈机制不如图像或文本生成领域成熟。

  • 版权和伦理问题:AI 生成的音乐可能涉及到版权问题,尤其是在模仿特定艺术家或作品风格时。此外,还需要考虑 AI 在艺术创作中的角色和伦理责任。

尽管存在这些挑战,AI 音乐生成技术仍在不断发展,研究人员正在探索新的方法来克服这些问题,以创造出更加丰富和多样的音乐作品。

六、相关竞品

在这里插入图片描述

2023年1月微软宣布与Suno的合作,在微软的AI聊天机器人Copilot中以插件的方式集成Suno。

现在,Copilot用户可以通过微软聊天机器人直接访问Suno,例如直接在文本框中输入:“Create a pop song about adventures on Mars”。

除了Suno之外,其他大型科技公司也在测试生成式AI音乐工具,如Meta的开源音频工具AudioCraft,该工具也可以根据文本提示生成歌曲,以及谷歌的YouTube工具,该工具可以根据哼唱的歌曲或文本提示生成原创音乐曲目。

此外,还有许多其他承诺提供类似工具的AI音乐初创公司进入市场,如Soundful、Magenta、Beatbox(可以生成节奏和器乐曲目)、Soundraw、Loudly、Boomy、Beatoven.ai等。

七、关于AI音乐生成

从B端和C端来看,音乐生成类产品的应用场景十分广泛。TTS(文本到语音)技术大幅降低了电影、电视、游戏和广告等领域的音频制作成本。电影和游戏制作公司需要大量的背景音乐和音效,AI可以根据特定场景批量生产相应的音频,而广告公司也可以利用这一技术创建独特的广告音乐,以增强广告效果。

在消费者市场领域,随着音乐创作门槛的显著降低,人们有望通过音乐进行自我表达,使音乐成为互联网交流的一种独立内容形式。

目前,互联网的内容主要由文字、图片和视频构成,对应的热门社交产品分别是以文字为主的推特、微博,以图文为主的Instagram、小红书,以视频为主的抖音(Tiktok)。根据内容创作的不同出发点,可分为记录事实和艺术创作,分别侧重熟人社交和陌生人社交。

Instagram 最初通过提供好看的滤镜来美化照片,聚焦记录现实并让现实更美一点,最初获得摄影师的欢迎与推广。之前在 Gen-Z 群体中广泛流行的 Snapchat 故事将拍照从一种 "艺术 "形式变成了一种低门槛的交流方式,全球月活用户达到 7.5 亿。在图文领域,与 Instagram、Snapchat 对应的产品是图片社交分享网站 Pinterest,不同于熟人社交的网络关系链而更偏兴趣社交场景。

相比于图文和视频,音乐真的适合自我表达吗?人们往往把音乐当成一种属于音乐爱好者的小众表达方式,而忽略了声音作为最古老的交流媒介所承载的社会文化意义。但仔细想想,自石器时代以来,乐器演奏和集体合唱就是社会和组织中创造叙事最核心的部分,比如国歌、校歌、队歌、新闻联播的前奏,和我们在 KTV 里必点的那首属于青春的歌。

音乐在人类之间创造了一种共同的语言和文化,是个体与组织层面最社会化的自我表达形式之一。然而目前还没有出现以音乐作为独立内容载体的产品,主要原因可能来自音乐创作的复杂性和相应情感表达的模糊性。

音乐创作包含歌词和音频两部分,依赖复杂的乐理和器乐知识。同时,音乐作为时间戳上的连贯性内容,创作需要「所见即所得」的及时反馈。当我们开始演奏一种声音时,就会形成一个反馈回路(feedback loop),当节拍或音调不合适我们会立刻感知到,而如果形成正确的反馈回路我们则会顺畅地进入「心流」状态。然而,目前的多数音乐制作工具都不支持这种流动状态,让音乐创作变得非常困难。

生成式 AI 技术能够实现内容创作的连贯性与反馈及时性。

另一方面,音乐真的可以实现不同情感的表达吗?「声无哀乐」是魏晋时期著名的音乐家、文学家嵇康的观点,他认为声音本身没有哀乐之分,是人的情感赋予了声音哀乐。声音本质上作为一种波动现象,本身是中性的。人在听到特定音乐或声音时产生的情绪反应,是大脑处理声音信息的过程中的生理反应。特定的声音频率、节奏和音调可以刺激我们的大脑和神经系统,使我们感到兴奋、轻松、紧张或悲伤。

比如,大脑会在听到快节奏音乐时产生兴奋反应,在听到小调音乐时产生悲伤反应。这种自动化的情绪反应并非完全是我们赋予声音的过程,而是人的生理反应。因此,对不同音乐进行情感表达也依赖大量的标注数据。

SunoAI 目前生成的歌曲已经具备了较高的专业度和可拆解性,用户可以对曲风和情感进行描述和调整。通过音乐实现跨文化的自我表达,或许就在不远的未来。

七、参考资料

  1. 第一款现象级音乐生成产品 Suno:以后的爆款歌曲可能要被 AI 承包了
  2. 从Suno.ai谈内容创作:「协同人类」而非取代人类将是未来AI的核心定位
  3. 看到有一个新朋友只做了一个MV,可以观摩一下。全AI生成动漫风视频《CELANOSS》

《CELANOSS》
-脚本:ChatGPT
-分镜:Midjourney
-视频:Runway/Pika/Pixverse
-音乐:Suno
-剪辑:CapCut

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/342611.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【 CSS 】定位

不要因为小小的失败而放弃大大的梦想,每一次坚持都是通向成功的一步。- 马克吐温 1. 定位 1.1 为何使用定位 我们先来看一个效果,同时思考一下用标准流或浮动能否实现类似的效果? 场景1: 某个元素可以自由的在一个盒子内移动位置&#xff0c…

【MySQL数据库】专栏文章索引

为了方便 快速定位 和 便于文章间的相互引用等 作为一个快速准确的导航工具 MySQL数据库 (一).CentOS 7 安装配置MySQL

基于神经网络的电力系统的负荷预测

一、背景介绍: 电力系统负荷预测是生产部门的重要工作之一,通过准确的负荷预测,可以经济合理地安排机组的启停、减少旋转备用容量、合理安排检修计划、降低发电成本和提高经济效益。负荷预测按预测的时间可以分为长期、中期和短期负荷预测。…

win10系统 pdf 文件无法正常预览

网上也看了不少办法,修改注册表什么的,太麻烦了,尝试了一下下载Adobe Acrobat Reader,安装后就可以成功预览显示啦!对,就是这么简单!Adobe Acrobat Reader下载链接:link

【每日一题】2.LeetCode——删除有序数组中的重复项

📚博客主页:爱敲代码的小杨. ✨专栏:《Java SE语法》 ❤️感谢大家点赞👍🏻收藏⭐评论✍🏻,您的三连就是我持续更新的动力❤️ 🙏小杨水平有限,欢迎各位大佬指点&…

性能优化-OpenCL运行时API介绍

「发表于知乎专栏《移动端算法优化》」 本文首先给出 OpenCL 运行时 API 的整体编程流程图,然后针对每一步介绍使用的运行时 API,讲解 API 参数,并给出编程运行实例。总结运行时 API 使用的注意事项。最后展示基于 OpenCL 的图像转置代码。在…

CSS 蜡烛效果

<template><view class="holder"><!-- 身子 --><view class="candle"><!-- 光源 --><view class="blinking-glow"></view><!-- 火星子 --><view class="thread"></view>…

Unity 建造者模式(实例详解)

文章目录 说明实例1&#xff1a;构建游戏角色实例2&#xff1a;构建游戏场景实例3&#xff1a;构建UI界面 说明 在Unity中&#xff0c;建造者模式&#xff08;Builder Pattern&#xff09;是一种创建型设计模式&#xff0c;它通过分离对象构建过程的复杂性&#xff0c;允许您以…

JAVA 学习 面试(二)多线程篇

Java多线程 线程池 线程池原理 创建方式&#xff1a;newFixedThreadPool (固定数目线程的线程池)、newCachedThreadPool(可缓存线程的线程池)、newSingleThreadExecutor(单线程的线程池)、newScheduledThreadPool(定时及周期执行的线程池)、new ThreadPoolExecutor() &#x…

windows 11安装VMware 17 ,VMware安装Ubuntu 20.4

一、下载安装激活VMware 17 下载与激活&#xff1a;Vmware 17 下载地址、最新激活码 2024 _ 注意&#xff1a;安装路径自己选择&#xff0c;路径中尽可能避免中文或空格 二、下载Ubuntu 镜像 下载镜像地址&#xff1a;清华大学开源软件镜像站 点开下载镜像地址&#xff0c;找…

[docker] 关于docker的面试题

docker命名空间 docker与虚拟机的区别 容器虚拟机所有容器共享宿主机的内核每个虚拟机都有独立的操作系统和内核通过namespace实现资源隔离&#xff0c;通过cgroup实现限制资源的最大使用量完全隔离。每个虚拟机都有独立的硬件资源秒级启动速度分钟级启动速度容器相当于宿主机…

如何测试你的 Golang 代码

文章目录 简单概述最易想到的方法一个快速体验案例学会使用 go testing测试的编写规则灵活记忆 API 的使用 实践一个案例简洁紧凑的表组测试详细的日志输出灵活控制运行哪些测试总结参考 不论是开源项目&#xff0c;还是日常程序的开发&#xff0c;测试都是必不可少的一个环节。…

软件测试Fiddler手机抓包iPhone

Fiddler不但可以截获各种浏览器发出的HTTP/HTTPS请求&#xff0c;也可以截获各种移动设备&#xff0c;发出的HTTP/HTTPS请求。最关键的是&#xff0c;Fiddler还可以断点调试&#xff0c;修改Request和Response&#xff0c;而且即便抓包的是IOS设备&#xff0c;这些操作也可以直…

Hive 行列转化 方式总结

行列转换 列转行 使用 lateral view explode(array|map) 或 lateral view inline(array_struct) 可以将列转换为行。 单列转多行&#xff0c;降维&#xff08;单列数组或键值对&#xff09; 示例1&#xff1a;explode(array(…)) select ..., A from T lateral view exp…

C语言——结构体讲解

目录 一、结构体类型的声明 二、结构体变量的定义和初始化 三、结构体的重命名 四、结构体的自引用 五、结构体内存对齐 六、结构体传参 七、结构体实现位段 7.1 什么是位段 7.2 位段的声明和使用 7.3 位段的空间大小计算 7.4 位段的内存分配 7.5 位段的跨平…

wamp集成环境部署

Windows下Apache服务器搭建 第一步&#xff1a;下载Windows下的最新ZIP压缩包 推荐下载网址&#xff1a;http://www.apachelounge.com/download/ 为了让Apache服务器发挥更好的性能&#xff0c;请根据自己的系统选择下载&#xff0c;如果不清楚自己的系统是64位还是32位&am…

x-cmd pkg | frp - 内网穿透工具

简介 frp&#xff08;Fast Reverse Proxy&#xff09;是一个专注于内网穿透的高性能反向代理应用&#xff0c;可以将内网服务以安全、便捷的方式通过具有公网 IP 节点的中转暴露到公网。 它采用 C/S 模式&#xff0c;将服务端部署在具有公网 IP 的机器上&#xff0c;客户端部…

企业品牌推广方式,产品推广方法

如何有效推广平台和产品成为了企业不可忽视的重要问题。推广不仅仅是为了提升知名度&#xff0c;更是为了吸引目标受众、促进销售、建立品牌形象。 一、平台推广&#xff1a;构建线上线下双通道 建立专业网站&#xff1a; 企业的网站是线上推广的重要窗口&#xff0c;要确保网…

操作系统【OS】Ch2【大题】 PV题型分类

生产者-消费者问题&#xff1a;生产资源-消费资源理发师问题&#xff1a;服务-被服务读者-写者问题&#xff1a;同类进程不互斥、异类进程互斥哲学家进餐问题&#xff1a;只有一类进程&#xff0c;每个进程需要同时拥有多种资源才能运行单纯的同步问题&#xff1a;前驱后继图 生…

dubbo:服务暴露

节点角色说明&#xff1a; Provider:暴露服务的服务提供方。 Consumer::调用远程服务的服务消费方。 Registry:服务注册与发现的注册中心。 Monitor:统计服务的调用次调和调用时间的监控中心。 Container:服务运行容器。 调用关系说明&#xff1a; 0.服务容器负责启动&#xff…