阿里通义音频生成大模型 FunAudioLLM 开源

6f634429a6f2d3a7a211da63c63c574e.jpeg

简介

近年来,人工智能(AI)技术的进步极大地改变了人类与机器的互动方式,特别是在语音处理领域。阿里巴巴通义实验室最近开源了一个名为FunAudioLLM的语音大模型项目,旨在促进人类与大型语言模型(LLMs)之间的自然语音交互。FunAudioLLM包含两个核心模型:SenseVoice和CosyVoice,分别负责语音理解和语音生成。

SenseVoice:语音理解模型

SenseVoice是一个功能强大的语音理解模型,支持多种语音处理任务,包括自动语音识别(ASR)、语言识别(LID)、语音情绪识别(SER)和音频事件检测(AED)。其主要特点包括:

  • 多语言支持:SenseVoice支持超过50种语言的语音识别。
  • 低延迟:SenseVoice-Small模型具有极低的推理延迟,比Whisper-small快5倍以上,比Whisper-large快15倍以上,适用于实时语音交互应用。
  • 高精度:SenseVoice-Large模型在高精度语音识别方面表现出色,适用于需要高精度识别的应用。
  • 丰富的语音理解功能:包括情绪识别和音频事件检测,为复杂的语音交互应用提供支持。

CosyVoice:语音生成模型

CosyVoice是一个功能强大的语音生成模型,可以生成自然流畅的语音,并支持多种语言、音色、说话风格和说话人身份的控制。其主要特点包括:

  • 多语言语音生成:支持中文、英文、日语、粤语和韩语等多种语言的语音生成。
  • 零样本学习:可以通过少量参考语音进行语音克隆。
  • 跨语言语音克隆:可以将语音克隆到不同的语言中。
  • 情感语音生成:可以生成情感丰富的语音,如快乐、悲伤、愤怒等。
  • 指令遵循:可以通过指令文本控制语音输出的各个方面,如说话人身份、说话风格和副语言特征。

训练数据

  • SenseVoice:使用了约40万小时的多语言语音数据,并通过开源的音频事件检测(AED)和语音情绪识别(SER)模型生成伪标签,构建了一个包含大量丰富语音识别标签的数据集。
  • CosyVoice:使用了多种语言的语音数据集,并通过专门的工具进行语音检测、信噪比(SNR)估计、说话人分割和分离等操作,以提高数据质量。

实验结果

FunAudioLLM在多个语音理解和生成任务上取得了优异的性能:

  • 多语言语音识别:SenseVoice在大多数测试集上优于Whisper模型,特别是在低资源语言上表现更佳。
  • 语音情绪识别:在7个流行的情绪识别数据集上表现出色,无需微调即可获得高准确率。
  • 音频事件检测:能够识别语音中的音频事件,如音乐、掌声和笑声。
  • 语音生成质量:CosyVoice在内容一致性和说话人相似度方面表现出色,生成的语音与原始语音高度一致。

应用场景

FunAudioLLM的SenseVoice和CosyVoice模型可以应用于多个场景,包括:

  • 语音翻译:将输入语音翻译成目标语言,并生成目标语言的语音。
  • 情感语音聊天:识别输入语音的情绪和音频事件,并生成与情绪相符的语音。
  • 交互式播客:根据实时世界知识和内容生成播客脚本,并使用CosyVoice合成语音。
  • 有声读物:分析文本中的情感和角色,并使用CosyVoice合成具有丰富情感的有声读物。

局限性

尽管FunAudioLLM在多个方面表现出色,但仍存在一些局限性:

  • 低资源语言:SenseVoice在低资源语言上的语音识别准确率较低。
  • 流式识别:SenseVoice不支持流式语音识别。
  • 语言支持:CosyVoice支持的语言数量有限。
  • 情感和风格推断:CosyVoice需要明确的指令才能生成特定情绪和风格的语音。
  • 唱歌:CosyVoice在唱歌方面表现不佳。
  • 端到端训练:FunAudioLLM的模型不是与LLMs端到端训练的,这可能会引入误差传播。

总的来说,FunAudioLLM在语音理解和生成方面展现了强大的能力,为语音交互应用提供了新的可能性。通过开源,阿里巴巴希望能够促进社区的参与和进一步发展。

高性价比GPU算力:https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_0712_shemei


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/799537.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

HTML+CSS博客文章列表

源代码在图片后面 点赞❤️收藏⭐️关注&#x1f495; 图示 感谢各位大佬支持 &#x1f618;&#x1f618;&#x1f618; 源代码 <!DOCTYPE html> <html lang"zh-CN"> <head> <meta charset"UTF-8"> <title>博…

解决ESLint和Prettier冲突的问题

在配置了ESLint的项目中使用Prettier进行格式化可能会出现冲突&#xff0c;不如Prettier配置了使用双引号&#xff0c;ESLint配置了单引号&#xff0c;当然可以一个一个改成一样的配置&#xff0c;但是比较麻烦。我发现可以直接使用ESLint的规则进行格式化。在VSCode配置过程如…

springmvc1

以前的servlet程序&#xff1a; springmvc 不同的处理器&#xff1a;不同的方法或者处理类 所有的请求都会经过dispathcherservlet的doservice方法&#xff1a; mvc原理&#xff1a; 前端控制器&#xff1a;jsp或者什么东西

AutoMQ 中的元数据管理

本文所述 AutoMQ 的元数据管理机制均基于 AutoMQ Release 1.1.0 版本 [1]。 01 前言 AutoMQ 作为新一代基于云原生理念重新设计的 Apache Kafka 发行版&#xff0c;其底层存储从传统的本地磁盘替换成了以对象存储为主的共享存储服务。对象存储为 AutoMQ 带来可观成本优势的…

【C++】初识C++(下)

前言 本篇博客继续总结一下C入门的一些小知识 &#x1f493; 个人主页&#xff1a;小张同学zkf ⏩ 文章专栏&#xff1a;C 若有问题 评论区见&#x1f4dd; &#x1f389;欢迎大家点赞&#x1f44d;收藏⭐文章 ​ 目录 1.引用 1.1引用的概念 1.2const引用 1.3指针和引用的…

外包干了1个月,技术明显退步。。。

有一种打工人的羡慕&#xff0c;叫做“大厂”。 真是年少不知大厂香&#xff0c;错把青春插稻秧。 但是&#xff0c;在深圳有一群比大厂员工更庞大的群体&#xff0c;他们顶着大厂的“名”&#xff0c;做着大厂的工作&#xff0c;还可以享受大厂的伙食&#xff0c;却没有大厂…

软件测试面试题全网独家没有之一的资深测试工程师面试题集锦

1.自我介绍&#xff1f; 我是谁、工作几年、你上家公司做什么、负责什么、你的优势、为什么适合这个职位、我想做什么、在这个职位上想得到什么 有自信、不能吞吞吐吐 时间长度2-3分钟 2编写测试用例有哪几种方法&#xff1f; 等价类、边界值、因果图、流程分析、错误分析、…

【Pytorch】数据集的加载和处理(一)

Pytorch torchvision 包提供了很多常用数据集 数据按照用途一般分为三组&#xff1a;训练&#xff08;train&#xff09;、验证&#xff08;validation&#xff09;和测试&#xff08;test&#xff09;。使用训练数据集来训练模型&#xff0c;使用验证数据集跟踪模型在训练期间…

ectype:拓展ctype

拓展C库的ctype模块&#xff0c;将字节块或字符串进行分类或转换。

SQL Server 创建用户并授权

创建用户前需要有一个数据库&#xff0c;创建数据库命令如下&#xff1a; CREATE DATABASE [数据库名称]; CREATE DATABASE database1; 一、创建登录用户 方式1&#xff1a;SQL命令 命令格式&#xff1a;CREATE LOGIN [用户名] WITH PASSWORD 密码; 例如&#xff0c;创建…

全球DeepFake攻防挑战赛DataWhale AI 夏令营——图像赛道

全球DeepFake攻防挑战赛&DataWhale AI 夏令营——图像赛道 赛题背景 随着人工智能技术的迅猛发展&#xff0c;深度伪造技术&#xff08;Deepfake&#xff09;正成为数字世界中的一把双刃剑。这项技术不仅为创意内容的生成提供了新的可能性&#xff0c;同时也对数字安全构…

Mac 息屏不断网

这里息屏指的是屏幕不黑&#xff0c;屏幕黑了好像必断网 我的系统是 14.5 我调整了两个地方&#xff0c;一个是电池——选项——唤醒以供访问 另外一个地方是锁定屏幕——延长关闭显示器的时间&#xff08;让显示器不黑&#xff09;

如何批量删除重复数据?推荐两种方法

在日常的办公中&#xff0c;很多用户都会使用Excel。借助这款软件&#xff0c;用户可以完成对各种数据的处理。但很多时候我们会发现&#xff0c;同一张表格里有很多重复的数据&#xff0c;这或许会为统计带来错误。为此&#xff0c;我们就需要删除重复项才可以帮助我们很好的解…

STM32+三色LED智能调光系统源程序 易安卓APP 原理图

资料下载地址&#xff1a;STM32三色LED智能调光系统源程序 易安卓APP 原理图 三色LED手机智能调光系统概述&#xff1a; 利用开发的智能手机软件&#xff0c;对照明三色LED进行智能调光。包含的功能有&#xff0c;支持多手机同时连接服务端&#xff0c;互动调光。支持关…

前端Vue组件化实践:打造仿京东天猫商品属性选择器组件

在前端开发领域&#xff0c;随着业务需求的日益复杂和技术的不断进步&#xff0c;传统的整体式应用开发模式已逐渐显得捉襟见肘。面对日益庞大的系统&#xff0c;每次微小的功能修改或增加都可能导致整个逻辑结构的重构&#xff0c;形成牵一发而动全身的困境。为了解决这一问题…

昇思25天学习打卡营第22天|ResNet50图像分类

上回说到RESNET50做迁移学习&#xff0c;今天看一下他在图片分类上面的表现。图像分类是最基础的计算机视觉应用&#xff0c;属于有监督学习类别&#xff0c;先喂一堆猫的照片告诉他这是猫&#xff0c;再喂一堆狗的图片告诉他这是狗。 CIFAR-10数据集共有60000张32*32的彩色图…

ARDUINO最新pinMode()管脚设置方法(24年7月)

Arduino管脚配置 ESP32 Arduino管脚配置测试正常。 pinMode&#xff08;&#xff09; [数字 I/O] 描述 将指定的引脚配置为输入或输出。有关引脚功能的详细信息&#xff0c;请参阅数字引脚部分。 可以使用模式INPUT_PULLUP使能内部上拉电阻。此外&#xff0c;INPUT模式明…

涨知识了!AI绘画变现的几个思路!

风口&#xff01;风口&#xff01;风口&#xff01; 终于不用再抱怨 “我们这代人啊&#xff0c;什么也没赶上” 因为我们现在正处于风口之上&#xff01; 在当今数字化的时代 AI 绘画正以惊人的速度崛起 并向各行各业渗透 既然阻止不了时代的变化 那就让它为我们所用 …

STM32MP135裸机编程:烧录程序到EMMC的方法

0 前言 STM32MP135支持多种启动方式&#xff0c;包括SD卡、NAND Flash、EMMC等&#xff0c;基于STM32MP135裸机的SD卡烧录操作方法我们之前已经介绍过&#xff0c;现在介绍的STM32MP135烧录到EMMC的方法又和前面烧录到SD卡的操作有所不同。本文将介绍基于STM32MP135&#xff0…

职称论文发表的注意事项有哪些

职称论文发表的注意事项有哪些 其实职称论文并不难&#xff0c;但是对于很多之前没有接触过的朋友来说&#xff0c;如何选择合适期刊&#xff0c;如何投稿以及版面费多少等一概不知。所以我今天就总结下我个人的经验&#xff0c;分享给大家。 一、弄清单位的要求 评职称论文首先…