多模态大模型--音频文本

音频信息

声学

音频编解码技术的目标是,通过减少音频文件的大小来节省存储空间或减轻网络传输的负担。理想的情况下,即使音频被压缩,我们听到的声音与原版也应该没有任何区别。
Opus是一个多才多艺的音频编解码器,它适用于各种应用,从视频会议(比如 Google Meet)到在线视频流(比如 YouTube)。Opus支持的压缩比率非常灵活,从每秒6千比特到每秒510千比特都可以。
EVS,是由3GPP标准化组织针对移动电话>)开发的最新编解码器。它也支持不同的压缩比率,从每秒5.9千比特到每秒128千比特。使用Opus和EVS,我们能在中低比特率(每秒12-20千比特)下得到很高的音频质量,但是如果比特率太低(比如每秒小于3千比特),音质就会显著下降。

FBank特征:固定长

30s的音频wav文件 -> Fbank 特征: 形状为(3000,80)

MFCC特征:变长

MFCC特征的维度通常为26维或36维,具体取决于是否计算一阶和二阶差分。
在较常见的情况下,MFCC特征的维度包括12维倒谱系数、12维倒谱系数差分、1维能量和1维能量差分,总共26维。‌
在更详细的分析中,36维的MFCC特征包括前12维是标准MFCC特征,表征语音信息的静态特性;13~24维是一阶MFCC差分谱,反映语音的动态特性;25~36维是二阶MFCC差分谱,也是反映语音的动态特性。‌

Conformer

Conformer: Local Features Coupling Global Representations for Visual Recognition在这里插入图片描述

Soundstrem:

An end-to-end neural audio codec,google, IEEE ACM Trans. Audio Speech Lang,2022
在这里插入图片描述

Encodec:

High Fidelity Neural Audio Compression,meta AI,2022
在这里插入图片描述

Speech tokenizer:

Unified Speech Tokenizer for Speech Large Language Models, fudan, 2024
在这里插入图片描述

语义

Wav2vec:

facebook, 2020, A Framework for Self-Supervised Learning of Speech Representations
输入是音频,输出是音素表示
在这里插入图片描述

Hubert

facebook,2021, Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units
输入是音频,输出是音素表示
在这里插入图片描述

WavLM

Microsoft, 2021, Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing
输入是音频,输出是音素表示
WavLM模型是一种基于HuBERT框架构建的预训练模型,专门用于处理语音任务。该模型的设计重点在于语音内容的建模和发言人身份的保持。
WavLM采用了Denoising Masked Speech Modeling(去噪掩蔽语音建模)的预训练方案。这种方法通过掩盖部分语音数据并尝试预测这些被掩盖的部分来进行训练,从而增强模型对语音内容的理解能力。
此外,WavLM还引入了双编码器结构,这种结构使得模型能够更好地处理语音数据中的复杂信息,并提高模型的鲁棒性。双编码器的使用也是为了优化模型在不同语音任务上的表现,使其能够更加灵活地适应不同的应用场景。
在技术实现上,WavLM还采用了提示感知LoRA权重适配器,这是一种通过两阶段课程学习方法进行优化的技术,可以帮助模型更好地理解和生成语音内容。
在这里插入图片描述

Wav-bert

2021,Cooperative Acoustic and Linguistic Representation Learning for Low-Resource Speech Recognition
输入是音频,经过wav2vec, 输出是音素表示在这里插入图片描述

Whisper

openai,2022,Robust Speech Recognition via Large-Scale Weak Supervision
Google USM: 2023,Scaling Automatic Speech Recognition Beyond 100 Languages
输入是音频mel谱,输出有音频vec, 解码获得文本
在这里插入图片描述

TTS

AudioLM

a language modeling approach to audio generation.[Google]
在这里插入图片描述

Hifi-GAN

HiFi-GAN: Generative Adversarial Networks for Efficient and High Fidelity Speech Synthesis
HiFi-GAN是一个常用的vocoder(声码器),可以将Mel谱(通常由前序模型产生)转换为高质量的wav波形。其包括一个生成器和两个判别器(MPD多周期判别器、MSD多尺度判别器)。

VALL_E

VALL_E:Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers
它利用了从现有神经音频编解码模型中导出的离散编码进行训练的神经编解码语言模型。与以前的方法不同,VALL-E将TTS视为条件语言建模任务,而不是连续信号回归任务。
在预训练阶段,模型在规模显著扩大的英语语音数据集上进行训练,该数据集规模达到60,000小时,比之前类似系统使用的数据量大数百倍。这种大规模的训练使VALL-E能够发展出上下文学习能力。
VALL-E的一个显著特点是,它能够仅使用未见过的说话者的3秒录音作为声学提示,就能合成高质量的个性化语音。实验结果表明,VALL-E在语音自然度和说话者相似性方面优于最先进的零样本TTS系统。
此外,VALL-E还能够在合成过程中保留声学提示中说话者的情感和环境。
在这里插入图片描述

SpeechGPT

SpeechGPT: Empowering Large Language Models with Intrinsic Cross-Modal Conversational Abilities
SpeechGPT: 他们利用隐藏单元 BERT (HuBERT) 作为离散单元提取器,用于将连续语音转换为离散单元,使用 Meta AI LLaMA 模型作为 LLM,使用 HiFi-GAN 作为单元声解码器
在这里插入图片描述
在这里插入图片描述

SeamlessM4T: Meta AI, 涵盖 100 种语言、音频的各种翻译任务
SpeechX: 一种多功能架构,能够在噪声和干净的语音条件下执行各种语音转换任务

Adapter

1 :全连接层:
参考 LLASM:Large Language and Speech Model
2 :卷积网络、MLP:
参考 BLSP:Bootstrapping Language-Speech Pre-training via Behavior Alignment of Continuation Writing
3 Q-former:
参考 SALMONN: Speech Audio Language Music Open Neural Network
4 没有:直接训练Audio encoder,
参考 Qwen-Audio: Advancing Universal Audio Understanding via Unified Large-Scale Audio-Language Models

应用

Audiolm

SoundStream + w2v-BERT + PaLM(PaLM-2)
用于语音和文本的多模态生成模型,能够理解和生成语音

SALMONN

Audio Encoder:BEATs、Whisper
Adapter model:Q-former
Encoder:LLM,Vicuna 13B(LLaMA)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/802974.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Linux系统之快速部署小游戏合集网站(二)

Linux系统之快速部署小游戏合集网站(二) 一、项目介绍1.1 项目简介1.2 项目预览二、本次实践介绍2.1 本地环境规划2.2 本次实践介绍三、检查本地环境3.1 检查系统版本3.2 检查系统内核版本3.3 检查软件源四、安装Apache24.1 安装Apache2软件4.2 启动apache2服务4.3 查看apach…

FPGA-Verilog

这里写目录标题 累加累乘器 累加累乘器 timescale 1ns/10psmodule inout_test(); parameter ratio 2; reg [15:0]num ; reg [31:0]save_add_v; reg [31:0]save_multi_v;initialbeginsave_add_v 100;save_multi_v 100;forever beginsave_add_v save_add_v ratio;save_mul…

基于视觉工具箱和背景差法的行人检测,行走轨迹跟踪,人员行走习惯统计matlab仿真

目录 1.算法运行效果图预览 2.算法运行软件版本 3.部分核心程序 4.算法理论概述 5.算法完整程序工程 1.算法运行效果图预览 (完整程序运行后无水印) 在三维图中,幅度越大,则表示人员更习惯的行走路线。 2.算法运行软件版本 matlab2022a 3.部分核…

[笔记]Fluke3563 振动分析仪

参考文档:Fluke 3563 Analysis Vibration Sensor system | Fluke 1.四大机械故障损伤原因 2.振动特征 福禄克做的示意图很棒: 不平衡对应转动轴的一倍频,不对中是2倍频,然后3~6倍频会有未紧固故障,更高频的位置是齿轮…

新版网页无插件H.265播放器EasyPlayer.js如何测试demo视频?

H5无插件流媒体播放器EasyPlayer属于一款高效、精炼、稳定且免费的流媒体播放器,可支持多种流媒体协议播放,支持H.264与H.265编码格式,性能稳定、播放流畅;支持WebSocket-FLV、HTTP-FLV,HLS(m3u8&#xff0…

解决 Vscode不支持c++11的语法

问题: 解决方案: 1、按 CtrlShiftP 调出命令面板,输入 C/C: Edit Configurations (UI) 并选择它。这将打开 C/C 配置界面 2、打开 c_cpp_properties.json 文件 3、编辑 c_cpp_properties.json 4、保存 c_cpp_properties.json 文件。 关闭并…

ollama + fastgpt 搭建免费本地知识库

目录 1、ollama ollama的一些操作命令: 使用的方式: 2、fastgpt 快速部署: 修改配置: config.json: docker-compose.yml: 运行fastgpt: 访问OneApi: 添加令牌和渠道: 登陆fastgpt,创建知识库和应用 3、总结: 附录: 1. 11434是ollama的端口: 2. m3e 测…

设计模式-概述*

1.代码的质量的评判 可维护性:不破坏原有代码设计以及不引入新的bug的前提下,能够快速修改或新增代码;可读性:人类能理解的代码(编程规范-命名、函数是否冗长、类是否过大等);可扩展性&#xff…

【Java】:浅克隆和深克隆

克隆 克隆和赋值 克隆的结果是有多个相同的实体,各个对象指向不同的实体而多个不同对象指向一个相同的实体不是克隆,而是赋值 克隆的过程 首先实例化一个 student1 对象 在堆里开辟了一块内存用来存储 age 10 这个数据 调用 clone 方法 在堆中又开辟了一…

数字化转型“破局”:低代码开发平台如何缩短开发交付周期,提升效率

日新月异的数字时代,各行业正经历着前所未有的变革与转型。随着大数据、云计算、人工智能等技术的不断成熟与融合,数字化转型的步伐愈发坚定而迅速,成为企业转型升级、实现可持续发展的必由之路。然而,传统的软件开发模式受限于高…

Hadoop3:HDFS-存储优化之纠删码

一、集群环境 集群一共5个节点,102/103/104/105/106 二、纠删码原理 1、简介 HDFS默认情况下,一个文件有3个副本,这样提高了数据的可靠性,但也带来了2倍的冗余开销。Hadoop3.x引入了纠删码,采用计算的方式&#x…

【学习】美国虚拟信用卡申请流程

WildCard 官方网址:https://bewildcard.com/i/PEACEFUL (使用邀请码“PEACEFUL”可以享受开卡88 折优惠,注册时提示填写邀请码就可以填写)

Window中 Redis下载安装

Redis7.2.3连接: 我用夸克网盘分享了「redis-windows-7.2.3.zip」,点击链接即可保存。打开「夸克APP」,无需下载在线播放视频,畅享原画5倍速,支持电视投屏。 链接:https://pan.quark.cn/s/4dfb0497707a 在安…

驱动框架——CMSIS第一部分 RTE驱动框架介绍

一、介绍CMISIS 什么是CMSIS(cortex microcontrol software interface standard一种软件标准接口),官网地址:https://arm-software.github.io/CMSIS_6/latest/General/index.html 包含的core、driver、RTOS、dsp、nn等部分&…

蓝桥 双周赛算法赛【小白场】

博客主页:誓则盟约系列专栏:IT竞赛 专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ 蓝桥第14场小白入门赛T1/T2/T3 题目: T1照常还是送分题无需多…

cesium 实现地图环境功能 - 雨,雪,雾特效

需求背景解决效果Codeindex.vuefogEffect.tsrain.glslsnow.glslfog.glsl 需求背景 需要实现天气模拟,日照模拟功能,提高三维实景效果 解决效果 Code 注意:我以下glsl文件时基于 webgl1.0,即cesium,创建球的时候&…

基于单片机STC89C52和GSM实现的远程拨号开锁设计(含文档、源码与proteus仿真,以及系统详细介绍)

本篇文章论述的是基于单片机STC89C52和GSM实现的远程拨号开锁设计的详情介绍,如果对您有帮助的话,还请关注一下哦,如果有资源方面的需要可以联系我。 目录 摘要 仿真图 单片机系统流程图 实物图 代码 系统论文 资源下载 摘要 本文介…

在 Windows 上开发.NET MAUI 应用_2.生成你的第一个应用

先决条件 Visual Studio 2022 17.8 或更高版本,并安装了 .NET Multi-platform App UI 工作负载。 可参考上一篇文章:http://t.csdnimg.cn/n38Yy 创建应用 1.启动 Visual Studio 2022。 在开始窗口中,单击“创建新项目”以创建新项目&#…

java:aocache 与Spring Aop兼容问题

本文适用于所有AspectJ与Spring AOP混用的场景。 Spring AOP 是基于动态代理的实现AOP,基于 JDK代理和CGLib代理实现运行时织入(runtime weaving)。 Spring AOP的切面定义沿用了ASpectJ的注解体系,所以在Spring体系中注解定义切面…

Jenkins安装nodeJs环境

首先插件市场安装nodeJS插件,我这里已经安装了,没安装的话在 Available plugins 中搜索安装 安装完成后需要下载需要的nodejs版本 新增完成就可以在构建的时候选择当前版本号了