ASR(自动语音识别)任务中的LLM(大语言模型)

一、LLM大语言模型的特点

 二、大语言模型在ASR任务中的应用

浅度融合

浅层融合指的是LLM本身并没有和音频信息进行直接计算。其仅对ASR模型输出的文本结果进行重打分或者质量评估

深度融合

LLMASR模型进行深度结合,统一语音和文本的编码空间或者直接利用ASR编码器的隐状态参与计算,利用大语言模型的能力得到更好的解码结果。

三、浅度融合

1、Large-scale Language Model Rescoring on Long-Form Data

利用能力更加强大的LLM为ASR模型的推理结果进行质量评分

2、Prompting Large Language Models For Zero-Shot Domain Adaptation in Speech Recognition

利用能力更加强大的LLM为语言模型的输出进行重打分

 四、深度融合

1、Prompting Large Language Models For Zero-Shot Domain Adaptation in Speech Recognition

使用语音编码器编码提示文本的信息输入到大语言模型中预测下一个token

编码器:使用HuBERT处理语音序列,并使用卷积网络对其进行下采样;

解码器:使用LLaMA作为解码器并融入Gated-XATT-FFN

Cross-attention:使用编码器的输出作为keyvalue,解码器的domain prompt和历史输出作为query计算注意力,注意力使用Gated cross attention

在训练时,保持LLaMA的参数固定,其他模块参数更新。

2、Adapting LLM with Speech for Full Formatted End-to-End Speech Recognition

使用语音编码器编码的信息输入到大语言模型中预测下一个token

Text Encoder:用于在训练阶段提供更多的文本数据使解码器可以更好地被训练,在推理阶段不再被使用;

Speech Encoder:用于编码语音并使用CTC进行解码获得对应的token

Text Decoder:在训练时对Text Encoder计算MLM损失,对Speech Encoder计算CE损失,用来预测下一个token。在推理时对Speech Encoder的输出进行修正。

Speech Encoder:用于编码语音信息;

LM:对Speech Encoder下采样之后的输出进行下一个token预测。

 3、Prompting Large Language Models with Speech Recognition Abilities

使用语音编码器编码的信息输入到大语言模型中预测下一个token

Encoder:基于Conformer的声学编码器,最后使用n个帧进行堆叠投影,得到和LLaMA相同的维度;

Decoder:基于LLaMA 7B的解码器结构;

在训练时,LLaMA使用了基于LoRA的微调方法。

4、On Decoder-Only Architecture For Speech-to-Text and Large Language Model Integration

使用语音编码器编码提示文本的信息输入到大语言模型中预测下一个token

LLMLLaMA 7B

CTC Compressor:通过过滤语音空白匹配标签序列文本的长度;

Audio Encoder:对CTC过滤后的语音信号进行编码;

Text Prompt:手工设计的提示词,为了达到instruct tuning的效果,本文在训练时设计了多种提示词;

为了稳定训练,在训练时第一阶段训练CTC Compressor,对LLM进行冻结;第二阶段使用LoRALLM进行微调。

5、Speech-to-Text Adapter and Speech-to-Entity Retriever Augmented LLMs for Speech Understanding

Speech2Text adapter:由一些自注意力子层组成,主要作用是将CTC过滤后的张量转换为可由LLM模型处理的张量。在训练期间,其他部分保持不动,仅训练此部分从而得到一个speech2text性能较好的适配器。

Speech2Entity retriever:根据过滤后的语音表征从数据库中查找与该段语音相关的topk个实体。

T5 Encoder输入:由三部分组成,分别是提示文本表征,输入语音表征以及检索到的topk实体文本表征。Topk实体会被添加到到提示文本输入前,从而提高T5模型语音识别实体的准确率。

 五、深度学习方法对比

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/86087.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

springboot+docker实现微服务的小例子

【任务】: 创建一个服务A:service_hello 创建一个服务B:service_name service_name负责提供一个api接口返回一个name字符串。 service_hello负责从这个接口获取name字符串,然后进行一个字符串拼接,在后面加一个hello&…

Stable Diffusion 系列教程 | 文生图 - 提示词

目录 1.提示词 基本的规则 2.提示词分类 2.1内容性提示词 2.2 画风艺术派提示词 2.3 画幅视角 2.4画质提示词 3 反向提示词 3.1 内容性反向提示词 3.2 画质性反向提示词 4 实例分析 5 权重 5.1 方法一 5.2 方法二 6.参数 7. 学习and 技巧 7.1 辅助写提示词的网…

ARL资产侦察灯塔 指纹增强

项目:https://github.com/loecho-sec/ARL-Finger-ADD 下载项目后运行 python3 ARl-Finger-ADD.py https://你的vpsIP:5003/ admin password该项目中的finger.json可以自己找到其他的指纹完善,然后运行脚本添加指纹。

ChatGPT应用于高职教育的四大潜在风险

目前,ChatGPT还是一种仍未成熟的技术,当其介入高职教育生态后,高职院校师生在享受ChatGPT带来的便利的同时,也应该明白ChatGPT引发的风险也会随之进入高职教育领域,如存在知识信息、伦理意识与学生主体方面的风险与挑战…

EasyExcel+POI制作带有有效性校验及下拉联动的Excel模板

文章目录 1.背景2.实现功能的Excel特性2.1.特性介绍2.2.下拉框联动2.3.单元格自动匹配Id2.4.错误提示 3.代码实现3.1.基础流程代码3.2.名称管理器配置3.3.有效性配置3.4.函数填充3.5.其他补充 4.总结 1.背景 最近在做一个CRM系统的人员销售目标导入的相关需求,需要…

K8s学习笔记1

一、课程介绍: 1、背景: 1)从基础设备主机化向容器化转换。 2)从人肉式运维工作模式向自动化运维模式转换。 3)从自动化运维体系向全体系智能化运维模式转换。 2、课程目标人群: 1)掌握Linux操作系统基…

C语言:选择+编程(每日一练Day6)

目录 ​编辑选择题: 题一: 题二: 题三: 题四: 题五: 编程题: 题一:至少是其他数字两倍的最大数 思路一: 思路二: 题二:两个数组的交集…

问道管理:数字经济概念走势强劲,竞业达、久其软件等涨停,观想科技等大涨

信创、智慧政务等数字经济概念22日盘中走势微弱,截至发稿,观想科技、慧博云通涨超15%,竞业达、中远海科、久其软件等涨停,云赛智联、延华智能、汇纳科技涨约9%,天玑科技、安硕信息、思特奇、零点稀有涨逾7%。 音讯面上…

Linux后门大全-xinetd后门(二)

环境 靶机:centos7.6 攻击机:Linux 使用docker搭建靶机环境,当然也可以不使用docker,直接跳过创建容器的步骤即可 创建容器 #创建名为backdoorT4的特权容器,并使用/usr/sbin/init,因为容器默认不开启sy…

Django 简易PACS读片系统

1、Django中写一个后端接口,给HTML提供dicom文件接口的方式 1、首先创建django项目 1、下载安装跨域的包 pip3 install django-cors-headers2、使用pycharm创建一个Django项目 3、点击创建在另一个窗口,这个都无所谓,怎么都行,…

基于ECharts+flask的爬虫可视化

项目效果。 本案例基于python的flask框架,通过爬虫程序将数据存储在csv文件中,在项目运行时会通过render_template映射出对应的页面,并且触发一个函数,该函数会读取csv文件的数据将之交给echarts渲染 ,echarts将之渲染…

【Linux】数据链路层:以太网协议

约束不等于压迫,冷静和理性不等于冷淡和麻木。 文章目录 一、以太网帧 和 局域网转发数据包1.局域网转发的原理(基于以太网协议)2.以太网MTU与MAC地址 二、局域网中的数据碰撞1.如何解决局域网中的数据碰撞?(碰撞检测和…

韦东山lcd驱动

RGB 接口的 TFT-LCD 驱动 芯片集成了显存(ddr、SDRM)和控制器 一个像素点的颜色使用 24位表示,这样的话硬件对应数据引脚有24个 LCD硬件模型 RGB 传输数据 HSYNC 行同步 VSYNC 帧同步 DE 使能有效 declock 移动一个像素(频率…

Ribbon:自定义负载均衡

自定义负载均衡算法 package com.kuang.myconfig;import com.netflix.client.config.IClientConfig; import com.netflix.loadbalancer.AbstractLoadBalancerRule; import com.netflix.loadbalancer.ILoadBalancer; import com.netflix.loadbalancer.Server;import java.util.…

分类预测 | MATLAB实现SCNGO-CNN-LSTM-Attention数据分类预测

分类预测 | MATLAB实现SCNGO-CNN-LSTM-Attention数据分类预测 目录 分类预测 | MATLAB实现SCNGO-CNN-LSTM-Attention数据分类预测分类效果基本描述程序设计参考资料 分类效果 基本描述 1.SCNGO-CNN-LSTM-Attention数据分类预测程序,改进算法,融合正余弦和…

怎么管理运营私域流量?

私域流量管理是当今企业运营的重要议题,对于企业发展和品牌建设具有不可忽视的作用。然而,管理私域流量并不是一项轻松的任务,需要我们采取科学有效的措施,才能取得良好的效果。 首先,私域流量管理需要建立清晰的目标。…

C++Qt堆叠窗体的使用案例

本博文源于笔者最近学习的Qt,内容讲解堆叠窗体QStackedWidget案例,效果是选择左侧列表框中不同的选项时,右侧显示所选的不同的窗体。 案例效果 案例书写过程 控件都是动态创建的,因此.h文件需要创建控件,.cpp书写业务…

摄影预约小程序开发全攻略

当今社会,移动互联网的普及使得手机APP和小程序成为了各行各业的必备工具。在摄影行业,如何让客户更加方便地预约摄影服务,提高工作效率,成为了摄影店主们亟需解决的问题。而定制一款适合自己摄影店的小程序,将成为一种…

vscode远程调试PHP代码

1.ssh和xdebug配置 1)vscode连接虚拟机 选择第一个ssh\config Host:随便取名字就可以 HostName:想要连接虚拟机的IP User:想要连接的用户名 刷新就可以看到下面的界面 再点自己想要连接的虚拟机,右边的那个箭头 选择Liunx,输入密码就可以了…

docker中bridge、host、container、none四种网络模式简介

目录 一.bridge模式 1.简介 2.演示 (1)运行两个容器,不指定网络模式情况下默认是bridge模式 (2)在主机中自动生成了两个veth设备 (3)查看两个容器的IP地址 (4)可以…