Whisper-AT:一个统一语音识别和音频标签的模型

公众号/视频号/小红书/微博 :人工智能技术派
人工智能技术派(AITECH)成员:hws

  • ⎣语音大模型⎤
  • Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong General Audio Event Taggers

背景介绍

        Whisper模型使用了从互联网收集的680,000小时的标注语音数据,这些数据来自多样化的环境和录音设置,进而使得Whispe比现有ASR模型具有更好的鲁棒性。通过下图可以看出whisper的编码大多数背景声音信息,也就是说whisper或许可以用作音频分类,基于这一发现,论文探索了“一个统一语音识别和音频标签的模型”的方案。

方案阐述

        上图是作者提出的“统一语音识别和音频标记”的模型架构,冻结Whisper的主干网络,也就是原来的whisper模型可以直接使用,识别效果不受任何影响。变动的地方是引入一个轻量级的音频标签模型(at-model),这里at-model架构的选择作者实验了4中方案,分别是:

  • Last-MLP:顾名思义只将whisper模型最后一层的输出作为特征输给at-model
  • WA-MLP:WA指weighted average,这个方案取whisper所有层的输出,将平均值发送给at-model
  • WA-Tr:这个方案将WA-MLP的线性层用一个单头的transformer代替
  • TL-Tr:全称“time and layer-wise Transformer ”,就是上图框架对应方案,每一层的输出单独进行temporal Transformer,各层的Transformer权重是共享的。

        作者为什么将whisper每一层的输出作为特征输入给at-model喃?关于这一点论文有实验结论:不同类别的声音采用whisper不同层的输出作为特征可以取得更好的分类效果(如下图)。

        因为额外增加了1个at-model,所以计算力相比whisper肯定是要增加的,为最小化这种影响,at-model做了如下优化设计:1)在时间维度引入池化层将序列长度从500降至25;2)增加一个线性变换层,将维度从1280降至512。

归纳总结

        综合看论文给出的实验结论(参下表),效果还是不错的。在精度相当的情况下,at-model取tl-tr时,at-model速度是AST的42倍。注意这里特指at-model部分,也就是说这里的42倍指的是纯音频标签部分的算力对比。

  • 如果你是“语音识别+音频标签”任务,在识别算力没有增加的情况下,音频标签算力大大减少
  • 如果你是单纯的“音频标签”任务,使用Whisper-Large就不太合适了,算力应该会超过AST,这个时候可以采用Whisper-Small外加一个更大的at-model(如表的最后一行),这个时候收益没那么大了,只有2.5倍,效果也差一些

同时,论文中给出了实现代码,为方便调试可以先下个tiny模型,执行whisper_transcribe_test_simple.py可以快速看到结果。

参考文献

  • Whisper-AT: https://www.isca-archive.org/interspeech_2023/gong23d_interspeech.pdf
  • 实现代码:GitHub - YuanGongND/whisper-at: Code and Pretrained Models for Interspeech 2023 Paper "Whisper-AT: Noise-Robust Automatic Speech Recognizers are Also Strong Audio Event Taggers"

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/475069.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

SpringCloudAlibaba系列之Seata实战

目录 环境准备 1.下载seata安装包 2.修改配置文件 3.准备seata所需配置文件 4.初始化seata所需数据库 5.运行seata 服务准备 分布式事务测试 环境准备 1.下载seata安装包 Seata-Server下载 | Apache Seata 本地环境我们选择稳定版的二进制下载。 下载之后解压到指定目录…

B004-springcloud alibaba 服务容错 Sentinel

目录 高并发带来的问题服务雪崩效应常见容错方案常见的容错思路隔离超时限流熔断降级 常见的容错组件 Sentinel入门什么是Sentinel微服务项目集成Sentinel核心库安装Sentinel控制台实现一个接口的限流 Sentinel的概念和功能基本概念重要功能 Sentinel规则流控规则三种流控模式三…

使用Pygame做一个乒乓球游戏

项目介绍 使用Pygame做一个乒乓球游戏。左侧为电脑,右侧为玩家。 视频地址-YT 视频搬运-B站 视频教程约90分钟。 代码地址 环境:需要pygame库,可用pip安装:pip install pygame 1. 基础版本 首先进行一些初始化,初始…

Redis相关操作大全一篇全搞定

Redis是单线程吗? Redis 的单线程主要是指 Redis 的网络 10 和键值对读写是由一个线程来完成的,这也是 Redis 对外提供键值存储服务的主要流程。但Redis 的其他功能,比如持久化、异步删除、集群数据同步等,其实是由额外的线程执行的。 Redi…

怎么在Linux系统下Docker部署Excalidraw白板工具并实现无公网IP远程访问?

文章目录 1. 安装Docker2. 使用Docker拉取Excalidraw镜像3. 创建并启动Excalidraw容器4. 本地连接测试5. 公网远程访问本地Excalidraw5.1 内网穿透工具安装5.2 创建远程连接公网地址5.3 使用固定公网地址远程访问 本文主要介绍如何在Ubuntu系统使用Docker部署开源白板工具Excal…

如何在CentOS搭建docker compose ui可视化工具并无公网IP远程管理容器

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

CSS隐藏video标签中各种控件

1.edio标签加上controls会出现视频控件&#xff0c;如播放按钮、进度条、全屏、观看的当前时间、剩余时间、音量按钮、音量的控制条等等 <video type"video/mp4" src"" autoplay"" style"width: 400px; height: 300px;" id"e…

刚进公司第一天-电脑环境搭建

写在前面 之前在公司做过一次开发小工具的分享&#xff0c;这两天有个同事找我学习一些小工具开发的知识&#xff0c;但是我发现他的基础是真的差&#xff0c;想学开发知识却连自己本地电脑环境都没弄好&#xff0c;确实&#xff0c;有些人工作了很久&#xff0c;由于自己工作中…

【笔记】网络安全相关法规学习(网络安全法、数据安全法、个人信息保护法)

文章目录 1. 作业及Presentation2. 国家主权基本要素、基本权利、基本原则3. 网络空间主权基本要素、基本权利、基本原则4. 网络安全法、数据安全法、个人信息保护法中的用语定义4.1 网安法用语定义4.2 数据安全法用语4.3 个人信息法用语4.4 法、条例等的区别 5. 网络安全法各条…

【Greenhills】GHS-MULTI IDE-Ubuntu纯命令系统部署license文件

【更多软件使用问题请点击亿道电子官方网站查询】 1、 文档目标 记录在Ubuntu纯命令系统中部署license文件的步骤。 2、 问题场景 客户服务器为Linux纯命令行的环境&#xff0c;客户也无其他服务器可以部署&#xff0c;需在纯命令行上尝试安装。 3、软硬件环境 1&#xff09…

三种方式,浅谈 Cocos Creator 的动画添加

前言 虽然 Cocos 的官方文档对动画系统做了较详细的介绍&#xff0c;但是对于刚接触的同学&#xff08;比如我&#xff09;来说还是不太友好。尽管如此&#xff0c;我就按文档加社区帖子一起实践了一下。为了方便忘记后能快速捡起&#xff0c;所以就用我的方式结合使用场景&am…

大屏页面 电子数字 制作

字体包下载地址 链接: https://pan.baidu.com/s/1pjslpT5QQi7-oALDM-uX8g 提取码: zxcv 效果展示 使用前使用后 使用方式 1.解压后将文件夹放入public 2.在公用样式中加入 font-face {font-family: mFont;src: url(../../public/DS-Digital/DS-DIGI-1.ttf); } 3. 在项目…

【ONE·基础算法 || 位运算】

总言 主要内容&#xff1a;编程题举例&#xff0c;理解位运算的思想。 文章目录 总言1、常见位运算总结1.1、基础位运算1.2、位图思想1.2.1、给一个数n&#xff0c;确定它的二进制表示中的第x位是0还是11.2.2、将一个数n的二进制表示的第x位修改成 11.2.3、将一个数n的二进制表…

管理公司员工上网行为的软件都有哪些?

随着互联网的飞速发展&#xff0c;企业面临的网络安全威胁也日益加剧。为了保护企业数据安全、提高工作效率&#xff0c;上网行为管理系统及其相关管理软件应运而生。 未来&#xff0c;随着技术的不断进步和网络安全威胁的不断演变&#xff0c;上网行为管理系统及其管理软件将不…

【Unity】Plastic云同步总是password error

【背景】 Plastic是Unity的项目版本控制功能&#xff0c;可以方便在多个地点同步项目进度。原本用得挺爽的&#xff0c;结果今天遇到糟心事&#xff0c;明明Hub也正常登着&#xff0c;可Plastic的一个update的dll就是不停反复运行并报Password invalid。 【问题分析】 听说I…

CClinkie转Devicenet网关在现场的案例

CClinkie转Devicenet网关在现场的案例 随着工业自动化的不断发展&#xff0c;不同的通讯协议在工厂现场设备之间传输数据显得尤为重要。然而&#xff0c;不同的设备可能支持不同的通讯协议&#xff0c;这为设备之间的互操作性带来了挑战。在这种情况下&#xff0c;网关设备应运…

linux终端下vi文本编辑器的基础使用方法

一、linux终端下vi文本编辑器的基础使用方法&#xff1a; 下面将提供一些在Linux终端中使用vi或vim&#xff08;vi的增强版&#xff09;的基础操作方法&#xff1a; 1.打开文件&#xff1a; vi filename.txt 如果文件存在&#xff0c;则打开该文件&#xff1b;如果不存在&a…

力扣爆刷第101天之hot100五连刷91-95

力扣爆刷第101天之hot100五连刷91-95 文章目录 力扣爆刷第101天之hot100五连刷91-95一、62. 不同路径二、64. 最小路径和三、5. 最长回文子串四、1143. 最长公共子序列五、72. 编辑距离 一、62. 不同路径 题目链接&#xff1a;https://leetcode.cn/problems/unique-paths/desc…

机器人路径规划:基于冠豪猪优化算法(Crested Porcupine Optimizer,CPO)的机器人路径规划(提供MATLAB代码)

一、机器人路径规划介绍 移动机器人&#xff08;Mobile robot&#xff0c;MR&#xff09;的路径规划是 移动机器人研究的重要分支之&#xff0c;是对其进行控制的基础。根据环境信息的已知程度不同&#xff0c;路径规划分为基于环境信息已知的全局路径规划和基于环境信息未知或…

Python代码规范化

什么是代码规范化&#xff1f; 代码的规范化书写是指按照一定的规范和标准编写代码&#xff0c;使得代码结构清晰、易于阅读和理解。 代码规范化的意义 Python代码规范化的意义在于提高代码可读性、可维护性和可重用性&#xff0c;从而使代码更易于理解、调试和协作&#xff0c…