Smma-net:一种基于音频线索的目标说话人提取网络,具有谱图匹配和相互关注功能

SMMA-NET: AN AUDIO CLUE-BASED TARGET SPEAKER EXTRACTION NETWORK

WITH SPECTROGRAM MATCHING AND MUTUAL ATTENTION
第二章 目标说话人提取之《Smma-net:一种基于音频线索的目标说话人提取网络,具有谱图匹配和相互关注功能》


文章目录

  • SMMA-NET: AN AUDIO CLUE-BASED TARGET SPEAKER EXTRACTION NETWORK
  • 前言
  • 一、任务
  • 二、动机
  • 三、挑战
  • 四、方法
    • 1.TSE任务
    • 2.谱图匹配
    • 3. 多尺度自适应编码器
    • 4.精细阶段
  • 五、实验评价
    • 1.数据集
    • 2.实验
    • 3.客观评价
    • 4.主观评价
  • 六、结论
  • 七、知识小结


前言

语音新手入门,学习读懂论文。
本文作者机构是信号检测与处理新疆省重点实验室,乌鲁木齐2新疆大学计算机科学与技术学院,乌鲁木齐3海思科技有限公司4清华大学电子工程系


一、任务

我们提出了一种具有谱图匹配和相互关注的目标说话人提取网络(SMMA-Net)。我们提出了一种谱图匹配策略来获得辅助段,该辅助段在长度和特征上与混合段匹配。设计相互注意块,在混合语和辅助语融合过程中有效利用匹配的辅助语段。

二、动机

通过捕捉目标说话人语音特征的说话人编码器,池化操作生成嵌入向量,然后通过加法、乘法等运算将其与混合后的特征映射融合。

三、挑战

一方面,由于嵌入向量不能保持目标说话人的动态变化特征,可能会扭曲目标说话人的音色和辅助语音的内在相干性。另一方面,刚才提到的融合操作,虽然是一种有效而不矫饰的方式,但人类大脑的选择性听觉注意机制并不一致。

四、方法

1.TSE任务


在这里插入图片描述

2.谱图匹配

提出了一种频谱图匹配策略,直接在帧级计算辅助语音频谱图与混合语音的余弦相似度。当混合语音的谱图长度大于辅助语音的谱图长度,即T > T '时,辅助语音将被复制和截断,以保持与混合语音相同的长度。否则,后者将被分割成多个长度为T,跳数为p的段。在辅助语音的开头和结尾填充零后生成。通过计算每段Ai与混合语音Y之间的余弦相似度d:
在这里插入图片描述
其中<·,·>为内积,得到M个相似矩阵。选取相似矩阵中位数最大的段作为匹配的辅助段Am(t, f)。

3. 多尺度自适应编码器

我们设计了一种基于非对称卷积的多尺度自适应编码器,其输入为混合或匹配辅助段的频谱图。输入经过一个核大小为3×3的Conv2D,得到特征映射J。它将被送入三组核大小分别为3、5和7的非对称卷积中,以获得其在不同尺度上的上下文关系。在每个集合中,垂直和水平卷积操作之后是一个投影层(Proj),该投影层由Conv2D、参数整流线性单元(PReLU)和层归一化(LN)组成。对Proj2和Proj3的输出进行求和,并将结果通过线性层和sigmoid线性单元(SiLU)激活操作生成先聚合的特征图,再将其与Proj1的输出进行求和,以同样的方式生成二次聚合的特征图。J与二次聚合的feature map之间以卷积的方式存在残差连接。混合语音和匹配的辅助语音的频谱图分别被送入具有相同结构的单独编码器中,生成混合语音和辅助语音的中间特征映射Em和Ea。

将Em和Ea两个编码器的输出送入互注意块,得到融合特征,作为后续迭代过程的输入。图1所示,初级阶段的横线框内的操作分量将被重复Nb次,由双向长短期记忆(BLSTM)、多重大核注意(MLKA)、移动反向瓶颈卷积(MBConv)和全波段自注意组成,分别得到Zf、Zt、Zc和Zi。(BLSTM和全频段自关注遵循TF-GridNet的设计原则)
在这里插入图片描述
(a)多尺度自适应编码器原理图,(b)互注意块,©多个大核注意,(d)特征重组单元。R为蓝色或红色,表示通过消除频率或时间维度将三维张量(3D)重塑为二维张量,带黑色的R表示将张量重塑回三维张量。MM表示矩阵乘法,⊗表示元素积。LKC(K,d)表示核大小为K,展开为d的大核卷积运算。
相互注意:
助语和混合语中的一个将作为查询,而另一个将同时作为键和值。输入分别沿着频率和时间维度重构为T和F个独立序列。然后将单独的序列分别投影到查询、键和值上,分别记为q、k和v。投影层由一维(1D)卷积(Conv1D)、PReLU和LN组成。然后,利用缩放后的点积关注得到加权特征Mt和Mf。
多重大核注意:
核大小为(K, K)的大核卷积(Large Kernel convolution, LKC)运算可以分解为展开d的[K/d × K/d]深度展开卷积(DW-D-Conv)、(2d−1)× (2d−1)深度卷积(DWConv)和点向卷积(PWConv)[27]。如图2 ©所示,Zp将被输入到三个LKC操作中,其中(K, d)为(6,2)、(12,3)和(20,4),以捕获不同时间分辨率下Zp的长期依赖关系。经过一个串联和全连接(FC)层,可以得到一个有效的融合特征Zo,并将其应用到Zp上。
移动倒瓶颈卷积(MBConv):不同通道之间特征图具有高度相似性的现象。为了减少由高相似性引起的信道间冗余,作者利用MBConv来聚合和重加权信道信息。

4.精细阶段

随着模型的深入,自我注意的重复应用会稀释高频分量,因此精化阶段的每个迭代过程都包含一个额外的特征重组单元,该单元用于放大高频分量。
Feature Recombination Unit (FRU):
首先将输入特征X送入global average pooling (GAP)层,生成直流分量Xd。将Xin减去Xd,得到高频分量Xh,引入两个可学习参数λ和µ,分别对高频分量和直流分量进行重加权。
在这里插入图片描述

五、实验评价

1.数据集

WSJ02mix dataset1模拟了一个双说话人混合数据库。训练子集(20,000个话语覆盖101个说话人,持续时间为30小时),验证子集(5,000个话语覆盖101个说话人,持续时间为10小时)和测试子集(3,000个话语覆盖18个说话人,持续时间为5小时),其中所有样本的采样率为8kHz。辅助发言的平均时长为7.3秒。

2.实验

利用平方根Hann窗口,窗口大小为32 ms,跳长为8 ms。将谱图匹配过程中的跳数P设为126,D设为24。初级和细化阶段的重复次数设置为Nb = 4, Nr = 4。两个阶段的blstm中隐藏单元的数量都设置为192。
在这里插入图片描述
为了有效地利用辅助语音,提出了谱图匹配策略。为了验证其有效性,我们采用了基于我们提出的整体架构的其他三种策略来对齐辅助语音和混合语音:
(i)嵌入向量:重复从扬声器编码器生成的扬声器嵌入向量。
(ii)补丁级匹配:在补丁级选择几个相似度较高的辅助片段进行拼接[18]。
(iii)随机分割:从辅助语中随机分割一段,使其在长度上与混合语匹配。
表1的结果表明,我们提出的SM策略在尺度不变信失真比改进(SI-SDRi)指标上显著优于传统的嵌入向量方法,提高了1.8dB。我们将这种显著的增益归因于辅助语音在时间维度上的动态变化特征。与补丁级匹配相比,SM在Si-SDRi指标上的性能提高了0.5dB,这进一步证明了辅助语音动态变化特征对基于音频线索的TSE任务的重要性。(iii)和(iv)都使用了助语的连续段,而(iii)缺乏“余弦相似度计算”的匹配过程。结果表明,匹配过程对SI-SDRi的贡献为0.2dB。
在这里插入图片描述
表2列出了我们模型在不同设备下的SI-SDRi结果。当不使用SM时,SMMA-Net使用传统的嵌入向量,当不使用互注意(MA)时,使用简单的加法运算。在没有精化阶段的情况下,两个阶段将合并为一个阶段,在没有FRU的情况下重复8次。

在这里插入图片描述
我们首先在WSJ0-2mix-extr数据集上评估了SMMA-Net在TSE任务中的性能。SMMA-Net以最少的参数数量实现了最佳性能,在SI-SDRi指标上优于最先进的方法。我们还在WSJ0-2mix数据集上评估了SMMA-Net用于说话人分离(SS)任务的性能。SMMA-Net*采用与SMMA-Net类似的架构,主要区别是MA块被删除。此外,SM策略也没有被利用。

3.客观评价

4.主观评价


六、结论

本文提出了基于音频线索的TSE任务的SMMA-Net。
实验结果表明了所提出的SM策略和MA块的有效性。SMMA-Net在TSE任务中优于最先进的方法,并在Si-SDRi度量上实现了1.3 dB的改进。据我们所知,我们提出的用于TSE任务的SMMA-Net首先超越了具有相同架构的用于SS任务的模型。

七、知识小结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/610782.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

星途重启:244亿公里外的「旅行者1号」,修好了

2024年4月20日&#xff0c;旅行者1号工程团队时隔5个月&#xff0c;终于重新收到了来自47年前所发射的探测器传回的有效数据。 ▲收到数据当天&#xff0c;工程团队成员在NASA喷气动力实验室的会议室中欢呼。 01.关于旅行者1号 在当下5G和WIFI已经普及的时代&#xff0c;NASA喷…

力扣2105---给植物浇水II(Java、模拟、双指针)

题目描述&#xff1a; Alice 和 Bob 打算给花园里的 n 株植物浇水。植物排成一行&#xff0c;从左到右进行标记&#xff0c;编号从 0 到 n - 1 。其中&#xff0c;第 i 株植物的位置是 x i 。 每一株植物都需要浇特定量的水。Alice 和 Bob 每人有一个水罐&#xff0c;最初是…

debian testing (预计13版本)wps字体无法正常显示

背 景 本人使用debian办公&#xff0c;原来使用的是debian 12,由于“生命不息&#xff0c;折腾不止“&#xff0c;终于将稳定版的debian 12升级为testing. 结果发现&#xff0c;debian 12能够正常使用的wps存在部分字体无法正常显示&#xff0c;经研究发现&#xff0c;原来是w…

The Sandbox 与 Cuisinia 合作推出全新体验!

与 Cuisinia 一起吃 Voxel&#xff01; 召唤所有美食家和游戏玩家&#xff01;准备好在 Cuisinia x The Sandbox Moodie 挑战赛中挑逗你的味蕾&#xff0c;考验你的技能&#xff01;加入我们的美味探险&#xff0c;品尝充满活力的泰国美食。 为什么选择 Cuisinia&#xff1f; …

图像锐化——非锐化掩膜USM和锐化掩膜SM(附代码)

非锐化掩膜 (USM) 和锐化掩膜 (SM) 都是常用的图像锐化技术。它们都可以通过增强图像的边缘信息来提高图像的清晰度。 目录 一、非锐化掩膜USM1.1 USM原理1.2 USM实现步骤1.3 优点1.4 代码 二、锐化掩膜SM2.1 SM原理2.2 SM实现步骤2.3 优点2.4 代码 三、锐化效果四、总结4.1 效…

vue 代码样式问题

部分电脑存在样式错乱问题&#xff0c;部分电脑样式正常。最后发现是样式写在 el-col 里面导致的。 注意&#xff1a;写样式不要放在 el-row 或者 el-row &#xff0c;导致部分电脑会出现莫名其妙的样式问题 <el-row class"detail"><el-col class"it…

在RK3588开发板使用FFMpeg 结合云服务器加SRS实现摄像头数据推流到云端拱其他设备查看

今天测试了一把在开发板把摄像头数据推流到云端服务器&#xff0c;然后给其他电脑通过val软件拉取显示摄像头画面&#xff0c;浅浅记录一下大概步骤 1.开发板端先下载ffmpeg apt install ffmpeg2.云服务器先安装SRS的库 云服务器我使用ubuntu系统&#xff0c;SRS是个什么东西&…

扫码查看文件是如何实现的?文件活码在线生成的方法

现在很多场景下会通过扫码的方式来查看文件&#xff0c;这种方式可以让更多的人同时通过扫码的方式来查看二维码&#xff0c;有利于文件的快速分享以及用户获取内容的个人体验&#xff0c;而且可以保护文件的安全性&#xff0c;那么如何制作文件二维码呢&#xff1f; 文件二维…

车辆管理|基于SprinBoot+vue的4S店车辆管理系统(源码+数据库+文档)

4S店车辆管理系统 目录 基于SprinBootvue的4S店车辆管理系统 一、前言 二、系统设计 三、系统功能设计 系统实现 1管理员功能模块 2销售员功能模块 3维修员功能模块 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取&#xf…

傻傻分不清楚:JDK/JRE/JVM的区别和联系

在Java开发的世界里&#xff0c;JDK、JRE和JVM是三个经常听到的术语。 对于初学者来说&#xff0c;它们的概念和区别可能会让人感到困惑。 这篇文章详细解释下三个组件的含义、它们之间的区别和联系。 一&#xff0c;JDK&#xff1a;Java Development Kit JDK是Java开发工具…

k8s个人认知理解

pod的定义 pod里面有容器&#xff0c;所以pod就是一个容器组&#xff0c;一个pod里面可以有多个容器也可以有一个容器&#xff0c;最低只能有一个容器&#xff0c;目前现在主流使用的都是一个pod里面一个容器&#xff0c;同一个pod里面的容器&#xff0c;需要紧耦合。配置文件…

重学java 35.API 6.包装类

心有所念&#xff0c;必有所灵 —— 24.5.10 一、基本数据类型对应的引用数据类型(包装类) 1概述 就是基本类型所对应的类&#xff08;包装类&#xff09;&#xff0c;我们需要将基本类型转为包装类&#xff0c;从而让基本类型拥有类的特性&#xff08;是基本类型可以使用包装类…

Excel操作之工具类

需求&#xff1a;根据指定的路径下模版进行解析 将模版上传到指定的文件服务器。 1&#xff1a;将路径下的excel文件进行解析 下载 A:创建excel表格对应的字段注解 ExcelColumn Retention(RetentionPolicy.RUNTIME) Target(ElementType.FIELD) public interface ExcelColumn …

milvus元数据在etcd的存储解析

milvus元数据在etcd的存储解析 数据以key-value形式存在。 大致包含如下一些种类: databasecollectionfieldpartitionindexsegment-indexresource_groupsession database 创建一个数据库会产生2个key&#xff0c;但value是相同的。 key规则: 前缀/root-coord/database/db…

【SRC实战】利用APP前端加密构造数据包

挖个洞先 https://mp.weixin.qq.com/s/ZnaRn222xJU0MQxWoRaiJg “ 以下漏洞均为实验靶场&#xff0c;如有雷同&#xff0c;纯属巧合” 01 — 漏洞证明 “ 参数加密的情况&#xff0c;不会逆向怎么办&#xff1f;” 1、新用户首次设置密码时抓包&#xff0c;此处设置为0000…

设计合理的IT运维服务目录:打造高效运维的蓝图

在数字化转型的浪潮中&#xff0c;一个设计合理、内容详尽的IT运维服务目录是连接服务提供者与消费者之间的桥梁&#xff0c;它不仅体现了服务设计的专业性&#xff0c;还直接影响着运维效率和服务质量。如何设计出既合理又高效的IT运维服务目录&#xff1f;让我们结合ITIL 4框…

Modown9.1主题无限制使用+Erphpdown17.1插件

Modown9.1主题无限制使用 1、Erphpdown17.1插件Modown9.1主题 2、送Modown主题详细教程。 1、Erphpdown插件和Modown主题无需激活 2、送的插件均无需激活 3、主题插件均不包更新 4、已亲测可以完美使用。 功能强大&#xff0c;适用于绝大多数虚拟资源站&#xff01;物超所值&a…

分布式光伏管理平台功能介绍

一、项目管理系统 1、关键信息&#xff1a;板块化展现项目关键信息&#xff0c;包含所在区域、屋面类型、未来25年发电量、累计收益等信息。 (1) 可迅速获取项目核心要点 (2) 及时跟进修改&#xff0c;凸显项目信息 (3) 项目信息清晰展现&#xff0c;了解整体项目流程 2、项…

【已解决】QT C++中QLineEdit不可粘贴输入

本博文源于生产实际&#xff0c;主要解决LineEdit不可粘贴输入的情况。下面将进行具体分析 问题来源 输入框只能一个个输入&#xff0c;不可复制粘贴。 分析 给QLineEdit装一个监听事件&#xff0c;监听它的事件即可。 问题解决步骤 问题一共分为三步&#xff1a; 书写监…

Find My资讯|苹果设备在修复期间可以保持启用“Find My“功能

iOS 17.5 中有一项名为"维修状态"的新功能&#xff0c;可让送修的设备保持启用"查找我的"&#xff08;Find My&#xff09;功能。此前&#xff0c;用户在送修设备时必须禁用跟踪设备位置的"查找我的"功能&#xff0c;但iOS 17.5发布后&#xff0…