深度判别特征学习在口音识别中的应用

论文:https://arxiv.org/pdf/2011.12461
代码:https://github.com/coolEphemeroptera/AESRC2020

摘要

使用深度学习框架进行口音识别是一项与深度说话人识别相似的工作,它们都期望为输入语音提供可识别的表示。相比于说话人识别网络学习的个体级特征,深度口音识别提出了一个更具挑战性的任务,即为说话人创建群体级口音特征。本文中,我们借鉴并改进了深度说话人识别框架来识别口音,具体而言,我们采用卷积循环神经网络作为前端编码器,并使用循环神经网络整合局部特征以生成语句级别的口音表示。创新地,为了解决过拟合问题,我们在训练期间简单地添加了基于连接时序分类(CTC)的语音识别辅助任务,并且针对模糊的口音区分,我们引入了一些在面部识别工作中强大的判别损失函数来增强口音特征的判别能力。我们的研究表明,提出的带有判别训练方法的网络(不进行数据增强)在2020年口音英语语音识别挑战赛的口音分类赛道上显著领先于基线系统,其中Circle-Loss损失函数在口音表示的判别优化中表现最佳。
在这里插入图片描述

1. 引言

在特定语言下,口音是一种可以受社会地位、教育和居住地区影响的习得或行为性说话特性,我们主要关注由地域因素引起的口音。口音识别(AR)技术可以用于有针对性地解决与口音相关的问题或预测说话人的可靠身份,以提供定制服务,近年来受到了广泛关注。本文中,我们在2020年口音英语语音识别挑战赛(AESRC2020)的口音分类赛道上设计了一种带有判别特征学习方法的深度框架,该数据集中包含来自8个国家的英语语音口音。

在深度特征学习中,AR任务与说话人识别(SI)和语言识别(LI)相似,它们都希望为输入语音提供一个可区分的表示。在建模方法上,它们可以共享相同的深度范式:(i)使用深度神经网络(DNN)提取帧级特征,(ii)帧级特征的时间整合,(iii)判别特征学习。在我们的工作中,我们使用卷积循环神经网络(CRNN)来提取帧级描述符,具体来说,我们的CRNN提取器由ResNet和双向GRU网络组成,接着使用双向GRU将计算出的局部描述符整合为全局的语句级特征。

然而,为许多说话人学习群体级口音特征比学习个体级说话人特征更难,这种难度具体体现在以下两点:

  1. 过拟合:在有限的训练数据下,由于口音的数量远少于说话人的数量,并且输入语音包含丰富且多样的信号,在这种小规模分类目标下快速收敛并不等同于获得准确的口音表示。因此,即使在封闭集上效果完美,学习到的决策路径也可能不准确。
  2. 难以检测口音:在许多正式的社交场合中,说话人倾向于采用标准化的发音(如中文的普通话),这种发音会缩小不同口音之间的差异,使得口音识别更加困难。换句话说,这种不可区分的口音会导致深度网络中的嵌入表示模糊。

为了解决上述两个问题,我们提出了以下两个解决方案:(i)针对问题1,我们采用多任务学习(MTL)训练方法,即在训练期间,我们在前端编码器上简单地添加了基于CTC的语音识别辅助任务。(ii)针对问题2,我们在面部识别工作中采用了一些流行的判别损失函数来增强口音特征的判别能力。

2. 深度分类架构

我们借鉴并改进了深度说话人识别框架,以创建用于口音分类的语句级表示。本文提出的深度口音识别网络由以下部分组成:(1)基于CRNN的前端编码器,用于提取帧级描述符,由基于ResNet的CNN子部分和基于双向GRU的RNN子部分构成;(2)特征整合层,用于将任意帧级局部特征整合为语句级全局特征向量;(3)训练期间的判别损失函数,用于增强全局口音特征的判别能力;(4)基于softmax的分类器,附加在全局特征上,给出口音的后验分布。

为了应对过拟合问题,我们在训练期间在前端编码器后添加了一个基于CTC的ASR分支。总体而言,我们的模型在训练期间有三个输出,其中预测结果由基于softmax的分类器给出。
在这里插入图片描述

2.1 前端编码器

输入的二维频谱图经过ResNet(特征图数量减半)的处理,得到的特征图L1。然后,将时间维度和特征维度结合起来,形成特征序列L2。接着,通过线性层将描述符的维度降低到H,并得到张量L3。最后,采用双向GRU进一步提取序列特征L4。
在这里插入图片描述

2.2 多对一特征整合

为了将由变长输入导致的可变数量的局部描述符合并为固定长度的语句级嵌入向量,我们采用基于RNN的整合方法,具体来说,我们使用双向GRU逐步摄取每个描述符,并将最后的隐藏状态作为整合结果。

2.3 基于CTC的ASR目标

我们选择基于CTC的ASR辅助任务来遏制训练期间的过拟合问题。CTC公式使用L长度的字母序列O和带有“空白”符号的帧级字母序列Z。CTC目标的计算方法见公式。

3. 判别特征学习

损失函数在深度特征学习中起着重要作用。我们采用在面部识别工作中强大的判别损失函数来改进模糊的口音表示。

3.1 Softmax损失

Softmax损失结合了softmax函数和交叉熵损失,旨在使所有类别在概率空间中具有最大的对数似然。给定语句级口音特征Gi及其对应的标签yi,Softmax损失的计算方法见公式。
在这里插入图片描述

3.2 CosFace/AM-Softmax

为了改进预测的泛化性,我们需要一个可靠的度量空间,最大化类间差异并最小化类内差异。CosFace和AM-Softmax通过L2正则化特征和权重向量去除径向变化,并引入加性余弦边距项来进一步最大化角度空间中的决策边距。
在这里插入图片描述

3.3 ArcFace

与CosFace和AM-Softmax类似,ArcFace在类权重和嵌入特征的归一化下,将边距移至余弦运算符的内部,以更直接地优化特征空间。
在这里插入图片描述

3.4 Circle-Loss

Circle-Loss在深度特征学习中提出了一种统一的视角,包括两种基本范式:类级标签学习和对级标签学习,它们都旨在最大化类内相似性并最小化类间相似性。Circle-Loss通过灵活的优化方法和明确的收敛状态改进了特征学习效果。
在这里插入图片描述

4. 实验

我们在AESRC2020语音数据集上训练和测试了我们的网络。该数据集包括来自八个国家的英语口音。实验结果表明,使用判别损失函数的模型在口音分类准确性上明显优于基线系统。八国口音英语数据集分布,U:句子,S:说话人
在这里插入图片描述
实验结果
在这里插入图片描述

5. 结论

本文借鉴了说话人识别中的深度范式,提出了一种深度口音识别网络。我们通过引入基于CTC的ASR辅助任务解决了过拟合问题,并采用面部识别中的判别特征学习方法解决了模糊的口音表示问题。在AESRC2020口音识别赛道上,我们提出的模型在判别优化上表现优异,Circle-Loss在特征学习中表现最佳。八国二维口音特征图分布如下:

在这里插入图片描述
在这里插入图片描述
八国三维口音特征图分布如下:
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/723213.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构】线性表之《无头单链表》超详细实现

单链表 一.链表的概念及结构二.顺序表与链表的区别与联系三.单链表的实现1.创建单链表2.初始化单链表3.购买节点4.打印单链表5.插入操作1.头插2.尾插3.给定位置之前插入 6.删除操作1.头删2.尾删3.删除给定位置的结点 7.查找数据8.修改数据9.求单链表长度10.清空单链表11.销毁单…

机器学习课程复习——聚类算法

Q:什么是硬聚类,什么是软聚类? 如果一个样本只能属于一个类,则称为硬聚类(hard clustering); 如果一个样本可以属于多个类,则称为软聚类(soft clustering)。 Q:聚类和分类的区别? 聚类分类学习类型无监督学习方法 不需要事先标记的数据 通过发现数据中的模式或结构来组…

【毕业设计】Django 校园二手交易平台(有源码+mysql数据)

此项目有完整实现源码,有需要请联系博主 Django 校园二手交易平台开发项目 项目选择动机 本项目旨在开发一个基于Django的校园二手交易平台,为大学生提供一个安全便捷的二手物品买卖平台。该平台将提供用户注册和认证、物品发布和搜索、交易信息管理等…

Linux-Https协议

文章目录 前言一、Https协议二、常见的加密方式对称加密非对称加密数据摘要&&数据指纹中间人攻击 三、Https的加密历程方案1-只使用对称加密方案2-只使用非对称加密方案3-双方都使用非对称加密方案4-非对称加密对称加密 四、CA证书什么是CA证书CA证书的合法性如何生成.…

Python9 Tkinter创建GUI

1.Tkinter简单介绍 Tkinter是Python的标准GUI(图形用户界面)库,提供一种简单的方式来创建窗口程序。Tkinter封装了访问Tk GUI工具包的接口,Tk是一个跨平台的GUI开发库,广泛用于创建图形界面。 使用Tkinter&#xff0…

++++++局部变量、全局变量及变量的存储类别++++====+++指针+++

局部变量、全局变量及变量的存储类别 局部变量与全局变量的基本概念 局部变量:在函数内部定义的变量称为局部变量,也称为内部变量。它们只在定义它们的函数内部有效,即只有在这个函数被调用时,局部变量才会被分配内存空间&#x…

Java学习【深入解读File类:从基础到高级的完整指南】

Java学习【深入解读File类:从基础到高级的完整指南】 ⭐File的概述和构造方法⭐File常见的成员方法🌙构造方法🌙length()🌙getAbsoluteFile()和getPath()🌙getName()和lastModified() ⭐文件的创建和删除⭐获取并遍历 …

从 0 打造私有知识库 RAG Benchmark 完整实践

背景介绍 最近从 0 构建了一个大模型知识库 RAG 服务的自动化 Benchmark 评估服务,可以基于私有知识库对 RAG 服务进行批量自动化测试与评估。本文是对这个过程的详细记录。 本文实际构建的是医疗行业知识库,基于高质量的医学指南和专家共识进行构建。…

8K Stars!Text2SQL还不够?试试更精准的RAG2SQL开源工具

▼618钜惠专场直播,点击预约按钮免费预约。 SQL 是查询数据库的关键,但如何高效地构建满足个人需求的 SQL 语句呢?随着 AI 大模型的进步,我们现在已经拥有了 Text2SQL 的技术,这一技术已被多款产品广泛应用。 今天&…

考研数学|做完《660》,做《880》还是吃力,怎么办?

880吃力说明基础还是不太扎实,建议配合知能行再刷880。 强化之前做660,然后在强化的时候再做880。 660整体难度属于基础阶段到强化阶段。而且是选填部分的题目,所以还是要做一些其他题 然后说一下推荐的习题册:基础不好先做1800、…

如何学习 Java 中的 Socket 编程,进行网络通信

Socket编程是网络编程的核心技术之一,它使得不同主机之间可以进行数据通信。Java提供了丰富的网络编程API,使得编写网络应用程序变得相对简单和直观。本文将详细讲解如何学习Java中的Socket编程,并通过示例代码展示如何实现网络通信。 一、S…

船舶能源新纪元:智能管理引领绿色航运潮流

在蓝色的大海上,无数船只乘风破浪,为全球的贸易和文化交流贡献着力量。然而,随着环保意识的提升和可持续发展的要求,船舶的能源消耗和排放问题逐渐成为了人们关注的焦点。在这个关键时刻,船舶能源管理系统应运而生&…

智能合约开发的过程

智能合约是一种运行在区块链上的程序,可以自动执行预先设定的条款和条件。智能合约具有去中心化、透明、不可篡改等特点,因此被广泛应用于金融、供应链、物联网等领域。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎交流…

西门子学习笔记12 - BYTE-REAL互相转化

这是针对于前面MQTT协议的接收和发送数组只能是BYTE数组做出的对应的功能块封装。 1、BYTE-REAL转化 1、把byte数组转成字符串形式 2、把字符串转成浮点数 2、REAL-BYTE转化 1、把浮点数转成字符串 2、把字符串转成Byte数组

通过编辑器工具改变Inspector锁定状态

是在看一系列视频的时候,看到的,感觉挺有用,就记录下来。 就是这个小锁的按钮,后续可以通过快捷键,快速锁定和解锁。代码里没有加入快捷键控制,有需要用到的可以自己加一下,比较简单 using Uni…

前端上传minio

参考【GitCode - 全球开发者的开源社区,开源代码托管平台】 注意事项:nodejs服务,文件扩展名为mjs,版本号8.0,引入的时候 import * as Minio from minio import Minio as * from minio// 实例化对象存储服务的MinIO客户端 // p…

c语言字符串函数详解(全)

字符串函数 1.strlen函数 求字符串长度的 //求字符串长度 int my_strlen(char* str) {int count 0;while (*str ! \0){count;*str;}return count; } int main() {char arr[] "abcdef";int red my_strlen(arr);printf("%d\n", red);return 0; } 2. st…

【MySQL】(基础篇十二) —— 子查询

分组数据 本文介绍什么是子查询以及如何使用它们。 SQL允许我们创建子查询(subquery),即嵌套在其他查询中的查询。这样可以实现更复杂的查询,理解这个概念的最好方法是考察几个例子。 利用子查询进行过滤 需求:查询…

一行超长日志引发的 “血案” - Containerd 频繁 OOM 背后的真相

案发现场:混沌初现 2024年6月10日,本应是平静的一天。但从上午 9 点开始,Sealos 公有云的运维监控告警就开始不停地响。北京可用区服务器节点突然出现大量 “not ready” 告警,紧接着,系统自动触发 004 节点重启&…

重学java 75.JDK新特性 ① Lambda表达式

你所做的事情,也许暂时看不到成果,你不是没有成长,而是在扎根 —— 24.6.19 一、函数式编程思想和Lambda表达式定义格式 1.面向对象思想:是Java的核心编程思想 强调的是找对象,帮我们做事儿 比如:去北京 -> 强调的是怎么去,火车,高铁,飞机…