基于多模态信息的语音处理(misp) 2023挑战:视听目标说话人提取

THE MULTIMODAL INFORMATION BASED SPEECH PROCESSING (MISP) 2023

CHALLENGE: AUDIO-VISUAL TARGET SPEAKER EXTRACTION
第二章 目标说话人提取之《基于多模态信息的语音处理(misp) 2023挑战:视听目标说话人提取》


文章目录

  • THE MULTIMODAL INFORMATION BASED SPEECH PROCESSING (MISP) 2023
  • 前言
  • 一、任务
  • 二、动机
  • 三、挑战
  • 四、方法
    • 1.
    • 2.基线模型
    • 3. 基线系统两阶段训练
    • 4.
  • 五、实验评价
    • 1.数据集
    • 2.消融实验
    • 3.客观评价
    • 4.主观评价
  • 六、结论
  • 七、知识小结


前言

语音新手入门,学习读懂论文。
本文作者机构是中国科学技术大学,卡内基梅隆大学,西北工业大学,科大讯飞
在这里插入图片描述


一、任务

提出了MISP 2023挑战赛,旨在通过使用MISP语料库的AVTSE系统提高后端ASR系统在实际场景中的准确性。具体而言,我们将使用预训练的ASR模型对AVTSE系统的语音输出进行解码,并以字符错误率(CER)作为评估指标。

二、动机

最近,神经科学的研究表明,包括面部和嘴唇运动在内的视觉模态可以显著影响人类的听觉注意,通过提供关于说话人的额外信息来增强语音感知,特别是在嘈杂的环境中。

三、挑战

现实场景中获取预注册音频的挑战,多个扬声器之间声学特征的潜在相似性,以及存在明显的噪声干扰。
当前的挑战有两个主要问题。首先,评价数据要么是在清洁语音中加入单一类型的噪声或干扰语音得到的模拟数据,要么是在真实场景中记录的,但说话者只是阅读特定的句子或单词排列。然而,在现实生活场景中,人们的对话通常没有特定的主题,并且他们遇到复杂的声学环境,其中包含多种类型的噪音,混响和其他扬声器的干扰,这可能导致模拟与现实之间的不匹配。其次,这些挑战通常使用深度噪声抑制平均意见评分(DNSMOS)、短时客观可理解度(STOI)和语音质量感知评价(PESQ)等指标来评估语音质量,或邀请工作人员根据他们的实际听力体验进行评分。

四、方法

1.

在这里插入图片描述
MISP语料库[19]侧重于真实的家庭电视场景:2-6人相互通信,背景是电视噪声和混响。在这种情况下,说话者在没有特定话题的情况下进行自发的对话,由于语言的重叠和多样性,这给谈话带来了挑战。此外,在某些会议中,来自电视的强烈背景噪声存在,其中可能播放电视节目,如戏剧,新闻,音乐和采访,进一步加剧了复杂性,特别是对于前端系统。
从包含多个说话人的重叠声音和背景噪声的录音中提取目标说话人的讲话。在一个会话中,每个演讲者依次被视为目标演讲者。我们还会提供oracle diarization的结果

2.基线模型

在这里插入图片描述
多模态嵌入感知语音增强(MEASE),该模型在视听语音增强(AVSE)领域实现了“SOTA”。利用oracle diarization结果对6声道混合音频进行引导源分离(guided source separation, GSS)。以初步减轻重叠语音的影响。然后使用MEASE模型进一步提取目标说话人的语音。
MEASE模型包括一个多模态嵌入提取器(红色虚线框)和一个嵌入感知增强网络。
首先从GSS的音频输出中提取FBANK特征和噪声对数功率谱(LPS)特征。随后,我们使用预训练的嵌入提取器从目标说话人的FBANK (AFBANK)和唇帧(V)中获得深度嵌入。
在这里插入图片描述
ReLu(·)、BN(·)和MP3D(·)分别代表ReLu激活层、批归一化层和时空最大池化层。

3. 基线系统两阶段训练

在这里插入图片描述
首先,以LMSE为损失函数,利用模拟数据训练MEASE模型;然而,这种训练方法由于没有考虑后端识别任务,不可避免地会导致提取的语音产生一定程度的失真,从而影响识别系统的准确性。因此,在第二阶段,作者使用识别后端对预训练的MEASE模型进行微调。作者在第二阶段使用了来自训练集的真实远场数据。
在这里插入图片描述
X和Y分别表示编码器输出和目标序列。λ是CTC损失与注意交叉熵(attention cross entropy, CE)损失之间的权重因子。

4.

五、实验评价

1.数据集

使用MISP 2021挑战的AVSR语料库训练集,持续时间为106.09小时,包括21个房间和200个扬声器。

2.消融实验

3.客观评价

在这里插入图片描述
S, D, I表示替换,删除和插入的数量。N是基本真理中的字符数。
DNSMOS:深度噪声抑制平均意见评分
在这里插入图片描述
AEASE是MEASE的简化版本,因为它不利用视觉形式。
GSS+MEASE+Finetune”的结果作为我们最终的基线结果。

4.主观评价


六、结论

我们提供了MISP 2023挑战的数据集,任务设置和基线系统的详细描述,这是AVTSE任务的第一个基准。我们还对基线实验结果进行了深入分析,强调AVTSE任务在现实场景中仍然具有重要的研究潜力。未来,我们计划探索AVTSE系统在长录音情况下的解决方案,并结合主观听力测试,进一步研究真实语音听觉质量与后端任务性能之间的关系。

七、知识小结

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/498455.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Synchronized锁、公平锁、悲观锁乐观锁、死锁等

悲观锁 认为自己在使用数据的时候一定会有别的线程来修改数据,所以在获取数据前会加锁,确保不会有别的线程来修改 如: Synchronized和Lock锁 适合写操作多的场景 乐观锁 适合读操作多的场景 总结: 线程8锁🔐 调用 声明 结果:先打印发送短信,后打印发送邮件 结论…

FPGA 图像边缘检测(Canny算子)

1 顶层代码 timescale 1ns / 1ps //边缘检测二阶微分算子:canny算子module image_canny_edge_detect (input clk,input reset, //复位高电平有效input [10:0] img_width,input [ 9:0] img_height,input [ 7:0] low_threshold,input [ 7:0] high_threshold,input va…

uniapp 中引入第三方组件后,更改组件的样式 -使用/deep/不生效

在我们使用Vue搭建项目的时候,我们经常会用到一些UI框架,如Element,iView,但是有时候我们又想去修改Ul框架的样式,当我们修改样式失败的时候,可以尝试一下/deep/,亲测有效。 那失败的原因是什么…

基于DBO-CNN-BiLSTM数据回归预测(多输入单输出),蜣螂优化算法优化CNN-BiLSTM-附代码

基于DBO-CNN-BiLSTM的数据回归预测是一种综合利用了深度学习中的多种技术的方法,包括卷积神经网络(CNN)、双向长短期记忆网络(BiLSTM)和注意力机制(Attention)。蜣螂优化算法用于优化CNN-BiLSTM…

揭秘’在家答答题,无需经验、无论男女、单号轻松日产200+的一个玩法

项目简介 公众号:老A程序站 这个项目是人人可参与的,无需支付任何费用,只需投入时间即可。每天的任务主要是回答问题。 项目 地 址 : laoa1.cn/1457.html 如果遇到不会的问题,可以直接使用百度进行搜索。我们通过…

【明道云】如何让用户可以新增但不能修改记录

【背景】 遇到一个需求场景,用户希望新增数据后锁住数据不让更改。 【分析】 在设计表单时直接将字段设置只读是不行的。字段设置只读将会直接让界面上此字段的前端组件不可编辑。包括新增时也无法填入。显然是不符合需求的。 需要既能新增,新增后又不…

5.6 物联网RK3399项目开发实录-Android开发之U-Boot 编译及使用(wulianjishu666)

物联网入门到项目实干案例下载: https://pan.baidu.com/s/1fHRxXBqRKTPvXKFOQsP80Q?pwdh5ug --------------------------------------------------------------------------------------------------------------------------------- U-Boot 使用 前言 RK U-B…

在香港服务器搭网站速度怎么样?

在香港服务器搭网站速度怎么样?一般要看用户所在地理位置,如果用户距离香港服务器较远,网络延迟会增加,导致加载速度变慢。 面对海外地区用户,香港作为亚洲连接海外的网络中转枢纽,多条国际海底电缆&#…

编译原理知识点整理

第一章 绪论 计算机语言发展历程 第一代语言:机器语言第二代语言:汇编语言第三代语言:高级语言(如C,C,Java等)第四代语言:极高级领域语言(如SQL)第五代语言:可视化配置语言第六代语言&#xff…

抢先看!界面控件DevExpress WPF 2024产品路线图预览(一)

DevExpress WPF拥有120个控件和库,将帮助您交付满足甚至超出企业需求的高性能业务应用程序。通过DevExpress WPF能创建有着强大互动功能的XAML基础应用程序,这些应用程序专注于当代客户的需求和构建未来新一代支持触摸的解决方案。 本文将介绍2024年Dev…

事件穿透效果

讲述一下事件穿透的需求,大家可以根据实际情况来考虑是否采用这种方式来制作页面,(项目中遇到了底部是地图,两侧面板,但是UI在设计的时候为了好看,会有很大的遮罩阴影部分,如果按照时间制作会导…

图书推荐|Bootstrap 5从入门到精通:视频教学版

示例源码、PPT课件、同步教学视频、作者微信答疑、教学大纲、其他丰富的教学资源 本书内容 《Bootstrap 5从入门到精通:视频教学版》结合示例和综合项目的演练,详细讲解Bootstrap开发技术,使读者快速掌握Bootstrap开发技能,提高使…

[SpringCloud] Feign Client 的创建 (二) (五)

文章目录 1.自动配置FeignAutoConfiguration2.生成 Feign Client2.1 从Feign Client子容器获取组件2.2 Feign Client子容器的创建2.3 构建Feign Client实例 1.自动配置FeignAutoConfiguration spring-cloud-starter-openfeign 包含了 spring-cloud-openfeign-core FeignAutoCo…

CSS实现小车旅行动画实现

小车旅行动画实现 效果展示 CSS 知识点 灵活使用 background 属性下的 repeating-linear-gradient 实现路面效果灵活运用 animation 属性与 transform 实现小车和其他元素的动画效果 动画场景分析 从效果图可以看出需要实现此动画的话,需要position属性控制元素…

机器学习(三)

神经网络: 神经网络是由具有适应性的简单单元组成的广泛并行互连的网络,它的组织能够模拟生物神经系统对真实世界物体所作出的交互反应。 f为激活(响应)函数: 理想激活函数是阶跃函数,0表示抑制神经元而1表示激活神经元。 多层前馈网络结构: BP(误差逆…

微服务demo(二)nacos服务注册与集中配置

环境:nacos1.3.0 一、服务注册 1、pom: 移步spring官网https://spring.io,查看集成Nacos所需依赖 找到对应版本点击进入查看集成说明 然后再里面找到集成配置样例,这里只截一张,其他集成内容继续向下找 我的&#x…

【Python】python+requests+excel+unittest+ddt实现接口自动化实例

目录 测试需求实现思路框架代码实例1. 环境准备和配置文件2. Excel接口数据及测试结果3. API封装4. 读取Excel数据5. 测试用例6. 日志和配置文件处理7. HTMLTestRunner生成可视化的html报告8. 报告通过飞书/邮件发送报告通过飞书发送报告通过邮件发送9. 入口函数10. 飞书Webhoo…

Day46:WEB攻防-注入工具SQLMAPTamper编写指纹修改高权限操作目录架构

目录 数据猜解-库表列数据&字典 权限操作-文件&命令&交互式 提交方法-POST&HEAD&JSON 绕过模块-Tamper脚本-使用&开发 分析拓展-代理&调试&指纹&风险&等级 知识点: 1、注入工具-SQLMAP-常规猜解&字典配置 2、注入…

Nagios工具

一 nagios 相关概念 Nagios 是一款开源的免费网络监视工具,能有效监控 Windows、Linux 和 Unix 的主机状态,交换机路由器等网络设置,打印机等。在系统或服务状态异常时发出邮件或短信报警第 一时间通知网站运维人员,在状态恢复后…

33.HarmonyOS App(JAVA)鸿蒙系统app数据库增删改查

33.HarmonyOS App(JAVA)鸿蒙系统app数据库增删改查 关系数据库 关系对象数据库(ORM) 应用偏好数据库 分布式数据库 关系型数据库(Relational Database,RDB)是一种基于关系模型来管理数据的数据库。HarmonyOS关系型…