【AI视野·今日Sound 声学论文速览 第三十三期】Wed, 25 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Wed, 25 Oct 2023
Totally 8 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

CDSD: Chinese Dysarthria Speech Database
Authors Mengyi Sun, Ming Gao, Xinchen Kang, Shiru Wang, Jun Du, Dengfeng Yao, Su Jing Wang
我们推出中文构音障碍语音数据库 CDSD,作为构音障碍研究的宝贵资源。该数据库包含 24 名构音障碍参与者的语音数据。在这些参与者中,一名参与者额外录制了 10 小时的演讲数据,而每人则录制了 1 小时,最终获得了 34 小时的演讲材料。为了适应不同认知水平的参与者,我们的文本库主要由 AISHELL 1 数据集的内容和中小学生的演讲组成。当参与者阅读这些文本时,他们必须使用移动设备或ZOOM F8n多轨现场录音机来录制他们的演讲。在本文中,我们阐明了数据收集和注释过程,并提出了一种建立构音障碍语音识别基线的方法。此外,我们还使用一位参与者额外 10 小时的语音数据进行了依赖于说话者的构音障碍语音识别实验。我们的研究结果表明,通过广泛的数据驱动模型训练,微调有限数量的特定个体数据在依赖于说话者的构音障碍语音识别中产生了值得称赞的结果。然而,我们观察到不同构音障碍说话者的识别结果存在显着差异。

Dynamic Convolutional Neural Networks as Efficient Pre-trained Audio Models
Authors Florian Schmid, Khaled Koutini, Gerhard Widmer
大规模音频数据集(例如 AudioSet)的引入,为 Transformer 征服音频领域并取代 CNN 成为许多任务的最先进的神经网络架构铺平了道路。音频频谱图转换器非常擅长利用大型数据集,创建强大的预训练模型,当对下游任务进行微调时,这些模型超越了 CNN。然而,与 CNN 相比,当前流行的音频频谱图转换器在计算复杂性方面要求更高。最近,我们已经证明,通过使用 Transformer 进行 CNN 知识蒸馏,高效的 CNN 可以在大型数据集上赶上甚至超越 Transformer。在这项工作中,我们通过引入由动态非线性、动态卷积和注意力机制构成的动态 CNN 块,扩展了这一研究方向并提高了高效 CNN 的容量。我们证明,在大规模 AudioSet 上的音频标记任务中,这些动态 CNN 在性能复杂性权衡和参数效率方面优于传统的高效 CNN。

Modality Dropout for Multimodal Device Directed Speech Detection using Verbal and Non-Verbal Features
Authors Gautam Krishna, Sameer Dharur, Oggi Rudovic, Pranay Dighe, Saurabh Adya, Ahmed Hussen Abdelaziz, Ahmed H Tewfik
设备定向语音检测 DDSD 是一种二元分类任务,用于区分针对语音助手的查询与侧面对话或背景语音。最先进的 DDSD 系统使用语言提示,例如声学、文本和/或自动语音识别系统 ASR 功能,将语音分类为设备定向或其他,并且通常必须应对这些模式中的一种或多种在实际部署时不可用的情况世界设定。在本文中,我们研究了 DDSD 系统的融合方案,该方案可以使缺失的模态更加稳健。同时,除了 DDSD 的言语线索外,我们还研究非言语线索的使用,特别是韵律特征。我们提出了不同的方法,将韵律的分数和嵌入与相应的语言线索相结合,发现韵律通过非线性中间融合在给定的固定操作点上将错误接受率 FA 的 DDSD 性能提高了高达 8.5,而我们使用模态

SyncFusion: Multimodal Onset-synchronized Video-to-Audio Foley Synthesis
Authors Marco Comunit , Riccardo F. Gramaccioni, Emilian Postolache, Emanuele Rodol , Danilo Comminiello, Joshua D. Reiss
声音设计涉及为电影、视频游戏和虚拟增强现实等各种媒体创造性地选择、录制和编辑声音效果。设计声音时最耗时的步骤之一是将音频与视频同步。在某些情况下,可以使用视频拍摄的环境记录,这可以帮助完成此过程。然而,在视频游戏和动画中,不存在参考音频,需要手动注释视频中的事件时序。我们提出了一种从视频中提取重复动作起始点的系统,然后将其与音频或文本嵌入结合使用,以调节经过训练以生成新的同步音效音轨的扩散模型。通过这种方式,我们将完全的创意控制权交给了声音设计师,同时消除了与视频同步的负担。此外,编辑起始轨道或更改调节嵌入所需的工作量比编辑音轨本身要少得多,从而简化了可听化过程。

How Much Context Does My Attention-Based ASR System Need?
Authors Robert Flynn, Anton Ragni
对于语音识别任务,在训练期间使用超过 30 秒的声学上下文并不常见,并且文献中对此进行了研究。在这项工作中,我们研究了缩放用于训练评估基于密集注意力的声学和语言模型的序列长度对语音识别性能的影响。在这些实验中,使用了大约 100,000 个伪标记 Spotify 播客的数据集,并探索了 5 秒到 1 小时的上下文长度。对长格式数据集 Earnings 22 和 Tedlium 的零样本评估表明,使用大约 80 秒的声学环境进行训练有好处,与有限的环境基线相比,相对提高了 14.9。

FOLEY-VAE: Generación de efectos de audio para cine con inteligencia artificial
Authors Mateo C mara, Jos Luis Blanco
在这项研究中,我们提出了一个基于变分自动编码器的界面,该编码器经过各种自然声音的训练,用于创新地创建拟音效果。该模型可以将新的声音特征传输到预先录制的音频或麦克风实时捕获的语音中。此外,它还允许交互修改潜在变量,促进精确和定制的艺术调整。以我们之前在去年同一大会上提出的变分自动编码器研究为起点,我们分析了现有的实现 RAVE 1 。该模型经过专门针对音频效果制作的训练。已成功生成各种音频效果,包括电磁、科幻和水声等随本作品发布的声音。这种创新方法成为西班牙第一部人工智能辅助音效短片的艺术创作基础。

The Mason-Alberta Phonetic Segmenter: A forced alignment system based on deep neural networks and interpolation
Authors Matthew C. Kelley, Scott James Perry, Benjamin V. Tucker
给定正字法转录后,强制对齐系统自动确定语音数据中片段之间的边界。这些工具在语音学中很常见,以方便使用无法手动转录和分段的语音数据。在本文中,我们描述了一种新的基于神经网络的强制对齐系统,Mason Alberta Phonetic Segmenter MAPS。 MAPS 对准器可作为我们对强制对准系统追求的两项可能改进的测试平台。第一个是将强制对齐器中的声学模型视为标记任务,而不是分类任务,其动机是基于语音片段并不是真正离散且通常重叠的共识。第二种是插值技术,使边界比现代强制对准系统中常见的 10 毫秒限制更精确。我们将我们的系统配置与最先进的系统蒙特利尔强制对准器进行比较。与蒙特利尔强制对准器相比,标记方法通常不会产生更好的结果。然而,使用插值技术的系统在测试集上目标 10 毫秒内的边界数量相对于蒙特利尔强制对准器增加了 27.92。我们还反思了强制对齐中声学建模的任务和训练过程,强调这些模型的输出目标如何与语音学家对音素之间相似性的概念不匹配,并且这种张力的协调可能需要重新思考任务和输出目标或语音如何

GESI: Gammachirp Envelope Similarity Index for Predicting Intelligibility of Simulated Hearing Loss Sounds
Authors Ayako Yamamoto, Toshio Irino, Fuki Miyazaki, Honoka Tamaru
我们提出了一种新的客观清晰度测量 OIM ,称为 Gammachirp 包络相似度指数 GESI ,它可以预测正常听力 NH 听众的模拟听力损失 HL 声音的语音清晰度 SI 。 GESI 是一种侵入式方法,它使用 gammachirp 滤波器组 GCFB、调制滤波器组和扩展余弦相似性度量来计算 SI 度量。 GESI 可以接受参考声音和测试声音的水平不对称性,并反映听力图上显示的 HI 听众的听力水平。 GESI 的一个独特功能是它能够将单个参与者的收听条件纳入 SI 预测中。我们在实验室和众包远程环境中对男性和女性语音进行了四次 SI 实验。然后,我们评估了 GESI 和传统的 OIM、STOI、ESTOI、MBSTOI 和 HASPI,了解它们在使用或不使用模拟 HL 声音的情况下预测平均 SI 值和单个 SI 值的能力。 GESI 在所有评估中均优于其他 OIM。即使使用模拟的 HL 声音,STOI、ESTOI 和 MBSTOI 也根本无法预测 SI。 HASPI 没有预测实验室和远程实验对男性语音和个体 SI 值的差异。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/154065.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

jQuery【事件处理器、鼠标事件、表单事件、键盘事件、浏览器事件、事件对象、jQuery遍历】(三)-全面详解(学习总结---从入门到深化)

目录 事件之绑定事件处理器 事件之鼠标事件 事件之表单事件 事件之键盘事件 事件之浏览器事件 事件对象 jQuery遍历 事件之绑定事件处理器 1、 .on() 在选定的元素上绑定一个或多个事件处理函数 $("#button").on("click", function(event){console…

Android---网络编程优化

网络请求操作是一个 App 的重要组成部分,程序大多数问题都是和网络请求有关。使用 OkHttp 框架后,可以通过 EventListener 来查看一次网络请求的详细情况。一次完整的网络请求会包含以下几个步骤。 也就是说,一次网络请求的操作是从 DNS 解析…

第四代智能井盖传感器:万宾科技智能井盖位移监测方式一览

现在城市化水平不断提高,每个城市的井盖遍布在城市的街道上,是否能够实现常态化和系统化的管理,反映了一个城市治理现代化水平。而且近些年来住建部曾多次要求全国各个城市加强相关的井盖管理工作,作为基础设施重要的一个组成部分…

Python windows安装Python3环境

程序员的公众号:源1024,获取更多资料,无加密无套路! 最近整理了一份大厂面试资料《史上最全大厂面试题》,Springboot、微服务、算法、数据结构、Zookeeper、Mybatis、Dubbo、linux、Kafka、Elasticsearch、数据库等等 …

Vue3 自定义hook函数

这个hook函数并不是Vue3 自带的,而是为了方便我们书写和复用代码。 当我们在setup函数中写了很多内容过后,就会变得很乱,所以我们将实现相同功能的数据、方法和生命周期等等打包单独放在一个文件中,就会整洁很多。 例如&#xf…

Linux友人帐之网络编程基础邮件服务器与DHCP服务器

一、邮件服务器概述 1.1邮件服务基础 邮件服务器是一种计算机程序,它通过电子邮件协议接收、存储、处理和发送电子邮件。邮件服务器可以与电子邮件客户端程序(如Outlook、Thunderbird等)或Web邮件界面(如Gmail、Outlook.com等&am…

操作系统OS/存储管理/内存管理/内存管理的主要功能_基本原理_要求

基本概念 内存管理的主要功能/基本原理/要求 **内存管理的主要功能: ** 内存空间的分配与回收。由操作系统完成主存储器空间的分配和管理,使程序员摆脱存储分配的麻烦,提高编程效率。地址转换。在多道程序环境下,程序中的逻辑地…

数字档案室建设评价

数字档案室建设评价应考虑以下几个方面: 1. 安全性:数字档案室的主要目的是确保档案资料的安全性。评价应考虑数字档案室的物理安全性、防火措施、保密措施、网络安全等方面。 2. 可访问性:数字档案室应该易于访问和使用。评价应考虑数字档案…

OCC教学:预备基础

预备基础:1.概览 什么是Open CASCADE Technology? Open CASCADE Technology (OCCT) 是一个功能强大的开源 C 库,由数千个类组 成,并提供以下领域的解决方案: 表面和实体建模:对任何对象进行建模。3D 和 …

制造业数据标准化的优势分析

之前我们介绍过>>数据驱动工作效率提升的5个层次——以PreMaint设备数字化平台为例,这次我们将深入分析数据标准化在制造业中的优势。 从持续的供应链中断和疯狂的通货膨胀,到日益昂贵和难以采购的原材料,制造企业正面对越来越多的挑战…

APM/PX4/betaflight/inav开源飞控之IMU方向

APM/PX4/betaflight/inav开源飞控之IMU方向 1. 源由2. 坐标系2.1 APM/PX4:机体坐标 右手系规则2.2 betaflight/inav:xEast-yNorth-zUp yaw反向 右手系规则 3. 转向定义3.1 APM/PX43.2 betaflight/inav 4. 实例4.1 I C M 42688 P ICM42688P ICM42688P…

把jar包打到本地仓库然后上传到私服

1.首先把需要打成maven的包放到本地 2.然后本地配置maven的环境变量 没有配置的话可以看看下面这个,教程很详细 Windows系统配置maven环境_windows配置maven环境变量-CSDN博客 3.WinR cmd 输入如下的指令: mvn install:install-file -Dfile.\device…

unity shaderGraph实例-扫描效果

文章目录 效果展示整体结构各区域内容区域1区域2区域3区域4区域5区域6GraphSetttings注意事项使用方法 效果展示 整体结构 各区域内容 区域1 用场景深度减去顶点的View空间的视野深度(Z值),这里Z值需要乘-1是因为从相机看到的物体顶点的视野…

Kontakt Factory Library 2(Kontakt原厂音色库2)

Kontakt Factory Library 2是一款由Native Instruments开发的音乐采样库。它是Kontakt采样器软件的官方库之一,提供了丰富的音色和音乐资源,可用于制作各种类型的音乐。 Kontakt Factory Library 2包含了数千个高质量的乐器采样,涵盖了各种乐…

不会英语能学编程吗?0基础学编程什么软件好?

不会英语能学编程吗?0基础学编程什么软件好? 给大家分享一款中文编程工具,零基础轻松学编程,不需英语基础,编程工具可下载。 这款工具不但可以连接部分硬件,而且可以开发大型的软件,象如图这个…

【数据分享】1961—2022年全国范围的逐日降水栅格数据

降水数据是我们在各项研究中最常用的气象指标之一!之前我们给大家分享过来源于国家青藏高原科学数据中心发布的1901-2022年1km分辨率逐月降水栅格数据以及1901-2022年1km分辨率逐年降水栅格数据(均可戳我跳转)!很多小伙伴拿到数据…

OpenCV基础应用(4)— 如何改变图像的透明度

前言:Hello大家好,我是小哥谈。本节课就手把手教你如何改变图像的透明度,希望大家学习之后能够有所收获~!🌈 目录 🚀1.技术介绍 🚀2.实现代码 🚀1.技术介绍 改变图像透明度的实…

Linux C 线程间同步机制

线程间同步机制 概述保护机制互斥锁创建互斥锁  pthread_mutex_init加锁  pthread_mutex_lock解锁  pthread_mutex_unlock删除锁  pthread_mutex_destroy 条件变量创建条件变量  pthread_cond_init激活条件变量  pthread_cond_signal等待条件变量  pthread_cond_…

媒体行业的3D建模:在影视中创造特效纹理

在线工具推荐: 三维数字孪生场景工具 - GLTF/GLB在线编辑器 - Three.js AI自动纹理化开发 - YOLO 虚幻合成数据生成器 - 3D模型在线转换 - 3D模型预览图生成服务 在本文中,我们将探讨 3D 建模在媒体行业中的作用,特别是它在影视特效创作…

某60工业互联网安全测试技术学习记录

系列文章目录 文章目录 系列文章目录前言工业互联网安全测试技术安全工具分类常用安全工具介绍 主机安全测试5.1 主机安全测试概览5.2 通用主机安全测试技术主机信息扫描 5.3 Linux主机安全测试5.4 Android 安全测试5.5 Windows主机安全测试5.6 UNIX 主机安全测试 工业渗透测试…