【AI视野·今日Sound 声学论文速览 第四十二期】Fri, 5 Jan 2024

AI视野·今日CS.Sound 声学论文速览
Fri, 5 Jan 2024
Totally 10 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

PosCUDA: Position based Convolution for Unlearnable Audio Datasets
Authors Vignesh Gokul, Shlomo Dubnov
深度学习模型需要大量干净的数据才能获得良好的性能。为了避免昂贵的数据采集成本,研究人员使用互联网上提供的丰富数据。这引发了严重的隐私问题,即未经授权可能滥用个人数据进行模型训练。最近的工作(例如 CUDA)提出了这个问题的解决方案,通过添加类模糊来使数据集变得不可学习,即模型永远不能使用获取的数据集进行学习。然而,这些方法通常会降低数据的质量,使其在实际应用中毫无用处。我们引入了 PosCUDA,一种基于位置的卷积,用于创建不可学习的音频数据集。 PosCUDA 在小块音频上使用类明智卷积。补丁的位置基于每个类的私钥,因此模型学习位置模糊和标签之间的关系,但无法泛化。我们凭经验证明 PosCUDA 可以在保持原始音频数据集质量的同时实现不可学习性。

Enhancing Zero-Shot Multi-Speaker TTS with Negated Speaker Representations
Authors Yejin Jeon, Yunsu Kim, Gary Geunbae Lee
零样本多扬声器 TTS 旨在将语音与所选目标扬声器的声音进行合成,而无需任何微调。然而,流行的方法在适应域外设置的新说话人方面遇到了限制,这主要是由于说话人解缠不充分和内容泄漏。为了克服这些限制,我们提出了一种创新的否定特征学习范例,该范例通过利用减法运算将解耦的说话人属性建模为与完整音频表示的偏差。通过从说话者表示中消除多余的内容信息,我们的否定方案不仅减轻了内容泄漏,从而增强了合成的鲁棒性,而且还提高了说话者的保真度。此外,为了促进不同说话者属性的学习,我们利用多流 Transformer,它保留多个假设并发起类似于集成学习的训练范例。为了统一这些假设并实现最终的说话人表示,我们采用了注意力池。最后,鉴于以所需语音生成目标文本话语的必要性,我们采用自适应层归一化来有效地将先前生成的说话者表示与目标文本表示融合,而不是仅仅连接文本和音频模态。

Generating Rhythm Game Music with Jukebox
Authors Nicholas Yan
音乐一直被认为是人类的努力,当赞美一首音乐时,我们强调作曲家的创造力和音乐所唤起的情感。由于音乐也严重依赖于反复出现的旋律主题和和弦进行形式的模式和重复,因此人工智能越来越能够以类似人类的方式复制音乐。这项研究调查了 Jukebox(一种开源商用神经网络)的能力,以准确复制节奏游戏中常见的两种音乐类型:艺术核心音乐和管弦乐。 Google Colab 笔记本提供了采样和扩展两种流派的总共 16 种钢琴编曲所需的计算资源。一项包含选定样本的调查被分发给当地的一个青年管弦乐队,以衡量人们对人工智能和人类生成的音乐的音乐性的看法。尽管人类更喜欢人类生成的音乐,但 Jukebox 的稍高评级表明它在某种程度上能够模仿这两种流派的风格。

Task Oriented Dialogue as a Catalyst for Self-Supervised Automatic Speech Recognition
Authors David M. Chan, Shalini Ghosh, Hitesh Tulsiani, Ariya Rastrow, Bj rn Hoffmeister
尽管自动语音识别 ASR 系统的单词错误率持续下降,但基于 ASR 系统构建的自然语言理解 NLU 应用程序仍然将大量失败归因于低质量的语音识别结果。现有的助理系统收集大量此类不成功的交互,但这些系统通常无法从这些交互中学习,即使是以离线方式也是如此。在这项工作中,我们介绍了 CLC 对话对比学习,这是一系列以自我监督的方式对模型进行对比微调的方法,利用与助手不成功的对话中容易检测到的伪影。我们证明,我们的 CLC 系列方法可以将 OD3(面向音频任务的对话的新公共大规模半合成元数据集)上 ASR 模型的性能提高高达 19.2 。这些收益也转移到现实世界的系统中,我们表明 CLC 可以帮助将性能比基线提高多达 6.7 个。

Direction of Arrival Estimation Using Microphone Array Processing for Moving Humanoid Robots
Authors Vladimir Tourbabin, Boaz Rafaely
近年来,人形机器人的听觉系统受到越来越多的关注。该系统通常通过麦克风阵列来获取周围的声场。然后使用各种方法处理阵列采集的信号。广泛应用的方法之一是到达方向估计。传统的到达方向估计方法假设在估计期间阵列固定在给定位置。然而,对于安装在移动人形机器人上的阵列来说,情况不一定如此。如果没有适当考虑阵列运动,可能会在估计的到达方向上引入显着的误差。当前的论文提出了一种考虑运动的信号模型。基于该模型,提出了两种处理方法。第一个补偿机器人的运动。第二种方法适用于周期性信号,并利用运动来将性能提高到超出固定阵列的水平。提供了数值模拟和实验研究,证明运动补偿方法几乎消除了与运动相关的误差。

Optimal Real-Weighted Beamforming With Application to Linear and Spherical Arrays
Authors V. Tourbabin, M. Agmon, B. Rafaely, J. Tabrikian
传感器阵列的用途之一是用于空间滤波或波束形成。当前的数字信号处理方法有利于复杂的加权波束形成,为阵列设计提供了灵活性。先前的研究提出使用实值波束成形权重,虽然降低了设计的灵活性,但可以提供一系列好处,例如简化的波束成形器实现或高效的波束成形算法。本文提出了一种设计具有实值权重的数组的新方法,该方法实现了最大方向性,为数组权重提供了封闭形式的解决方案。该方法针对线性和球形阵列进行了研究,结果表明,刚性球形阵列特别适合实重设计,因为它们不会受到栅瓣的影响,而栅瓣是具有实重的线性阵列的主要特征。

Listening broadband physical model for microphones: a first step
Authors Laurent Millot IDEAT , Antoine Valette, Manuel Lopes, G rard Pel IDEAT , Mohammed Elliq, Dominique Lambert IDEAT
我们将展示麦克风宽带物理模型设计的第一步。在所提出的模型中,经典的方向性模式全向、双向和心形系列被重新发现为极限情况单色激励、低频和远场近似。单声道音乐片段被用作模型的源,因此我们可以通过 Max MSP 应用程序实时聆听相关录制声场的模拟。收听和子带分析表明方向性是频率子带和源位置的函数。该模型还表现出有趣的邻近效应。

PEFT for Speech: Unveiling Optimal Placement, Merging Strategies, and Ensemble Techniques
Authors Tzu Han Lin, How Shing Wang, Hao Yung Weng, Kuang Chen Peng, Zih Ching Chen, Hung yi Lee
参数高效微调 PEFT 越来越被认为是语音处理中的有效方法。然而,PEFT 方法的最佳方法和放置仍然没有定论。我们的研究进行了广泛的实验来比较不同的 PEFT 方法及其采用可微架构搜索 DARTS 的分层布局。我们还探索使用集成学习来利用不同的 PEFT 策略。结果表明,DARTS 的性能并不优于基线方法,后者涉及将相同的 PEFT 方法插入到自监督学习 SSL 模型的所有层中。相比之下,集成学习方法,特别是采用多数投票的方法,表现出优越的性能。我们的统计证据表明,不同的 PEFT 方法以不同的方式学习。

CLAPP: Contrastive Language-Audio Pre-training in Passive Underwater Vessel Classification
Authors Zeyu Li, Jingsheng Gao, Tong Yu, Suncheng Xiang, Jiacheng Ruan, Ting Liu, Yuzhuo Fu
现有的音频分类研究在识别被动水下船舶场景的属性方面面临挑战,并且由于数据隐私问题而缺乏注释良好的数据集。在本研究中,我们介绍了被动水下船舶分类中的 CLAPP 对比语言音频预训练,这是一种新颖的模型。我们的目标是使用从远洋船舶数据集中获得的各种船舶音频和船舶状态文本对来训练神经网络。 CLAPP 能够直接从原始船舶音频数据中学习,并在可用时从精心策划的标签中学习,从而提高对被动水下船舶场景中船舶属性的识别。模型的零射击功能允许预测给定船舶音频的最相关的船舶状态描述,而无需直接优化任务。我们的方法旨在解决船舶音频文本分类和被动水下船舶音频属性识别的两个挑战。

CTC Blank Triggered Dynamic Layer-Skipping for Efficient CTC-based Speech Recognition
Authors Junfeng Hou, Peiyao Wang, Jincheng Zhang, Meng Yang, Minwei Feng, Jingcheng Yin
尽管性能令人印象深刻,但在计算资源有限的情况下部署端到端语音识别模型仍然具有挑战性。鉴于模型规模的逐渐增加和模型应用的广泛,针对不同输入选择性地执行模型组件以提高推理效率非常有意义。在本文中,我们提出了一种动态跳层方法,该方法利用中间层的 CTC 空白输出来触发跳过具有高空白概率的帧的最后几个编码器层。此外,我们对CTC输出分布进行因子分解,并对中间层进行知识蒸馏,以减少计算量并提高识别精度。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/303268.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

1.8 day6 IO进程线程

使用有名管道实现两个进程之间的通信 进程A #include <myhead.h> int main(int argc, const char *argv[]) {//创建两个文件描述符用于打开两个管道int fd1-1;int fd2-1;//创建一个子进程int pid-1;if((fd1open("./mkfifo1",O_RDWR))-1){perror("open er…

java中常见的一些小知识(1)

1.数组转List 1.1. Arrays.asList public class Tesr {public static void main(String[] args) {String[] ary new String[]{ "1", "a"};List<String> list Arrays.asList((ary));list.add("ddsdsa");System.out.println(list);}}但是…

SCI一区级 | Matlab实现RIME-CNN-LSTM-Mutilhead-Attention多变量多步时序预测

SCI一区级 | Matlab实现RIME-CNN-LSTM-Mutilhead-Attention多变量多步时序预测 目录 SCI一区级 | Matlab实现RIME-CNN-LSTM-Mutilhead-Attention多变量多步时序预测预测效果基本介绍程序设计参考资料 预测效果 基本介绍 1.Matlab实现RIME-CNN-LSTM-Mutilhead-Attention霜冰算法…

简单几步,实现餐厅扫码点餐

越来越多的人选择外出就餐&#xff0c;而餐厅的点餐方式也随着科技的发展而不断进步。其中&#xff0c;扫码点餐是最为常见的一种方式&#xff0c;它不仅方便快捷&#xff0c;还能节省人力成本。本文将介绍一种简单易行的餐厅扫码点餐解决方案。 打开乔拓云平台&#xff0c;登录…

华为认证 | 这门HCIE认证正式发布!

华为认证openEuler专家HCIE-openEuler V1.0&#xff08;中文版&#xff09;自2023年12月29日起&#xff0c;正式在中国区发布。 01 发布概述 基于“平台生态”战略&#xff0c;围绕“云-管-端”协同的新ICT技术架构&#xff0c;华为公司打造了覆盖ICT领域的认证体系&#xff0…

【JavaSE】Java中的反射动态代理

本篇文章整理的内容来源于: 反射原理 文章目录 一. 动态代理1. 优点2. 动态代理三要素3. 创建代理对象并使用 二. 反射1. 什么是反射2. 获取字节码文件对象的三种方式(1) Class.forName()获取 (源代码阶段)(2) 通过class属性获取(3) 通过对象获取字节码文件对象 3. 获取构造方…

基于深度学习的停车位关键点检测系统(代码+原理)

摘要&#xff1a; DMPR-PS是一种基于深度学习的停车位检测系统&#xff0c;旨在实时监测和识别停车场中的停车位。该系统利用图像处理和分析技术&#xff0c;通过摄像头获取停车场的实时图像&#xff0c;并自动检测停车位的位置和状态。本文详细介绍了DMPR-PS系统的算法原理、…

django websocket实现聊天室功能

注意事项channel版本 django2.x 需要匹配安装 channels 2 django3.x 需要匹配安装 channels 3 Django3.2.4 channels3.0.3 Django3.2.* channels3.0.2 Django4.2 channles3.0.5 是因为最新版channels默认不带daphne服务器 直接用命令 python manage.py runsever 默认运行的是w…

数据库系统-甘晴void学习笔记

数据库系统笔记 计科210X 甘晴void 202108010XXX 教材&#xff1a;《数据库系统概论》第6版 &#xff08;图片来源于网络&#xff0c;侵删&#xff09; 文章目录 数据库系统<br>笔记第一篇 基础篇1 绪论1.1数据库系统概述1.2数据模型1.3数据库系统的结构(三级模式结构…

JSP内置对象:forward动作标记和sendRedirect()方法实现页面跳转的区别

1.forward为服务器跳转&#xff0c;浏览器的地址栏不变&#xff1b; sendRedirect&#xff08;&#xff09;为客户端跳转&#xff0c;浏览器的地址栏改变变新页面的URL。 2.执行到forward标记出现处停止当前JSP页面的继续执行&#xff0c;而转向标记中的page属性指定的页面&am…

k8s的三种发布方式

三种常见的发布方式 应用程序升级面临最大挑战是新旧业务切换&#xff0c;将软件从测试的最后阶段带到生产环境&#xff0c;同时要保证系统不间断提供服务。而最为常见三种发布方式分别为&#xff1a;蓝绿发布&#xff0c;灰度发布和滚动发布。 三种发布方式的最终目的都是为了…

12 月 NFT 市场动态:强劲增长塑造年终趋势

作者&#xff1a;stellafootprint.network 数据来源&#xff1a;NFT Research 12 月加密货币和 NFT 领域出现了显著的上涨趋势&#xff0c;比特币和以太坊价格的大幅上涨标志着市场的复苏。与此同时&#xff0c;NFT 领域的交易量飙升&#xff0c;独立用户&#xff08;钱包&am…

508基于51单片机的火灾检测与报警系统设计

基于51单片机的火灾检测与报警系统设计[proteus仿真] 火灾检测与报警系统这个题目算是课程设计和毕业设计中常见的题目了&#xff0c;本期是一个基于51单片机的火灾检测与报警系统设计 需要的源文件和程序的小伙伴可以关注公众号【阿目分享嵌入式】&#xff0c;赞赏任意文章 …

【开源硬件篇】STM32F103C8T6核心板

STM32F103C8T6核心板 文章目录 STM32F103C8T6核心板一、STM32F103C8T6芯片1.1 STM32F103C8T6简介1.2 芯片引脚说明 二、去耦电路2.1 原理图设计2.2 原理分析2.2.1 结论2.2.2 去耦效果图2.2.3 放置距离问题2.2.3 放置位置问题 2.3 PCB设计示例 三、晶振电路3.1 原理图设计3.2 原…

龙芯+RT-Thread+LVGL实战笔记(29)——电子琴弹奏

【写在前面】临近期末,笔者工作繁忙,因此本系列教程的更新频率有所放缓,还望订阅本专栏的朋友理解,请勿催更。笔者在此也简要声明几点: 有些硬件模块笔者并没有,如LED点阵、压力传感模块、RFID模块等,因此这些模块的相关任务暂时无法给出经过验证的代码。其实,教程进行…

uniapp地图兼容小程序和APP(高德地图),点击marker并弹框详情

1.uniapp地图页面兼容小程序和APP 2.小程序使用map组件APP使用高德地图 3.点击定位按钮地图自动移动到定位点 4.APP地图逻辑是视图层交互使用renderjs 5.点击地图marker弹框详情 6.全部代码 <template><page-meta :page-style"overflow:(show?hidden:visible)&…

视频号小店怎么上架商品?实操分享,干货满满!

我是电商珠珠 视频号小店从22年7月到现在也不过才发展了一年&#xff0c;它的风口才刚刚开始。 平台为了吸引商家入驻&#xff0c;会将大量红利向商家倾斜&#xff0c;只要把握住风口&#xff0c;就会很快起飞。 视频号小店对于很多人来说&#xff0c;都是新平台&#xff0c…

P9 视频码率及其码率控制方式

前言 从本章开始我们将要学习嵌入式音视频的学习了 &#xff0c;使用的瑞芯微的开发板 &#x1f3ac; 个人主页&#xff1a;ChenPi &#x1f43b;推荐专栏1: 《C_ChenPi的博客-CSDN博客》✨✨✨ &#x1f525; 推荐专栏2: 《Linux C应用编程&#xff08;概念类&#xff09;_C…

技术学习周刊第 1 期

2018 年参与过 1 年的 ARTS 打卡&#xff0c;也因为打卡有幸加入了 MegaEase 能与皓哥&#xff08;左耳朵耗子&#xff09;共事。时过境迁&#xff0c;皓哥已经不在了&#xff0c;自己的学习梳理习惯也荒废了一段时间。 2024 年没给自己定具体的目标&#xff0c;只要求自己好好…

Tomcat 的 work 目录缓存导致的JSP页面图片更新问题

一、问题分析 1. 修改后重新部署没有变化 笔者之前部署了一个后台管理项目&#xff0c;通过它来发布课程内容&#xff0c;其中有一个 JSP 课程页面&#xff0c;在该 JSP 页面里也引用了类文件 Constant.java 里的一个变量&#xff08;ALIYUN_OSS_PATH&#xff09;&#xff0c;…