【AI视野·今日Sound 声学论文速览 第三十九期】Tue, 2 Jan 2024

AI视野·今日CS.Sound 声学论文速览
Tue, 2 Jan 2024
Totally 7 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Enhancing Pre-trained ASR System Fine-tuning for Dysarthric Speech Recognition using Adversarial Data Augmentation
Authors Huimeng Wang, Zengrui Jin, Mengzhe Geng, Shujie Hu, Guinan Li, Tianzi Wang, Haoning Xu, Xunying Liu
迄今为止,构音障碍语音的自动识别仍然是一项极具挑战性的任务。神经运动状况和同时发生的身体残疾给 ASR 系统开发的大规模数据收集带来了困难。通过数据密集型参数微调,使 SSL 预训练的 ASR 模型适应有限的构音障碍语音,会导致泛化能力较差。为此,本文对各种数据增强方法进行了广泛的比较研究,以提高预训练的 ASR 模型对构音障碍语音进行微调的鲁棒性。这些包括对受损语音的传统说话人独立扰动、与说话人相关的速度扰动、或基于 GAN 的正常控制语音的对抗性扰动(基于与并行构音障碍语音的时间对齐)、基于谱基础的 GAN 对非并行数据进行对抗性数据增强。在 UASpeech 语料库上进行的实验表明,基于 GAN 的数据增强始终优于微调的 Wav2vec2.0 和 HuBERT 模型,在不同的数据扩展操作点上不使用数据增强和速度扰动,字错误率 WER 降低了统计显着性,分别达到 2.01 和 0.96 绝对值 9.03 和4.63 相对于 16 个构音障碍说话者的 UASpeech 测试集。

E-chat: Emotion-sensitive Spoken Dialogue System with Large Language Models
Authors Hongfei Xue, Yuhao Liang, Bingshen Mu, Shiliang Zhang, Qian Chen, Lei Xie
本研究重点关注人机语音交互中的情感敏感口语对话。随着大型语言模型法学硕士的进步,对话系统可以处理包括音频在内的多模态数据。最近的模型通过整合各种音频事件增强了对复杂音频信号的理解。然而,他们无法根据情绪化的言语产生适当的反应。为了解决这个问题,我们引入了情感聊天模型 E 聊天,这是一种新颖的口语对话系统,能够理解并响应语音传达的情感。该模型利用语音编码器提取的情感嵌入,并结合 LLM,使其能够根据不同的情感上下文做出响应。此外,我们还介绍了 E chat200 数据集,该数据集专为情感敏感的口语对话而设计。

Sounding Out Reconstruction Error-Based Evaluation of Generative Models of Expressive Performance
Authors Silvan David Peter, Carlos Eduardo Cancino Chac n, Emmanouil Karystinaios, Gerhard Widmer
通常通过将其预测与参考人类演奏进行比较来评估富有表现力的钢琴演奏的生成模型。如果生成算法产生的性能更接近人类参考性能,则该生成算法被认为比竞争算法更好。然而,专业的人类表演者可以并且确实以不同的方式解释音乐,从而提供不同的可能参考,并且定量的接近度不一定与感知相似性一致,这引发了人们对这种评估方法有效性的担忧。在这项工作中,我们提出了一些实验来阐明这个问题。使用精确测量的古典钢琴音乐的高质量演奏,我们进行了听力测试,结果表明听众有时可以察觉到在定量评估中被忽视的细微演奏差异。我们进一步提出的测试表明,这种评估框架在不同的参考表演和作品中表现出可靠性和有效性的很大差异。

Online Symbolic Music Alignment with Offline Reinforcement Learning
Authors Silvan David Peter
符号音乐对齐是将演奏的 MIDI 音符与相应乐谱音符进行匹配的过程。在本文中,我们介绍了一种基于强化学习的在线符号音乐对齐技术。强化学习代理是一种基于注意力的神经网络,根据本地得分和表现上下文迭代地估计当前得分位置。对于这个符号对齐任务,可以对环境状态进行详尽的采样,并且奖励是密集的,从而将公式呈现为简化的离线强化学习问题。我们通过三种方式评估训练有素的代理。首先,它能够为采样的测试上下文识别正确的乐谱位置;其次,作为符号在线音符对齐的完整算法的核心技术;最后,作为实时符号乐谱跟随器。我们进一步研究用作代理输入的基于音高的分数和表现表示。为此,我们开发了第二个模型,即基于两步动态时间规整 DTW 的离线对齐算法,利用相同的输入表示。

AI and Tempo Estimation: A Review
Authors Geoff Luck
作者在本文中的目标是探索如何利用人工智能来帮助我们理解和大规模估计音乐创造力和音乐节奏的关键方面的能力。节奏对音乐创造力的核心重要性可以体现在如何使用它来表达特定的情感 Eerola 和 Vuoskoski 2013 、提出特定的音乐风格 Li 和 Chan 2011 、影响表达的感知 Webster 和 Weir 2005 以及调解移动的冲动。身体随着音乐的节奏伯格等人。 2014年。传统的节奏估计方法通常使用振幅包络的某种形式的自相关来检测反映音乐的潜在节奏结构的信号周期性Lartillot and Toiviainen 2007。最近,基于人工智能的方法利用卷积或循环神经网络 CNN、RNN 来表示音频信号的频谱,其准确性得到了显着提高 Aarabi 和 Peeters 2022。常见的基于人工智能的技术包括基于概率的技术(例如贝叶斯方法、隐马尔可夫模型 HMM)、分类和统计学习(例如支持向量机 SVM)以及人工神经网络 ANN(例如自组织映射 SOM、CNN、RNN、深度学习 DL)。本文的目的是概述一些更常见的基于人工智能的节奏估计算法,并阐明每种算法的显着优点和潜在缺点。

Ultraspherical/Gegenbauer polynomials to unify 2D/3D Ambisonic directivity designs
Authors Franz Zotter
这份关于轴对称超球面 Gegenbauer 多项式及其在 2D 和 3D 立体混响指向性设计中的应用的报告提出了另一种数学形式,可以在我和 Matthias Frank 的 Ambisonics 书籍或 J r me Daniel 的论文(Gary Elko)中阅读。

Boosting Large Language Model for Speech Synthesis: An Empirical Study
Authors Hongkun Hao, Long Zhou, Shujie Liu, Jinyu Li, Shujie Hu, Rui Wang, Furu Wei
大型语言模型法学硕士在自然语言处理方面取得了重大进展,同时将语言能力扩展到其他模式,例如语音和视觉。然而,之前的大部分工作都集中在培养法学硕士的听觉理解等感知能力,而增强法学硕士语音合成能力的有效方法仍然不明确。在本文中,我们通过结合预训练的LLM LLaMA OPT和文本到语音合成模型VALL E,对提升LLM生成语音的能力进行了全面的实证探索。我们比较了LLM和语音合成模型之间的三种集成方法,包括直接微调 LLM、LLM 和 VALL E 的叠加层,以及使用 LLM 作为强大的文本编码器耦合 LLM 和 VALL E。实验结果表明,直接使用LoRA方法微调LLM来提升语音合成能力的效果并不理想,而叠加LLM和VALL E可以在说话人相似度和误词率WER两方面提高生成语音的质量。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/295987.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据安全保护体系的设计原则

目录 引言 数据的分类分级原则 数据的分类分级是个长期且动态的过程 数据的分类分级应结合实际应用和业务特性 建立数据分类分级制度和体系也是非常重要的 最小化原则 企业需要对数据访问的用户进行身份验证 企业需要明确用户访问数据的目的是什么 企业需要梳理数据访问…

CentOS 7 安装 PPTP

环境: 阿里云试用机: 外网IP:114.55.80.150 内网IP:172.28.11.92 一、服务器安装 PPTP 1、安装 yum install epel-release -y 2、安装pptp yum install pptpd iptables-services -y 3、修改配置 vim /etc/pptpd.conf# 最…

DS|二叉树

题目一:DS二叉树 -- 二叉树构建与遍历 题目描述: 给定一颗二叉树的逻辑结构如下图,(先序遍历的结果,空树用字符‘#’表示,例如AB#C##D##),建立该二叉树的二叉链式存储结构&#xf…

【面试高频算法解析】算法练习5 深度优先搜索

前言 本专栏旨在通过分类学习算法,使您能够牢固掌握不同算法的理论要点。通过策略性地练习精选的经典题目,帮助您深度理解每种算法,避免出现刷了很多算法题,还是一知半解的状态 专栏导航 二分查找回溯(Backtracking&…

【代码随想录】刷题笔记Day46

前言 刚考完自辩,Chat回答举例什么的真方便。早上做组会PPT去了,火速来刷题! 139. 单词拆分 - 力扣(LeetCode) 单词是物品,字符串s是背包,单词能否组成字符串s,就是问物品能不能把…

1.3进制,码(8421),化简规则、卡诺图化简、性质,触发器(转换与设计、应用),电路图,电路设计

十进制与原码、反码、补码之间的转换 正数的原码、反码、补码相同,符号位为0 负数的原码为、符号位1,二进制数 反码,符号位不变、其它取反, 补码为:反码最低有效位1 运算 卡诺图化简 奇偶校验码 检查1的个数&…

使用CentOS 7.6搭建HTTP隧道代理服务器

在现代网络环境中,HTTP隧道代理服务器因其灵活性和安全性而受到广泛关注。CentOS 7.6,作为一个稳定且功能强大的Linux发行版,为搭建此类服务器提供了坚实的基础。 首先,我们需要明确HTTP隧道代理的基本原理。HTTP隧道代理允许客户…

字节填充与0比特填充以及数据链路的基本问题

目录 字节填充: 比特填充: 数据链路有三个基本问题 1.封装成帧 2.透明传输 3.差错检测 首先介绍一下PPP的帧结构: 首部的第一个字段和尾部的第二个字段都是标志字段F(Flag),规定为0x7E (符号“0x”表示它后面的字符是用十六…

python练习3【题解///考点列出///错题改正】

一、单选题 1.【单选题】 ——可迭代对象 下列哪个选项是可迭代对象( D)? A.(1,2,3,4,5) B.[2,3,4,5,6] C.{a:3,b:5} D.以上全部 知识点补充——【可迭代对象】 可迭代对象(iterable)是指可以通过迭代&#xff…

发票信息提取v1.2.0

程序介绍 “发票信息提取”是一款用于提取电子发票的PDF、XML文件中的开票信息到excel表格的软件,无需联网及进行复杂配置,打开即用。目前支持增值税电子发票(非数电票)原始PDF文件,及数电票的XML文件。 更新内容 增加…

【I2C】i2c-tools工具使用,以及开发调试

i2c调试 eeprom 手动创建eeprom设备调试,例如0x50 是FRU的地址,i2c-3是bus 创建设备 echo 24c32 0x50 > /sys/bus/i2c/devices/i2c-4/new_device如果设备正确,将成功被创建,并且生成/sys/bus/i2c/devices/4-0050/eeprom&am…

智能语音机器人NXCallbot

受出海公司业务全球化的影响,智能客服逐渐从便捷应用变为市场刚需。新基建七大领域中,人工智能及场景应用的基础建设是最核心的领域,而智能客服作为商业化实际应用的核心场景之一,能提升企业运营效率,为行业客户赋能。…

智能分析网关V4在工业园区周界防范场景中的应用

一、背景需求分析 在工业产业园、化工园或生产制造园区中,周界防范意义重大,对园区的安全起到重要的作用。常规的安防方式是采用人员巡查,人力投入成本大而且效率低。周界一旦被破坏或入侵,会影响园区人员和资产安全,对…

“编程界的隐形斗篷:C语言作用域与生命周期的喜怒哀乐”

少年们,大家好。我是博主那一脸阳光。 前言:理解C语言作用域与生命周期,犹如掌握了变量在程序中的“活动地带”与“存活时刻”,有助于避免数据冲突、优化内存使用、提升代码质量和模块化程度,增强程序稳定性和安全性…

windows下使用PowerShell切割大数据文件

测试文件为24.4G文件 打开PowerShell窗口,使用以下命令 $filePath 为指向文件路径 $outputPath 输出到指定文件夹 $chunkSize 单个文件控制切割大小 将命令修改完后,直接粘贴到powershell窗口,点击回车即可进行切割 $filePath "D:\…

软件测试|SQL TOP提取顶部数据该如何使用?

简介 在SQL查询语言中,TOP子句是一个非常有用的功能,它允许我们从数据库中提取指定数量的顶部数据记录。本文将深入探讨SQL TOP子句的使用方法,以及在实际应用中的一些常见场景和技巧。 SQL TOP SQL是一种用于管理和操作关系型数据库的强大…

AJAX(三)跨域

一、同源策略 同源策略最早由Netscape公司提出,是浏览器的一种安全策略。 同源:协议、域名、端口号必须完全相同。(同一个来源) 违背同源策略就是跨域。 AJAX发送请求时是默认要遵循同源策略的,不是同源策略&#…

YOLOv8改进 | Neck篇 | 利用ASF-YOLO改进特征融合层(适用于分割和目标检测)

一、本文介绍 本文给大家带来的改进机制是ASF-YOLO(发布于2023.12月份的最新机制),其是特别设计用于细胞实例分割。这个模型通过结合空间和尺度特征,提高了在处理细胞图像时的准确性和速度。在实验中,ASF-YOLO在2018年数据科学竞赛数据集上取得了卓越的分割准确性和速度,…

C 程序员进阶之路常备口袋的 10 个宝藏

虽然 Java 和 Python 等更现代的语言公认容易学习,但 C 基本上都是大学计算机类相关课程的入门语言。为什么?这。。。 C 语言的重要性,有很多理由可以说服你。最重要的还是因为学习 C 是以后学习更高级语言的良好基础,绝大部分现…

mysql5.7安装-windows安装版本

下载地址 官网地址:https://www.mysql.com/官网下载地址:https://dev.mysql.com/downloads/mysql/阿里云镜像站下载:https://mirrors.aliyun.com/mysql/华为云镜像站地址:https://mirrors.huaweicloud.com/home华为云镜像站下载:https://mirrors.huaweicloud.com/mysql/Downlo…