【AI视野·今日Sound 声学论文速览 第三十六期】Mon, 30 Oct 2023

AI视野·今日CS.Sound 声学论文速览
Mon, 30 Oct 2023
Totally 7 papers
👉上期速览✈更多精彩请移步主页

在这里插入图片描述

Daily Sound Papers

Style Description based Text-to-Speech with Conditional Prosodic Layer Normalization based Diffusion GAN
Authors Neeraj Kumar, Ankur Narang, Brejesh Lall
在本文中,我们提出了一种基于扩散 GAN 的方法 Prosodic Diff TTS,根据风格描述和内容文本作为输入生成相应的高保真语音,从而仅在 4 个去噪步骤内生成语音样本。它利用新颖的条件韵律层归一化将风格嵌入合并到基于多头注意的音素编码器和基于梅尔频谱图解码器的生成器架构中以生成语音。风格嵌入是通过在音调、语速、情感、性别分类等辅助任务上微调预训练的 BERT 模型来生成的。

Whisper-MCE: Whisper Model Finetuned for Better Performance with Mixed Languages
Authors Peng Xie, XingYuan Liu, ZiWei Chen, Kani Chen, Yang Wang
最近,Whisper 在英语自动语音识别 ASR 方面的鲁棒性和准确性已接近人类水平,而在小语种和混合语言语音识别方面,仍然迫切需要进一步改进。在这项工作中,我们展示了 Whisper MCE 的令人印象深刻的结果,这是我们经过微调的 Whisper 模型,该模型是使用我们自己收集的数据集、粤语和英语混合音频数据集 MCE 进行训练的。同时,考虑到单词错误率 WER 在评估其在小语种和混合语言环境中的有效性时提出了挑战,我们提出了一种新颖的评级机制。通过将我们的模型与基线 Whisper Large v2 模型进行比较,我们展示了其准确捕获原始音频内容的卓越能力,实现了更高的识别精度,并表现出更快的识别速度。

Enabling Acoustic Audience Feedback in Large Virtual Events
Authors Tamay Aykut, Markus Hofbauer, Christopher Kuhn, Eckehard Steinbach, Bernd Girod
COVID 19 大流行将我们日常生活中的许多事件转移到了虚拟领域。虽然虚拟会议系统提供了实体会议的替代方案,但大型活动需要静音观众,以避免背景噪音和音频失真的累积。然而,表演艺术家强烈依赖观众的反馈。我们提出了一个虚拟观众框架的概念,该框架为所有参与者提供真实观众的氛围。本地收集观众反馈,允许用户通过选择鼓掌、吹口哨、嘘声、笑声等方式来表达热情或不满。该反馈作为抽象信息发送到虚拟观众服务器。我们向所有参与者广播组合的虚拟观众反馈信息,这些信息可以由客户合成为单个声音反馈。可以通过将观众的集体反馈转化为提示来完成合成,然后将提示输入到 AudioGen 等最先进的模型中。

Unified Segment-to-Segment Framework for Simultaneous Sequence Generation
Authors Shaolei Zhang, Yang Feng
同时序列生成是实时场景的关键任务,例如流式语音识别、同步机器翻译和同步语音翻译,其中目标序列是在接收源序列的同时生成的。实现低延迟高质量生成的关键在于确定生成的最佳时刻,这是通过学习源序列和目标序列之间的映射来完成的。然而,现有方法通常依赖于针对不同序列类型的特定于任务的启发式方法,限制了模型自适应学习源目标映射的能力,并阻碍了对各种同时任务的多任务学习的探索。在本文中,我们提出了一个用于同时序列生成的统一分段到分段框架 Seg2Seg,它以自适应和统一的方式学习映射。在同时生成的过程中,模型在等待源段和生成目标段之间交替,使该段成为源和目标之间的天然桥梁。为了实现这一目标,Seg2Seg 引入了一个潜在片段作为源到目标之间的枢轴,并通过建议的期望训练探索所有潜在的源目标映射,从而学习生成的最佳时刻。

TorchAudio 2.1: Advancing speech recognition, self-supervised learning, and audio processing components for PyTorch
Authors Jeff Hwang, Moto Hira, Caroline Chen, Xiaohui Zhang, Zhaoheng Ni, Guangzhi Sun, Pingchuan Ma, Ruizhe Huang, Vineel Pratap, Yuekai Zhang, Anurag Kumar, Chin Yun Yu, Chuang Zhu, Chunxi Liu, Jacob Kahn, Mirco Ravanelli, Peng Sun, Shinji Watanabe, Yangyang Shi, Yumeng Tao, Robin Scheibler, Samuele Cornell, Sean Kim, Stavros Petridis
TorchAudio 是一个为 PyTorch 构建的开源音频和语音处理库。它旨在通过提供设计良好、易于使用且高性能的 PyTorch 组件来加速音频和语音技术的研究和开发。其贡献者定期与用户互动,了解他们的需求并通过开发有影响力的功能来满足他们。在这里,我们概述了 TorchAudio 的开发原理和内容,并重点介绍了我们在最新版本 2.1 自监督学习预训练管道和训练配方、高性能 CTC 解码器、语音识别模型和训练配方、高级媒体 I O 功能和工具中包含的关键功能用于执行强制对齐、多通道语音增强和无参考语音评估。

Early Detection of Tuberculosis with Machine Learning Cough Audio Analysis: Towards More Accessible Global Triaging Usage
Authors Chandra Suda
结核病 TB 是一种主要影响肺部的细菌性疾病,是全世界导致死亡的主要原因之一。为了防止结核病在体内传播并导致危及生命的并发症,及时有效的抗结核治疗至关重要。咳嗽是结核病的客观生物标志物,是一种分类工具,可监测治疗反应并随着治疗的成功而消退。目前结核病诊断的黄金标准进展缓慢或难以实现,特别是在结核病最流行的农村地区。此外,当前的机器学习 ML 诊断研究(例如利用胸部 X 光片)效率低下,并且无法监测治疗进展。为了实现有效诊断,开发了一个集成模型,该模型使用新颖的机器学习架构分析智能手机麦克风的咳嗽声流行病学,以检测结核病。该架构包括 2D CNN 和 XGBoost,它们接受了来自 7 个国家的 724,964 个咳嗽音频样本和人口统计数据的训练。经过特征提取Mel谱图和数据增强IR卷积后,该模型在接收算子特征下的AUROC面积达到88,超过了WHO对筛选测试的要求。 15 秒内即可获得结果,并且可以通过移动应用程序轻松访问。

Music Recommendation Based on Audio Fingerprint
Authors Diego Salda a Ulloa
这项工作结合了不同的音频特征,以获得更强大的指纹,用于音乐推荐过程。这些方法的组合产生了高维向量。为了减少值的数量,将 PCA 应用于所得指纹集,选择与解释方差 95 相对应的主成分数量。最后,利用这些PCA指纹,计算每个指纹与整个数据集的相似度矩阵。该过程适用于个人音乐库中的 200 首歌曲,这些歌曲都标有艺术家相应的流派。如果推荐的歌曲类型与目标歌曲类型匹配,则具有最相似相似性的歌曲的推荐指纹被评为成功。

Chinese Abs From Machine Translation

Papers from arxiv.org

更多精彩请移步主页


pic from pexels.com

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/159525.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

湖科大计网:网络层

一、网络层概述 一、基本概念 网络层的主要任务是实现网络互连,进而实现数据包在各网络之间传输。 若只有单个网络,只需要物理层和数据链路层即可。 不同的异构网络需要路由器将其互连,路由器的每一个接口代表一个不同的网络,也区…

Windows安装nvm【node.js版本管理工具】

目录 下载安装包 安装 配置 配置node的国内镜像源 配置npm的国内镜像源 常用命令 查看可安装的node版本 安装指定的版本 查看已有的node版本列表 切换版本 下载安装包 https://github.com/coreybutler/nvm-windows/releases/tag/1.1.11 安装 安装过程就不贴了&#xff0…

leetcode刷题日志-14最长公共前缀

编写一个函数来查找字符串数组中的最长公共前缀。 如果不存在公共前缀,返回空字符串 “”。 示例 1: 输入:strs [“flower”,“flow”,“flight”] 输出:“fl” 示例 2: 输入:strs [“dog”,“raceca…

Java进阶笔记(面向对象后, 持续更新)

常用API 游戏打包成exe 考虑的因素 要有图形化界面代码要打包起来游戏用到的图片也要打包JDK也要打包 核心步骤 把所有代码打包成一个压缩包, jar后缀的压缩包把jar包转换成exe安装包把第二部的exe, 图片, JDK整合在一起, 变成最终的exe安装包 1. Math 是一个帮助我们用…

Android Studio 写一个Java调用c++ 的demo

前提条件: 本地已经配置好了ndk环境,如果没有配置好,建议参考macos 配置ndk环境-CSDN博客 这篇链接。 新建一个Empty Project 比如我这里的Project的名字是HelloJNI,包名是com.example.hellojni 然后在src目录下,右键选择Add C …

解决Requests中使用httpbin服务器问题:自定义URL的实现与验证

问题背景 在使用Python的Requests模块进行单元测试时,可能会遇到无法使用本地运行的httpbin服务器进行测试的问题。这是因为测试脚本允许通过环境变量HTTPBIN_URL指定用于测试的本地httpbin实例,但在某些测试用例中,URL是硬编码为httpbin.or…

SpringCloud -Token传递之Feign

目录 方法一 RequestHeader 方法二 使用Feign的Interceptor 步骤一 实现RequestInterceptor接口 步骤二:配置Feign 通常微服务对于用户认证信息解析有两种方案 在 gateway 就解析用户的 token 然后路由的时候把 userId 等相关信息添加到 header 中传递下去。在…

提取纯色马赛克

​​​​​​ 图像预处理 将彩色图像加载到内存。 转换图像为灰度图像,以简化处理。 对灰度图像应用二值化处理,将图像中的纯色区域分为前景和背景。这可以使用阈值处理来完成。 轮廓检测 使用轮廓检测算法,例如OpenCV的 findContours 函数&…

vite+vue3+electron开发环境搭建

环境 node 18.14.2 yarn 1.22 项目创建 yarn create vite test01安装vue环境 cd test01 yarn yarn dev说明vue环境搭建成功 安装electron # 因为有的版本会报错所以指定了版本 yarn add electron26.1.0 -D安装vite-plugin-electron yarn add -D vite-plugin-electron根目…

〖大前端 - 基础入门三大核心之JS篇㊱〗- JavaScript 的DOM节点操作

说明:该文属于 大前端全栈架构白宝书专栏,目前阶段免费,如需要项目实战或者是体系化资源,文末名片加V!作者:不渴望力量的哈士奇(哈哥),十余年工作经验, 从事过全栈研发、产品经理等工作&#xf…

专注于绘画,不受限制!尝试Growly Draw for Mac的快速绘画应用

Growly Draw Mac版是Mac平台上的一款绘画应用,它提供了简单易用的画板页面和多种色彩、画笔工具,让你可以轻松地完成作画。无论你是初学者还是专业人士,都可以在这款应用中找到适合自己的绘画方式。通过使用Growly Draw Mac版,你可…

ChatGPT + DALL·E 3

参考链接: https://chat.xutongbao.top/

基于R语言平台Biomod2模型的物种分布建模与可视化分析

!](https://img-blog.csdnimg.cn/84e1cc8c7f9b4b6ab60903ffa17d82f0.jpeg#pic_center)

​软考-高级-系统架构设计师教程(清华第2版)【第11章 未来信息综合技术(P384~P419)-思维导图】​

软考-高级-系统架构设计师教程(清华第2版)【第11章 未来信息综合技术(P384~P419)-思维导图】 课本里章节里所有蓝色字体的思维导图

Pandas 累计统计函数【cumsum、cumprod、cummax、cummin】【计算前1/2/3/…/n个数的和、积、最大值、最小值】

一、累计统计函数 函数作用cumsum计算前1/2/3/…/n个数的和cummax计算前1/2/3/…/n个数的最大值cummin计算前1/2/3/…/n个数的最小值cumprod计算前1/2/3/…/n个数的积 import numpy as np import pandas as pd# np.nan :空值 df pd.DataFrame({key1: np.arange(1…

LLM大模型 (chatgpt) 在搜索和推荐上的应用

目录 1 大模型在搜索的应用1.1 召回1.1.1 倒排索引1.1.2 倒排索引存在的问题1.1.3 大模型在搜索召回的应用 (实体倒排索引) 1.2 排序1.2.1 大模型在搜索排序应用(融入LLM实体排序) 2 大模型在推荐的应用2.1 学术界关于大模型在推荐的研究2.2 …

HttpClient示例

HttpClient官网 HttpClient - HttpClient Home 每个对应版本都有 快速开始的示例 maven项目 pom依赖 <dependencies><dependency><groupId>org.apache.httpcomponents</groupId><artifactId>httpclient</artifactId><version>4.5.…

智能指针面试题

智能指针被问到的概率还是很大的&#xff0c;特别是Shared_ptr&#xff0c;最好会手撕&#xff0c;亲身经历&#xff01; 基本概念 1. RAll RAII&#xff08;Resource Acquisition Is Initialization&#xff09;是一种利用对象生命周期来控制程序资源&#xff08;如内存、文…

(七)什么是Vite——vite优劣势、命令

vite分享ppt&#xff0c;感兴趣的可以下载&#xff1a; ​​​​​​​Vite分享、原理介绍ppt 什么是vite系列目录&#xff1a; &#xff08;一&#xff09;什么是Vite——vite介绍与使用-CSDN博客 &#xff08;二&#xff09;什么是Vite——Vite 和 Webpack 区别&#xff0…

Python入门学习篇(一)——注释变量输入输出

1 注释 1.1 作用 a 方便他人和自己阅读代码 b 告诉编译器这部分内容是不用执行的。1.2 单行注释 # 注释内容1.3 多行注释(引号) 1.3.1 三对双引号 """ 注释内容 """1.3.2 三对单引号 注释内容 1.4 pycharm快捷键使用 ctrl/ 多行注释(以# …