SVDD(Singing Voice Deepfake Detection,歌声深度伪造检测)挑战2024

      随着AI生成的歌声快速进步,现在能够逼真地模仿自然人类的歌声并与乐谱无缝对接,这引起了艺术家和音乐产业的高度关注。歌声与说话声不同,由于其音乐性质和强烈的背景音乐存在,检测伪造的歌声成为了一个特殊的领域。

     SVDD挑战是首个专注于检测实验室控制和野外真实与伪造歌声录音的研究挑战。该挑战将在2024年IEEE口语语言技术研讨会(SLT 2024)上举行。

     挑战目标:SVDD挑战旨在汇集学术界和工业界的资源,开发出创新和有效的技术来检测伪造的歌声。

     挑战分为两个不同的轨道:控制环境(CtrSVDD)和野外环境(WildSVDD)。CtrSVDD使用无伴奏的歌声,而WildSVDD则包含背景音乐。CtrSVDD数据集在Zenodo上发布,WildSVDD数据集同样在Zenodo上发布,提供了训练和测试分区。

1、控制环境(CtrSVDD)

使用现有的14种歌声合成(SVS)和歌声转换(SVC)系统从真实的声乐剪辑生成深度伪造的歌声。这些系统包括ESPnet-Muskits、NNSVS、DiffSinger、ACESinger等。

测试集:SVDD Challenge 2024: A Singing Voice Deepfake Detection Challenge (CtrSVDD Track, Test Set)

训练及开发集:SVDD Challenge 2024: A Singing Voice Deepfake Detection Challenge (CtrSVDD Track, Training/Development Set)

  1. 2、野外环境(WildSVDD)

WildSVDD数据集通过从社交媒体平台收集数据来构建,类似于SingFake项目。数据集已经扩展到原始SingFake的大约两倍大小,包含了更多的歌手和歌曲。

CtrSVDD数据集SVDD Challenge 2024: A Singing Voice Deepfake Detection Challenge (WildSVDD Track)

  1. 3、基线系统架构图

挑战有两个基线系统:一个使用原始波形,另一个使用线性频率倒谱系数(LFCCs)作为前端特征。基线系统的架构如图所示

4、关键日期

2024年5月7日,CodaBench研究结果提交开放(根据请求访问)

2024年6月8日,SVDD挑战注册截止日期

2024年6月8日,SVDD挑战额外训练数据集许可请求截止日期

2024年6月8日,组织者发布所有可用的训练数据集

2024年6月15日,结果提交截止日期(结果&系统描述),CodaBench挑战提交关闭。结果将在CodaBench上公开,并电子邮件给参与者以官方确认。

5、歌声合成(SVS)和歌声转换(SVC)知名工具和模型

5.1 ESPnet-Muskits

ESPnet 是一个开源的音乐处理工具包,目前主要关注端到端歌声合成,Muskits 是 ESPnet 中用于歌声合成的一个扩展工具集。Muskits 采用pytorch作为深度学习引擎,遵循ESPnet和Kaldi风格的数据处理方式,以及配方来提供各种音乐的完整设置用于歌声的合成,包括声码器、声学模型和文本前端。它支持多种语言,并能够生成自然听起来的歌声。

5.2 NNSVS (Neural Network-based Singing Voice Synthesis)

NNSVS 是由日本名古屋大学提出的一个基于神经网络的歌声合成系统最新版本是nnsvs-world v4。它利用深度学习技术来模拟人类歌手的声音,并生成与音乐伴奏同步的歌声。NNSVS 通常包括音符特征提取、声码器和声音建模等组件。

5.3 DiffSinger

DiffSinger 是一个基于扩散机制的歌声合成模型,由中国科学院声学研究所提出。它通过模拟声音的物理生成过程来生成歌声,能够生成具有不同歌手特征的歌声。DiffSinger 的一个特点是它使用了一种浅层扩散机制,这使得它在生成歌声时能够保持较高的音质。在中文歌唱数据集上其技术性能和音乐表现力均优于现有声学模型

5.4 ACESinger

ACESinger 是由清华大学提出的一个歌声合成系统,它能够生成与音乐伴奏同步的歌声。ACESinger 采用了先进的深度学习技术,包括变分自编码器(VAE)和生成对抗网络(GAN),来生成自然且富有表现力的歌声。

6、数据共享工具相关资源

Zenodo是一个多学科研究产品储存库,支持各种内容,包括刊物、演示文稿、论文集、项目、图像、软件(包括与GitHub的集成)以及所有语言的数据,由欧洲核子研究组织 (European Organization for Nuclear Research, CERN) 维护。它对数据格式没有任何限制,最多可以存储50GB的数据。此储存库中数据可终身保存,可以采用封闭(只要未授权都无法访问)、开放或禁止(禁止期内无法访问)状态储存。

DataCite:DataCite成立于2009年,最初是一个国际合作组织,目的是为研究数据提供稳定的在线识别信息。DataCite的服务目的还包括为科学数据创建元数据(metadata)集,为用户分配DOI、增强数据搜索能力、与会员共同建立共享数据库和高效引用机制。它收集每个有DOI的元数据,结合成大型索引研究数据,这些数据可直接查询,让人查找数据和其他研究物件,正确引用数据,获取统计数据并探索连接。所有元数据都可自由访问和查看。DataCite 提供了一个集成的搜索界面,可以从数百万条记录中搜索、筛选和提取所有细节。该软件可用于跟踪与基金相关的数据,这点很重要,因为资助机构要求数据共享。此外,跟踪经费数据可以让资助机构更好地了解他们的资金所产生的影响。

Dryad:一个科学和医学论文数据储存库,让科研论文的数据可被发现,可自由重复使用和可引用。Dryad 可存储表格、电子表格、文本、视频、照片、软件代码和其他无储存库可保存的发表数据。Dryad 支持许多期刊的整合提交功能,因此当作者将数据与其发表的文章一起提交给 Dryad时,数据的链接也会包含在发表的文章中。Dyrad的目标用户是研究人员、期刊、科研协会、出版商、研究单位、图书馆和资助机构,因此具有广泛的知名度,并且数据库资源丰富。

Figshare:一个基于云计算网络的在线数字资源库,科研人员可以保存和分享他们的研究成果,包括数据、数据集、图像、视频、海报和代码,从而使得他们的研究,甚至包括初步研究,曝光并获得认可。由于Fighare遵循开放数据原则,用户可以自由访问数据和上传内容。因此,科研人员可以通过Fighare公开他们的数据,Fighare上的所有条目都有DOI,方便引用。Fighare还跟踪托管材料的下载统计,做为altmetrics的来源。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/630786.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Java面试八股之反射慢在哪里

Java反射慢在哪里 动态类型检查: 在反射过程中,Java需要在运行时确定类、方法、字段等的类型信息。这与编译时已经确定类型信息的常规对象访问不同,反射需要额外的类型查询和验证,增加了性能开销。 安全检查: 反射…

Pencils Protocol 获合作伙伴 Galxe 投资,加快了生态进展

近日,Scroll 生态项目 Penpad 将品牌进一步升级为 Pencils Protocol,全新升级后其不仅对 LaunchPad 平台进行了功能上的升级,同时其也进一步引入了 Staking、Vault 以及 Shop 等玩法,这也让 Pencils Protocol 的叙事方向不再仅限于…

表的创建与操作表

1. 创建表 创建表有两种方式 : 一种是白手起家自己添,一种是富二代直接继承. 2. 创建方式1 (1). 必须具备条件 CREATE TABLE权限存储空间 (2). 语法格式 CREATE TABLE IF NOT EXISTS 表名(字段1, 数据类型 [约束条件] [默认值],字段2, 数据类型 [约束条件] [默…

企业计算机服务器中了faust勒索病毒如何处理,faust勒索病毒解密恢复

随着网络技术的不断发展与应用,越来越多的企业利用网络走向了数字化办公模式,网络也极大地方便了企业生产运营,大大提高了企业生产效率,但对于众多企业来说,企业的数据安全一直是大家关心的主要话题,保护好…

【Android踩坑】重写onClick方法时,显示Method does not override method from its supperclass

问题 重写onClick方法时,显示Method does not override method from its supperclass 解决 在类上加implements View.OnClickListener

自然语言处理通用框架BERT原理解读

相关代码见文末 1.概述 问题背景: 传统Seq2Seq模型的局限性: 早期的机器翻译和文本生成任务常采用基于循环神经网络(RNN)的序列到序列(Seq2Seq)模型,这类模型在处理长序列时容易遇到梯度消失/爆炸问题,导致训练效率低,难以捕捉长期依赖。 RNN网络的问题: RNN及其变…

Kotlin扩展函数和运算符重载

扩展函数 fun String.lettersCount():Int{var count 0for(i in this){if(i.isLetter())count}return count } fun main(){val str:String "12we"println(str.lettersCount()) } 相当于直接将方法写在类里面。函数体内可以直接使用this而不用传参。 运算符重载 …

Apifox:API 接口自动化测试完全指南

01 前言 这是一篇关于 Apifox 的接口自动化测试教程。相信你已经对 Apifox 有所了解:“集 API 文档、API 调试、API Mock、API 自动化测试,更先进的 API 设计/开发/测试工具”。 笔者是后端开发,因此这篇教程关注的是 API 自动化测试&#…

程序在银河麒麟系统下实现开机自启及创建桌面快捷方式

目录 1. 机器环境说明 2. 程序开机自启动设置 2.桌面快捷方式设置 3. 附加说明 1. 机器环境说明 机器安装的银河麒麟操作系统属性如下: 2. 程序开机自启动设置 第1步:编写一个脚本,用于自动化启动,为便于后文描述,该脚本名称…

100m/s高速轧制钢材 八轴测径仪检测毫无压力

关键词:八轴测径仪,在线测径仪,钢材测径仪,高速轧制 随着技术的提升,钢材的生产速度越来越快,一些高速生产的钢材,生产速度甚至达到了100m/s,这是一个非常快的速度。 如果汽车以120公里/小时的速度行驶,那么…

IDM Internet Download Manager 无法注册激活/注册按钮无法点击

Internet Download Manager 6.43破解版是一款功能强大的下载管理软件,这款软件能够帮助用户轻松高效地下载各种文件类型,无论你是想下载图片,视频,音乐,文档或是软件安装包,这款软件都能够帮你快速,稳定的下载,并且还支持多种线程下载和断点续传,很够很大程度的节省用户的时间和…

有什么操作简单的副业或兼职呢?

以下是操作简单的副业或兼职 1. 网络兼职 可以在网上找一些兼职工作,如网络营销、客服、文案撰写等,只需要有一台电脑和网络连接即可。 2. 手机任务 可以用手机做做致米宝库的任务,一天有一百多块钱,还可以电脑学习项目资源&am…

随易周刊第006期 - 云梦秦简

📢 随易周刊介绍 这是一个由 前端之虎陈随易 维护的周刊,将会分享笔者一周内的所见所闻。 写一篇周刊 搜集整理发布 需要数天,请尊重笔者的成果,可任意转载,但不要篡改内容。 如果你觉得周刊不错,可以给…

双向RNN和双向LSTM

双向RNN和双向LSTM 一、双向循环神经网络BiRNN 1、为什么要用BiRNN 双向RNN,即可以从过去的时间点获取记忆,又可以从未来的时间点获取信息,也就是说具有以下两个特点: 捕捉前后文信息:传统的单向 RNN 只能利用先前的上下文信息…

Audio Hijack for Mac 激活版:音频录制与处理软件

Audio Hijack for Mac,让您的音频创作更加高效、便捷。它支持多种音频格式的录制和导出,包括MP3、AAC、WAV等,让您的音频作品具有更广泛的兼容性。同时,软件界面简洁明了,操作流畅自然,即使您是初学者也能快…

EasyCVR智慧校园建设中的关键技术:视频汇聚智能管理系统应用

一、引言 随着信息技术的迅猛发展,智慧校园作为教育信息化建设的重要组成部分,对于提升校园安全、教学效率和管理水平具有重要意义。本文旨在介绍智慧校园视频管理系统的架构设计,为构建高效、智能的校园视频监控系统提供参考。 二、系统整…

【嵌入式开发】Arduino人机界面及接口技术:独立按键接口,矩阵按键接口,模拟量按键接口(基础知识介绍)

“生活总是让我们遍体鳞伤,但到后来,那些受伤的地方一定会变成我们最强壮的地方。” 🎯作者主页: 追光者♂🔥 🌸个人简介: 📝[1] CSDN 博客专家📝 🏆[2] 人工智能领域优质创作者🏆 🌟[3] 2022年度博客之星人工智能领域TOP4🌟 🌿[4] …

PCIE协议-2-事务层规范-Virtual Channel (VC) Mechanism

2.5 虚拟通道(VC)机制 虚拟通道(VC)机制提供了对可以在整个结构中传输使用TC(流量类别)标签区分的流量的支持。VC的基础是独立的结构资源(队列/缓冲区及其相关的控制逻辑)。这些资源…

遥感数据集制作(Potsdam数据集为例):TIF图像转JPG,TIF标签转PNG,图像重叠裁剪

文章目录 TIF图像转JPGTIF标签转PNG图像重叠裁剪图像重命名数据集转COCO格式数据集转VOC格式 遥感图像不同于一般的自然图像,由于波段数量、图像位深度等原因,TIF图像数据不能使用简单的格式转换方法。本文以Potsdam数据集为例,制作能够直接用…

信创电脑|暴雨新增兆芯KX-7000处理器版本

IT世界 5 月 15 日消息,暴雨公司信创家族新上架了一款搭载兆芯KX-7000系列处理器、摩尔线程8GB 显卡、16G DDR5 内存以及 512G SSD 的新配置台式电脑主机。 兆芯 KX-7000 处理器采用开先的 8 核 Chiplet互联架构,最高频率3.7 GHz,拥有 32MB 的…