(论文)检测部分欺骗音频的初步调查

Paper–An Initial Investigation for Detecting Partially Spoofed Audio

摘要

所有现有的欺骗性语音数据库都包含整个欺骗性的攻击数据。

在实践中,使用仅部分欺骗的话语来装载成功的攻击是完全合理的。根据定义,部分欺骗的话语包含欺骗和真实段的混合,这可能会降低使用完全欺骗的话语训练的对策的性能。这个假设提出了一个明显的问题:“我们能检测到部分欺骗的音频吗?

本文介绍了一个名为 PartialSpoof 的部分欺骗数据的新数据库,以帮助解决这个问题。这个新数据库使我们能够调查和比较对策在话语和分段级别标签上的表现。使用话语级别标签的实验结果表明,在使用部分欺骗数据进行测试时,发现训练用于检测完全欺骗数据的对策的可靠性会大大降低,而在完全和部分欺骗的话语的情况下,对部分欺骗数据的训练则执行可靠。

使用片段级标签的其他实验表明,即使使用最新的对策模型,发现话语中包含的注入的欺骗片段也是一项更具挑战性的任务

结论

为了回答最初的问题:“我们能检测到部分欺骗的音频吗?”,我们构建了一个新的 PartialSpoof 数据库,该数据库由基于 ASVspoof 2019 的真实和部分欺骗的话语组成。

由于 PartialSpoof 音频由真实和欺骗的片段组成,因此可以在话语和片段级别的标签上对其进行训练和评估。对于话语级别检测,对部分和完全欺骗数据进行了跨数据库分析,以研究数据不匹配如何影响 CM 性能。

我们还执行了一项更具挑战性的分段检测任务,以查看 CM 是否可以识别话语中包含的短欺骗片段。通常,对 PartialSpoof 进行话语级别和分段级别检测比对完全欺骗的数据库更具挑战性。

当使用部分欺骗数据进行测试时,还发现训练用于检测完全欺骗数据的对策的可靠性大大降低,而在部分欺骗数据上训练导致在评估完全和部分欺骗的话语时性能稳定。

需要进一步的研究来深入了解数据错配问题。此外,使用互相关的随机段选择和串联可能不是构建部分欺骗数据库的最佳方法。

在此过程中,语言信息、上下文信息和节奏可能会丢失。需要进一步探索更合适的数据库和更可靠、精度更高的 CM。

背景

自动说话人验证(ASV)系统面临的挑战

  • 语音伪造攻击的多样性

    • 语音合成攻击:攻击者使用语音合成技术生成目标说话人的语音。

    • 语音转换攻击:攻击者使用语音转换技术将其他人的语音转换为目标说话人的语音。

    • 重放攻击:攻击者通过播放预先录制的目标说话人的语音来欺骗系统。

    • 这些攻击方法随着深度学习技术的发展而变得更加复杂和难以检测。

  • 现有数据库的局限性

    • 完全伪造的语音数据:现有的伪造语音数据库(如ASVspoof 2019)主要包含完全伪造的语音数据。

    • 部分伪造的语音数据缺失:在实际攻击中,攻击者可能只部分伪造语音,这种部分伪造的语音(部分伪造语音)包含真实和伪造的段落,这会显著降低现有反制措施(CMs)的性能。

部分伪造语音的检测需求

  • 部分伪造语音的定义

    • 部分伪造语音包含真实和伪造的段落,这种混合性质使得检测更加困难。

    • 例如,攻击者可能使用语音合成技术替换特定的短语,以达到欺骗的目的。

  • 现有CMs的局限性

    • 现有的CMs主要针对完全伪造的语音,对部分伪造语音的检测性能显著下降。

    • 这种性能下降的原因是部分伪造语音中的真实段落可能会干扰CMs的判断。

PartialSpoof数据库的构建

  • 构建动机

    • 为了研究部分伪造语音的检测问题,需要一个新的数据库来提供部分伪造的语音数据。

    • 这个数据库可以帮助研究人员评估和比较不同CMs在部分伪造语音检测任务中的性能。

  • 构建方法

    • 基于ASVspoof 2019 LA数据库:PartialSpoof数据库基于ASVspoof 2019 LA数据库构建,该数据库包含17种不同类型的伪造数据。

    • 部分伪造语音的生成

      1. 语音活动检测(VAD):使用三种不同的VAD算法(基于能量的VAD、LSTM-based VAD)来确定语音段的边界。

      2. 段落替换:随机选择一个真实语音段落并用伪造段落替换,反之亦然。确保插入的段落不会重复出现,并且持续时间接近。

      3. 融合技术:使用时间域互相关计算最佳融合点,通过波形重叠相加进行融合,避免引入伪影。

      4. 标签分配:每个段落根据其来源标记为真实或伪造,整个语音段落的标签为伪造。

研究目标

  • 评估现有CMs的性能

    • 通过在PartialSpoof数据库上评估现有CMs,了解它们在部分伪造语音检测任务中的性能。

    • 特别关注CMs在句段级和段落级检测中的表现。

  • 开发新的CMs

    • 探索新的CMs,以提高部分伪造语音的检测性能。

    • 通过实验,验证这些新CMs在不同场景下的有效性和鲁棒性。

内容成果

1. 构建PartialSpoof数据库

  • 成果

    • 创建了新的部分伪造音频数据库:作者构建了一个名为PartialSpoof的新数据库,该数据库包含真实和部分伪造的音频数据。这个数据库基于ASVspoof 2019 LA数据库,通过随机替换真实音频中的段落来生成部分伪造音频。

    • 提供了句段级和段落级标签:PartialSpoof数据库不仅提供了句段级标签,还提供了段落级标签,这使得研究人员可以更细致地评估和比较不同反制措施(CMs)的性能。

  • 意义

    • 填补了研究空白:这是第一个专门针对部分伪造音频的数据库,为研究部分伪造音频检测提供了新的资源。

    • 促进了更精细的检测研究:通过提供段落级标签,PartialSpoof数据库使得研究人员可以更深入地研究如何检测音频中的伪造段落。

2. 评估现有CMs的性能

  • 成果

    • 句段级检测性能

      • 消融研究:作者对基于LCNN的CMs进行了消融研究,发现使用平均池化(AP)和双向LSTM(Bi-LSTM)的组合在部分伪造音频检测中表现最佳。

      • 跨数据库实验:作者发现,使用ASVspoof 2019数据库训练的CMs在PartialSpoof数据库上的性能显著下降,而使用PartialSpoof数据库训练的CMs在ASVspoof 2019数据库上的性能相对稳定。

    • 段落级检测性能

      • 段落级标签训练:使用段落级标签训练的CMs在段落级检测中表现优于使用句段级标签训练的CMs。

      • 性能对比:段落级检测任务比句段级检测任务更具挑战性,CMs在段落级检测中的性能有明显的提升空间。

  • 意义

    • 揭示了现有CMs的局限性:现有CMs在处理部分伪造音频时性能显著下降,这表明需要开发新的CMs来应对部分伪造音频检测的挑战。

    • 提供了性能基准:通过在PartialSpoof数据库上评估现有CMs,作者为未来的研究提供了性能基准,有助于评估新CMs的有效性。

3. 基于伪造段落比例的分析

  • 成果

    • 伪造段落比例的影响:作者发现,伪造段落比例对CM性能有显著影响。使用完全伪造音频训练的CMs在伪造段落比例较低时性能下降,而使用部分伪造音频训练的CMs在不同伪造段落比例下性能稳定。

    • 性能曲线:作者通过绘制不同伪造段落比例下的性能曲线,进一步验证了上述发现。

  • 意义

    • 提供了更细致的性能分析:通过分析伪造段落比例对性能的影响,作者提供了更细致的性能分析,有助于理解CMs在不同场景下的表现。

    • 指导了CMs的开发:这些发现为开发更鲁棒的CMs提供了指导,特别是在处理不同伪造段落比例的音频时。

4. 段落级检测的挑战和潜力

  • 成果

    • 段落级检测性能:使用段落级标签训练的CMs在段落级检测中表现优于使用句段级标签训练的CMs,但段落级检测任务仍然具有挑战性。

    • 性能提升空间:作者指出,段落级检测任务比句段级检测任务更具挑战性,CMs在段落级检测中的性能有明显的提升空间。

  • 意义

    • 揭示了段落级检测的潜力:尽管段落级检测任务更具挑战性,但使用段落级标签训练的CMs在段落级检测中表现优于使用句段级标签训练的CMs,这表明段落级检测具有潜力。

    • 指出了未来研究方向:作者指出,未来的研究需要进一步探索如何提高段落级检测的性能,以应对部分伪造音频检测的挑战。

在这里插入图片描述

贡献点

  • 主要成果

    • 构建了PartialSpoof数据库:提供了真实和部分伪造音频数据,以及句段级和段落级标签。

    • 评估了现有CMs的性能:揭示了现有CMs在处理部分伪造音频时的局限性,并提供了性能基准。

    • 基于伪造段落比例的分析:提供了更细致的性能分析,指导了CMs的开发。

    • 段落级检测的挑战和潜力:揭示了段落级检测的潜力,指出了未来研究方向。

  • 未来工作

    • 开发更鲁棒的CMs:需要进一步研究如何开发更鲁棒的CMs,以提高部分伪造音频的检测性能。

    • 探索更合适的数据库构建方法:需要进一步探索更合适的部分伪造音频数据库构建方法,以提供更丰富的研究资源。

潜在研究点

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/978482.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

P9420 [蓝桥杯 2023 国 B] 子 2023

P9420 [蓝桥杯 2023 国 B] 子 2023 题目 分析代码 题目 分析 刚拿到这道题,我大脑简单算了一下,这个值太大了,直观感觉就很难!! 但是,你仔仔细细的一看,先从最简单的第一步入手,再…

第4章 4.4 EF Core数据库迁移 Add-Migration UpDate-Database

4.4.1 数据库迁移原理 总结一下就是: 1. 数据库迁移命令的执行,其实就是生成在数据库执行的脚本代码(两个文件:数字_迁移名.cs 数字_迁移名.Designer.cs),用于对数据库进行定义和修饰。 2. 数据库迁移…

C++程序员内功修炼——Linux C/C++编程技术汇总

在软件开发的宏大版图中,C 语言宛如一座巍峨的高山,吸引着无数开发者攀登探索。而 Linux 操作系统,以其开源、稳定、高效的特性,成为了众多开发者钟爱的开发平台。将 C 与 Linux 相结合,就如同为开发者配备了一把无坚不…

ubuntu:桌面版磁盘合并扩容

下载gparted磁盘编辑器 apt-get install gparted 打开gparted 更改目标分区大小 当遇到这个报错时,需要在命令行执行原分区的挂载指令 查看该分区信息 记住该目录,并在命令行执行 mount -o remount -rw /# 示例:mount -o remount -rw /v…

使用 Containerd 通过 HTTP 协议拉取 Harbor 私有镜像仓库的镜像

在 Kubernetes 1.24及以上版本环境中,docker不再被支持,主要使用Containerd 是常用的容器运行。默认情况下,Containerd 使用 HTTPS 协议与镜像仓库通信。然而,在某些场景下(如测试环境或内部网络)&#xff…

【论文笔记-TPAMI 2024】FreqFusion:用于密集图像预测的频率感知特征融合

Frequency-aware Feature Fusion for Dense Image Prediction 用于密集图像预测的频率感知特征融合 Abstract:密集图像预测任务要求具有强类别信息和高分辨率精确空间边界细节的特征。为了实现这一点,现代分层模型通常利用特征融合,直接添加…

PDF扫描档智能方向识别:多模型投票机制的实践测试 救活古典书籍

2025-02-22 20:10物联全栈123 尊敬的诸位!我是一名物联网工程师。关注我,持续分享最新物联网与AI资讯和开发实战。期望与您携手探寻物联网与 AI 的无尽可能 RAG知识库搭建的过程中,扫描档pdf的支持和准确率一直是个大家都不愿主动提起的事情…

【deepseek】本地部署+webui访问

背景 最近deepseek很火,但是官网的老是被限流使用,还有就是自己也想着玩一玩,于是准备在自己电脑跑一个 直接附上结果地址mydeepseek 准备工作 windows和linux都可 我这里选择linux,ubuntu系统 安装ollama 看下图&#xff0…

【Vue工作原理】初始化启动文件加载流程

参考资料:配置参考 | Vue CLI vue-cli项目如果项目根目录下没有vue-config.js文件,默认入口文件entry,模板文件template,以及filename分别是什么?(参考DeepSeek回答) 根据Vue CLI文档,当没有配…

【构建工具】Gradle 8中Android BuildConfig的变化与开启方法

随着Gradle 8的发布,Android开发者需要注意一个重要变化:BuildConfig类的生成现在默认被关闭了!!!。这个变化可能会影响许多依赖于BuildConfig的项目(别问,问就是我也被影响了,多好用…

ESP32S3:参考官方提供的led_strip组件使用 SPI + DMA 方式驱动WS2812 RGB灯的实现思路 (实现各个平台移植使用该方式)

目录 引言使用SPI + DMA 方式实现思路分析1. 查看WS2812的datasheet手册2. 根据官方的led_strip组件的方式,自己手把手实现一遍3.完整的程序(实现霓虹灯效果)引言 参考官方提供的led_strip组件使用 SPI + DMA 方式驱动WS2812 RGB灯的实现思路,只有明白实现的思路,方能将其…

每日Attention学习24——Strip Convolution Block

模块出处 [TIP 21] [link] CoANet: Connectivity Attention Network for Road Extraction From Satellite Imagery 模块名称 Strip Convolution Block (SCB) 模块作用 多方向条形特征提取 模块结构 模块特点 类PSP设计,采用四个并行分支提取不同维度的信息相比于…

ctfshow——版本控制泄露源码

题目提示:版本控制很重要,但不要部署到生产环境更重要。 题目内容如下图所示 本题结合题目和提示可以知道,我们要通过查看生产环境来查找flag。 所以我们可以在URL上进行操作,这时候就需要目录扫描来查看了。 发现存在一个.git的…

关于网络端口探测:TCP端口和UDP端口探测区别

网络端口探测是网络安全领域中的一项基础技术,它用于识别目标主机上开放的端口以及运行在这些端口上的服务。这项技术对于网络管理和安全评估至关重要。在网络端口探测中,最常用的两种协议是TCP(传输控制协议)和UDP(用…

某住宅小区地下车库安科瑞的新能源汽车充电桩的配电设计与应用方案 安科瑞 耿笠

摘要:纯电动商用车的工作环境存在路况复杂、工况恶劣等情况,导致整车电气设备的磨损速率加快,造成电气设备绝缘电阻持续下降,如不及时处理,可能存在安全隐患或引发重大安全事故。文章从绝缘故障检测原理出发&#xff0…

LeetCode详解之如何一步步优化到最佳解法:14. 最长公共前缀

LeetCode详解系列的总目录(持续更新中):LeetCode详解之如何一步步优化到最佳解法:前100题目录(更新中...)-CSDN博客 LeetCode详解系列的上一题链接:LeetCode详解之如何一步步优化到最佳解法&am…

使用VS Code远程开发OpenAI API

由于OpenAI的API在国内不可用,我们要针对API进行开发困难比较大。 如果你有一个能使用OpenAI API的Linux服务器,我们可以方便地使用VS Code的远程开发功能来解决这个问题。 如果没有,你也可以试试获得一个免费的国外服务器,网上有…

代码审计入门学习

简介 HadSky轻论坛程序为个人原创PHP系统,作者为蒲乐天,后端基于puyuetianPHP框架驱动,前端基于 puyuetianUI框架驱动,默认编辑器为puyuetianEditor富文本编辑器,其他非原创框架及驱动JQuery.js 及Font-Awesome字体库…

Java线程池入门03

1. 这3种创建线程池的方式有风险 FixedThreadPool : 固定大小的线程池SingleThreadExecutor : 单个线程的线程池CachedThreadPool : 可缓存的线程池 FixedThreadPool内部其实也是使用ThreadPoolExecutor来创建的 等价于 : new ThreadPoolExecutor(nThreads, nThreads, 0L, Tim…

C#连接sql server

连接时,出现如下提示: ERROR [IM014] [Microsoft][ODBC 驱动程序管理器] 在指定的 DSN 中,驱动程序和应用程序之间的体系结构不匹配 原因是odbc的驱动和应用程序的架构不一致。我的odbc如下所示: 显示为64位,而c#程序显…