(论文)PartialSpoof 数据库和检测话语中嵌入的短假语音片段的对策

The PartialSpoof Database and Countermeasures for the Detection of Short Fake Speech Segments Embedded in an Utterance

摘要

自动说话人验证容易受到各种作和欺骗,例如文本到语音合成、语音转换、重放、篡改、对抗性攻击等。我们考虑一种称为“部分欺骗”(PS) 的新欺骗方案,其中合成或转换的语音片段嵌入到真正的话语中。虽然现有的对策 (CM) 可以检测到完全欺骗的话语,但需要将其调整或扩展到 PS 方案。

我们提出了各种改进,以构建一个明显更准确的 CM,它可以以更精细的时间分辨率检测和定位短生成的欺骗语音片段。
首先,我们引入了新开发的自我监督预训练模型作为增强的特征提取器。
其次,我们通过为各种时间分辨率添加片段标签来扩展我们的 PartialSpoof 数据库。
由于攻击者嵌入的短欺骗语音片段的长度可变,因此考虑了六种不同的时间分辨率,范围从短至 20 毫秒到大至 640 毫秒不等。
第三,我们提出了一种新的 CM,它可以同时使用不同时间分辨率的片段级标签以及话语级标签来同时执行话语和片段级检测。
我们还表明,所提出的 CM 能够在 PS 场景以及相关的逻辑访问 (LA) 场景中以低错误率检测话语级别的欺骗。
PartialSpoof 数据库和 ASVspoof 2019 LA 数据库的话语级别检测的相同错误率分别为 0.77% 和 0.90%

结论

  • 主要发现与贡献

    • 有效应对部分伪造挑战:
      论文证明了传统反欺诈方法在面对部分伪造攻击时存在明显不足,所提出的多分辨率检测方法和数据库构建策略能够显著提高对短时伪造片段的检测能力。
    • 新型数据库与标注方式:
      通过构建标注有多分辨率段级标签的PartialSpoof数据库,论文为研究部分伪造提供了一个宝贵的数据资源,有助于推动该方向的进一步探索。
    • 前端与后端的创新结合:
      利用SSL预训练模型提取高质量特征,并设计灵活的多分辨率后端得分模块,论文实现了整句检测与细粒度段级定位的统一优化,为未来语音反欺诈系统的设计提供了新思路。
  • 局限性与未来展望

    • 细粒度检测仍有提升空间:
      尽管在超短时间尺度(例如20 ms)的段级检测上已取得较好的效果,但由于伪造片段信息量极低,仍存在较高的检测难度。
    • 模型泛化与攻击多样性:
      实验中部分未见过的伪造方法(例如某些特定TTS/VC系统)会导致整体EER上升,表明模型的泛化能力和对未知攻击的鲁棒性仍需进一步加强。
    • 未来方向:
      未来的工作可能会探索将语言和语义信息融入检测过程中、进一步扩充和更新伪造技术样本,以及采用更强大的数据增强与鲁棒训练策略,从而提升模型在实际应用中的表现和可靠性。

背景

  • 语音技术的广泛应用与安全挑战
    随着语音识别、说话人验证、语音合成等技术在智能家居、在线银行、会议记录等领域的广泛应用,语音技术在日常生活中的作用日益凸显。但与此同时,语音系统也容易受到伪造攻击,例如利用文本转语音(TTS)、语音转换(VC)、重放及对抗性攻击等手段,使得伪造语音能够欺骗自动化系统乃至人耳。

  • 传统反欺诈系统的局限性
    传统的反欺诈系统主要针对整段被伪造的语音进行检测,其检测策略往往依赖于对全局特征的聚合。然而,如果攻击者只在语音中嵌入短暂的伪造片段(即所谓的“部分伪造”),这些局部的伪造信息可能在整体统计中被稀释,从而导致传统系统难以准确判断。

  • 部分伪造攻击的重要性与新挑战
    部分伪造攻击(Partial Spoof)能够在不明显改变整体语音内容的前提下,替换或插入极短的合成片段,从而改变语义或实现欺骗。由于伪造片段通常时长较短且信息有限,检测这类攻击不仅要求系统具备全局判断能力,还需要在时间上具有精细定位的能力,这对现有CM(Countermeasure)提出了全新的挑战。

内容成果

数据库构建与新标签

PartialSpoof数据库:
论文提出了一个新的数据库——PartialSpoof,用于模拟部分伪造攻击场景。其主要特点包括:

  • 多分辨率标签:
    数据库不仅提供了传统的整句(utterance-level)标签,还在多个时间分辨率(从20 ms到640 ms)上标注了段级(segment-level)的真假标签。这样做可以使CM在训练时利用更细粒度的信息,提升对短时伪造片段的定位能力。

  • 构建流程:
    数据库构建流程主要包括以下步骤:

    1. 归一化和语音活动检测(VAD): 对原始语音和伪造语音进行振幅归一化,并利用多种VAD算法选取候选片段。
    2. 候选片段选择: 根据同一说话人不同录音之间的片段相似性和时长匹配条件,选择合适的替换片段。
    3. 替换与拼接: 利用重叠加和(overlap-add)方法将候选伪造片段插入原始语音中,确保拼接处尽可能平滑。
    4. 标签标注: 在拼接后,根据各时间分辨率对每个帧或段进行标注:只要该段中存在任一伪造帧,则整体标为伪造。
    5. 后处理: 通过分层量化“语音内伪造比例”,使得不同比例的伪造语音在数据库中均衡存在。
      在这里插入图片描述

3. 反欺诈系统的设计与创新

整体架构:
论文提出的CM架构主要由两个部分组成:

  • 前端特征提取:
    利用自监督学习(SSL)预训练模型(如wav2vec 2.0和HuBERT)提取语音的高层次表征。由于这些模型经过大规模语音数据的自监督预训练,能够捕获丰富的语音信息,从而为后续的伪造检测提供更为判别的特征。

  • 多分辨率后端:
    针对PS场景,后端设计上不仅要进行整句检测,还需要对短时段伪造进行精细定位。具体策略包括:

    • 多尺度得分计算: 将前端提取的特征先在帧级(20 ms)上计算得分,然后通过一系列下采样模块(例如采用最大池化和1D卷积)依次获得40 ms、80 ms、160 ms、320 ms和640 ms等不同分辨率下的段级得分。
    • 多任务训练: 同时利用整句标签和各个分辨率下的段级标签进行联合训练,使得模型在整体判断和局部定位上都能获得较好的性能。

关键创新点:

  1. 利用SSL模型增强特征提取:
    前端采用预训练的SSL模型作为特征提取器,相较于传统手工设计的DSP特征,数据驱动的方法能更好地捕捉伪造信号的微弱差异。

  2. 多分辨率标签与训练策略:
    针对伪造片段时长不一的问题,论文提出在多个时间分辨率上标注伪造标签,并设计相应的多尺度得分模块。实验表明,多分辨率训练策略在整句检测上更具优势,而对于细粒度的段级检测,则需要在目标分辨率上进行专门训练。

  3. 灵活的后端架构设计:
    对比传统单一分辨率或仅依赖简单池化的CM,该论文中后端设计引入了诸如gMLP块(带门控机制的多层感知器)等新型网络结构,能更好地对高层特征进行建模,从而提高检测性能。


4. 实验设计与结果

实验设置:

  • 前端模型选择:
    论文比较了多种SSL模型(如wav2vec 2.0 Base、Large、XLSR以及WavLM)在反欺诈任务中的性能。结果显示,基于Wav2vec 2.0 Large的模型表现最佳。

  • 后端架构对比:
    在后端得分模块方面,比较了单层全连接、BLSTM、两层BLSTM以及不同层数的gMLP块结构。实验表明,采用五个gMLP块的配置能达到最优效果。

  • 训练策略:
    针对单一分辨率训练和多分辨率联合训练进行了比较。结果显示,在整句级别检测上,多分辨率训练策略具有明显优势,而在细粒度段级检测上,专门在目标分辨率上训练的模型更优。

主要结果:

  • 整句检测:
    在PS场景下,采用多分辨率训练的CM在整句检测中达到了极低的EER(约0.77%),在ASVspoof 2019 LA场景下也取得了类似性能(EER约0.90%)。

  • 段级检测:
    尤其是在20 ms等超细分辨率下,尽管每个片段仅含单帧信息,检测难度较大,但实验表明EER在10%左右,这在短时伪造检测任务中已是相当有竞争力的结果。

  • 跨场景适用性:
    实验还验证了所提CM在PS场景和传统LA场景中的通用性,即使用PS训练数据进行训练不仅提升了对部分伪造的检测性能,同时在全伪造场景(如ASVspoof 2019 LA)中也能保持竞争力。

贡献点

  • 数据层面: 构建了标注有多分辨率段级标签的PartialSpoof数据库,为细粒度伪造检测提供了数据支持。
  • 模型层面: 利用自监督预训练模型作为前端,并设计了多分辨率后端进行联合训练,实现了整句和段级检测的统一优化。

潜在研究点

  • 动态分辨率选择:当前分辨率是固定的(2、4、8 等),可以尝试自适应选择(如注意力机制)。
  • 数据增强:加入噪声或混响,模拟更真实的伪造场景。
  • 模型压缩:LCNN 已较轻量,但可进一步使用剪枝或量化减少参数。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/978520.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Leaflet介绍及使用示例

一、Leaflet介绍 Leaflet是一个开源的JavaScript库,专门用于构建交互式的地图应用程序。它以其轻量级、高性能和易于使用的API而著称,方便开发者在网页中集成地图功能。Leaflet支持多种地图提供商的瓦片图层,如OpenStreetMap、Mapbox等&…

【笔记】redis回忆录(未完 重头过一遍)

了解 redis在linux上运行 没有window版本 有也是微软自己搞的 (一)安装与修改配置 1.在linux虚拟机上 安装gcc依赖 然后再usr/local/src解压在官网下载好的redis安装包 直接拖进去 tar -zxvf 安装包名字 tab键补齐 解压成功 进入软件 并执行编译命令…

使用 Apache Dubbo 释放 DeepSeek R1 的全部潜力

作者:陈子康,Apache Dubbo Contributor 2025年1月20日,国产大模型公司深度求索(DeepSeek)正式发布了大语言模型 DeepSeek-R1,并同步开源其模型权重。通过大规模强化学习技术,DeepSeek-R1 显著提…

Unity TMPro显示中文字体

TMP默认的字体只能显示英语,那么怎么显示中文呢 1、找到支持中文的字体文件 在c盘搜索Fonts文件夹有很多支持中文的字体文件 我这里选择雅黑 PS.双击打开发现里面有粗体细体普通三个版本,也可以只导入一个版本进去 2、将其拖入到unity Assets里面 3…

【MySQL篇】数据库基础

目录 1,什么是数据库? 2,主流数据库 3,MySQL介绍 1,MySQL架构 2,SQL分类 3,MySQL存储引擎 1,什么是数据库? 数据库(Database,简称DB&#xf…

Linux 日志系统·

目录 一、前言 二、实现一个简单的日志 1.可变参数 2.日志等级 3.日志时间 4.打印每一条参数 5.合并两个缓冲区 6.封装日志函数 三、完整代码 一、前言 当我们写一个函数,例如打开文件open,当我们打开失败的时候,会调用perror看到错误…

【PromptCoder】使用 package.json 生成 cursorrules

【PromptCoder】使用 package.json 生成 cursorrules 在当今快节奏的开发世界中,效率和准确性至关重要。开发者们不断寻找能够优化工作流程、帮助他们更快编写高质量代码的工具。Cursor 作为一款 AI 驱动的代码编辑器,正在彻底改变我们的编程方式。但如…

【VUE】vue-i18n: Uncaught SyntaxError: Not available in legacy mode

报错: 解决方法: 找到 createI18n 并加上 legacy: false,

2025年SCI一区智能优化算法:混沌进化优化算法(Chaotic Evolution Optimization, CEO),提供MATLAB代码

一、混沌进化优化算法 https://github.com/ITyuanshou/MATLABCode 1. 算法简介 混沌进化优化算法(Chaotic Evolution Optimization, CEO)是2025年提出的一种受混沌动力学启发的新型元启发式算法。该算法的主要灵感来源于二维离散忆阻映射的混沌进化过…

网络安全之日志审计 网络安全审计制度

一、代码审计安全 代码编写安全: 程序的两大根本:变量与函数 漏洞形成的条件:可以控制的变量“一切输入都是有害的 ” 变量到达有利用价值的函数(危险函数)“一切进入函数的变量是有害的” 漏洞的利用效果取决于最终函数的功能,变量进入…

VScode+stfp插件,实现文件远程同步保存【2025实操有效】

目录 1 痛点2 准备工作3 操作步骤3.1 第一步,下载STFP插件3.2 第二步,修改配置文件3.3 第三步,测试是否成功 4 后记 1 痛点 我一直用vscode远程连接服务器,传代码文件等到服务器上面,突然有一次服务器那边尽心维修&am…

Java高频面试之SE-23

hello啊,各位观众姥爷们!!!本baby今天又来了!哈哈哈哈哈嗝🐶 Java 中的 Stream 是 Java 8 引入的一种全新的数据处理方式,它基于函数式编程思想,提供了一种高效、简洁且灵活的方式来…

python-leetcode-乘积最大子数组

152. 乘积最大子数组 - 力扣&#xff08;LeetCode&#xff09; class Solution:def maxProduct(self, nums: List[int]) -> int:if not nums:return 0max_prod nums[0]min_prod nums[0]result nums[0]for i in range(1, len(nums)):if nums[i] < 0:max_prod, min_prod…

NavVis VLX三维扫描:高层建筑数字化的革新力量【沪敖3D】

在三维激光扫描领域&#xff0c;楼梯结构因其复杂的空间形态和连续垂直移动的实际需求&#xff0c;一直是技术难点之一。利用NavVis VLX穿戴式移动扫描系统成功完成一栋34层建筑的高效扫描&#xff0c;其中楼梯部分的数据一遍成形且无任何分层或形变。本文将深入分析该项目的技…

docker安装register私库

一、使用自己的私库 1、安装register私库 docker pull registry运行 docker run -d -v /data/registry:/var/lib/registry -p 5000:5000 --name registry registry:2参数-v /data/registry:/var/lib/registry&#xff0c;挂载目录 2、拉取需要的镜像 docker pull hello-w…

PCI_PCIe子系统学习(一)概念理清

文章目录 1、其它学习文章2、PCI和PCIe总线简单介绍2.1、PCI2.2、PCIe 3、引脚概述3.1、PCI3.1.1、PCI引脚概述3.1.2、PCI引脚定义3.1.2.1、32位 PCI (124针)3.1.2.2、64位 PCI (188针) 3.1.3、PCI引脚功能分类 3.2、PCIe3.2.1、PCIe引脚概述3.2.2、PCIe引脚定义3.2.2.1、PCIe …

解决Deepseek“服务器繁忙,请稍后再试”问题,基于硅基流动和chatbox的解决方案

文章目录 前言操作步骤步骤1&#xff1a;注册账号步骤2&#xff1a;在线体验步骤3&#xff1a;获取API密钥步骤4&#xff1a;安装chatbox步骤5&#xff1a;chatbox设置 价格方面 前言 最近在使用DeepSeek时&#xff0c;开启深度思考功能后&#xff0c;频繁遇到“服务器繁忙&am…

【SpringBoot】——分组校验、自定义注解、登入验证(集成redis)、属性配置方式、多环境开发系统学习知识

&#x1f3bc;个人主页&#xff1a;【Y小夜】 &#x1f60e;作者简介&#xff1a;一位双非学校的大三学生&#xff0c;编程爱好者&#xff0c; 专注于基础和实战分享&#xff0c;欢迎私信咨询&#xff01; &#x1f386;入门专栏&#xff1a;&#x1f387;【MySQL&#xff0…

TCP/IP 5层协议簇:物理层

目录 1. 物理层&#xff08;physical layer&#xff09; 2. 网线/双绞线 1. 物理层&#xff08;physical layer&#xff09; 工作设备&#xff1a;网线、光纤、空气 传输的东西是比特bit 基本单位如下&#xff1a;数字信号 信号&#xff1a;【模拟信号&#xff08;放大器&a…

【C/C++】理解C++内存与Linux虚拟地址空间的关系---带你通透C++中所有数据

每日激励&#xff1a;“不设限和自我肯定的心态&#xff1a;I can do all things。 — Stephen Curry” 绪论&#xff1a; 本质编写的原因是我在复习过程中突然发现虚拟地址空间和C内存划分我好想有点分不清时&#xff0c;进行查询各类资料和整理各类文章后得出的文章&#xff…