The PartialSpoof Database and Countermeasures for the Detection of Short Fake Speech Segments Embedded in an Utterance
摘要
自动说话人验证容易受到各种作和欺骗,例如文本到语音合成、语音转换、重放、篡改、对抗性攻击等。我们考虑一种称为“部分欺骗”(PS) 的新欺骗方案,其中合成或转换的语音片段嵌入到真正的话语中。虽然现有的对策 (CM) 可以检测到完全欺骗的话语,但需要将其调整或扩展到 PS 方案。
我们提出了各种改进,以构建一个明显更准确的 CM,它可以以更精细的时间分辨率检测和定位短生成的欺骗语音片段。
首先,我们引入了新开发的自我监督预训练模型作为增强的特征提取器。
其次,我们通过为各种时间分辨率添加片段标签来扩展我们的 PartialSpoof 数据库。
由于攻击者嵌入的短欺骗语音片段的长度可变,因此考虑了六种不同的时间分辨率,范围从短至 20 毫秒到大至 640 毫秒不等。
第三,我们提出了一种新的 CM,它可以同时使用不同时间分辨率的片段级标签以及话语级标签来同时执行话语和片段级检测。
我们还表明,所提出的 CM 能够在 PS 场景以及相关的逻辑访问 (LA) 场景中以低错误率检测话语级别的欺骗。
PartialSpoof 数据库和 ASVspoof 2019 LA 数据库的话语级别检测的相同错误率分别为 0.77% 和 0.90%
结论
-
主要发现与贡献
- 有效应对部分伪造挑战:
论文证明了传统反欺诈方法在面对部分伪造攻击时存在明显不足,所提出的多分辨率检测方法和数据库构建策略能够显著提高对短时伪造片段的检测能力。 - 新型数据库与标注方式:
通过构建标注有多分辨率段级标签的PartialSpoof数据库,论文为研究部分伪造提供了一个宝贵的数据资源,有助于推动该方向的进一步探索。 - 前端与后端的创新结合:
利用SSL预训练模型提取高质量特征,并设计灵活的多分辨率后端得分模块,论文实现了整句检测与细粒度段级定位的统一优化,为未来语音反欺诈系统的设计提供了新思路。
- 有效应对部分伪造挑战:
-
局限性与未来展望
- 细粒度检测仍有提升空间:
尽管在超短时间尺度(例如20 ms)的段级检测上已取得较好的效果,但由于伪造片段信息量极低,仍存在较高的检测难度。 - 模型泛化与攻击多样性:
实验中部分未见过的伪造方法(例如某些特定TTS/VC系统)会导致整体EER上升,表明模型的泛化能力和对未知攻击的鲁棒性仍需进一步加强。 - 未来方向:
未来的工作可能会探索将语言和语义信息融入检测过程中、进一步扩充和更新伪造技术样本,以及采用更强大的数据增强与鲁棒训练策略,从而提升模型在实际应用中的表现和可靠性。
- 细粒度检测仍有提升空间:
背景
-
语音技术的广泛应用与安全挑战
随着语音识别、说话人验证、语音合成等技术在智能家居、在线银行、会议记录等领域的广泛应用,语音技术在日常生活中的作用日益凸显。但与此同时,语音系统也容易受到伪造攻击,例如利用文本转语音(TTS)、语音转换(VC)、重放及对抗性攻击等手段,使得伪造语音能够欺骗自动化系统乃至人耳。 -
传统反欺诈系统的局限性
传统的反欺诈系统主要针对整段被伪造的语音进行检测,其检测策略往往依赖于对全局特征的聚合。然而,如果攻击者只在语音中嵌入短暂的伪造片段(即所谓的“部分伪造”),这些局部的伪造信息可能在整体统计中被稀释,从而导致传统系统难以准确判断。 -
部分伪造攻击的重要性与新挑战
部分伪造攻击(Partial Spoof)能够在不明显改变整体语音内容的前提下,替换或插入极短的合成片段,从而改变语义或实现欺骗。由于伪造片段通常时长较短且信息有限,检测这类攻击不仅要求系统具备全局判断能力,还需要在时间上具有精细定位的能力,这对现有CM(Countermeasure)提出了全新的挑战。
内容成果
数据库构建与新标签
PartialSpoof数据库:
论文提出了一个新的数据库——PartialSpoof,用于模拟部分伪造攻击场景。其主要特点包括:
-
多分辨率标签:
数据库不仅提供了传统的整句(utterance-level)标签,还在多个时间分辨率(从20 ms到640 ms)上标注了段级(segment-level)的真假标签。这样做可以使CM在训练时利用更细粒度的信息,提升对短时伪造片段的定位能力。 -
构建流程:
数据库构建流程主要包括以下步骤:- 归一化和语音活动检测(VAD): 对原始语音和伪造语音进行振幅归一化,并利用多种VAD算法选取候选片段。
- 候选片段选择: 根据同一说话人不同录音之间的片段相似性和时长匹配条件,选择合适的替换片段。
- 替换与拼接: 利用重叠加和(overlap-add)方法将候选伪造片段插入原始语音中,确保拼接处尽可能平滑。
- 标签标注: 在拼接后,根据各时间分辨率对每个帧或段进行标注:只要该段中存在任一伪造帧,则整体标为伪造。
- 后处理: 通过分层量化“语音内伪造比例”,使得不同比例的伪造语音在数据库中均衡存在。
3. 反欺诈系统的设计与创新
整体架构:
论文提出的CM架构主要由两个部分组成:
-
前端特征提取:
利用自监督学习(SSL)预训练模型(如wav2vec 2.0和HuBERT)提取语音的高层次表征。由于这些模型经过大规模语音数据的自监督预训练,能够捕获丰富的语音信息,从而为后续的伪造检测提供更为判别的特征。 -
多分辨率后端:
针对PS场景,后端设计上不仅要进行整句检测,还需要对短时段伪造进行精细定位。具体策略包括:- 多尺度得分计算: 将前端提取的特征先在帧级(20 ms)上计算得分,然后通过一系列下采样模块(例如采用最大池化和1D卷积)依次获得40 ms、80 ms、160 ms、320 ms和640 ms等不同分辨率下的段级得分。
- 多任务训练: 同时利用整句标签和各个分辨率下的段级标签进行联合训练,使得模型在整体判断和局部定位上都能获得较好的性能。
关键创新点:
-
利用SSL模型增强特征提取:
前端采用预训练的SSL模型作为特征提取器,相较于传统手工设计的DSP特征,数据驱动的方法能更好地捕捉伪造信号的微弱差异。 -
多分辨率标签与训练策略:
针对伪造片段时长不一的问题,论文提出在多个时间分辨率上标注伪造标签,并设计相应的多尺度得分模块。实验表明,多分辨率训练策略在整句检测上更具优势,而对于细粒度的段级检测,则需要在目标分辨率上进行专门训练。 -
灵活的后端架构设计:
对比传统单一分辨率或仅依赖简单池化的CM,该论文中后端设计引入了诸如gMLP块(带门控机制的多层感知器)等新型网络结构,能更好地对高层特征进行建模,从而提高检测性能。
4. 实验设计与结果
实验设置:
-
前端模型选择:
论文比较了多种SSL模型(如wav2vec 2.0 Base、Large、XLSR以及WavLM)在反欺诈任务中的性能。结果显示,基于Wav2vec 2.0 Large的模型表现最佳。 -
后端架构对比:
在后端得分模块方面,比较了单层全连接、BLSTM、两层BLSTM以及不同层数的gMLP块结构。实验表明,采用五个gMLP块的配置能达到最优效果。 -
训练策略:
针对单一分辨率训练和多分辨率联合训练进行了比较。结果显示,在整句级别检测上,多分辨率训练策略具有明显优势,而在细粒度段级检测上,专门在目标分辨率上训练的模型更优。
主要结果:
-
整句检测:
在PS场景下,采用多分辨率训练的CM在整句检测中达到了极低的EER(约0.77%),在ASVspoof 2019 LA场景下也取得了类似性能(EER约0.90%)。 -
段级检测:
尤其是在20 ms等超细分辨率下,尽管每个片段仅含单帧信息,检测难度较大,但实验表明EER在10%左右,这在短时伪造检测任务中已是相当有竞争力的结果。 -
跨场景适用性:
实验还验证了所提CM在PS场景和传统LA场景中的通用性,即使用PS训练数据进行训练不仅提升了对部分伪造的检测性能,同时在全伪造场景(如ASVspoof 2019 LA)中也能保持竞争力。
贡献点
- 数据层面: 构建了标注有多分辨率段级标签的PartialSpoof数据库,为细粒度伪造检测提供了数据支持。
- 模型层面: 利用自监督预训练模型作为前端,并设计了多分辨率后端进行联合训练,实现了整句和段级检测的统一优化。
潜在研究点
- 动态分辨率选择:当前分辨率是固定的(2、4、8 等),可以尝试自适应选择(如注意力机制)。
- 数据增强:加入噪声或混响,模拟更真实的伪造场景。
- 模型压缩:LCNN 已较轻量,但可进一步使用剪枝或量化减少参数。