Partially Spoofed Audio Detection论文介绍(ICASSP 2024)

An Efficient Temporary Deepfake Location Approach Based Embeddings for Partially Spoofed Audio Detection

论文翻译名:一种基于部分欺骗音频检测的基于临时深度伪造位置方法的高效嵌入

摘要:

  • 部分伪造音频检测是一项具有挑战性的任务,在于需要在帧级别上准确地定位音频的真实性。
  • 时间性深度伪造定位( TDL ),可以有效地捕获特征和位置信息。
  • 我们的方法包括两个新颖的部分:嵌入相似性模块和时间卷积操作。
  • 为了有效地集中位置信息,提出了时间卷积操作来计算相邻帧之间的帧特异性相似度,并动态地选择信息丰富的邻居进行卷积。

结论:TDL在19PS数据集上取得了最好的性能,并且在跨数据集场景下也表现良好。

背景:

  • 在大多数数据集和挑战中,一个重要的场景被忽略,即一个真实的语音语句被合成的语音片段污染,导致部分欺骗(PS)。
  • 在整个PS发展领域,先有了两个数据集(一个叫PartialSpoof),使用SELCNN网络增强语音的准确性,之后是有人使用Wav2Vec2作为前端,ECAPA-TDNN作为后端,在ADD 2022 Track 2中取得了第一名。
  • 上面方法并不能精确地定位特定的片段,有人将之前的语音级PS数据集标签扩展到帧级,并提出了相应的基于W2V2的对抗策略来增强帧级检测能力。
  • TDL——Wav2Vec2作为前端,后端集中于细腻地定位虚假语音片段:第一次使用嵌入相似度模块(嵌入空间并得到高质量的嵌入相似度向量);然后,我们提出了时间卷积操作来从嵌入向量中定位区域。从嵌入中计算每个时间位置的局部相似性。获得一个特定于帧的权重来指导卷积进行时间敏感的计算。

内容成果:

1.使用Wav2Vec - XLS - R从原始音频中提取帧级特征;

2. 设计了一个嵌入相似度模块来在嵌入空间中分离真实帧和合成帧,在嵌入层面增强真假区分的识别;

3.为了捕获位置信息,采用时间卷积操作,通过关注相邻帧之间特定帧的相似性;

4.使用1D卷积层和全连接层对帧级标签进行下采样,以计算二进制交叉熵;

一、W2V2 前端

过在掩码特征编码器上解决对比任务进行训练,

首先,不同长度的语音信号通过由七个卷积神经网络( CNN )层组成的特征提取器。

随后,使用包含24层、16个注意力头、嵌入大小为1024的Transformer网络获得上下文表示。

二、嵌入相似度模块(ESM)

  • 嵌入向量是L2 -规范化的;
  • 利用余弦相似度来度量两个嵌入向量的相似度:

  • 为了增加嵌入空间中真假帧之间的距离,提高泛化能力,我们计算了真帧之间、假帧之间以及真假帧之间的余弦相似度;
  • 确保来自不同位置的真实帧表现出相似性,来自不同位置的虚假帧表现出相似性,而真实帧和虚假帧彼此不相似性;
  • 使得不同位置的真实帧和虚假帧相似:

理解:τsame 是同一类别帧的相似度阈值,⌊ . . . ⌋+ 表示零下限幅,...

  • 虽然知道帧级真实性标签的位置,但W2V2-XLS-R特征的时间维度并不与这些帧级标签内在地保持一致。
  • 分离真假帧:

τdiff为相似度阈值,用于约束真假帧之间的距离;

  • 最后嵌入相似度模块采用LESM进行优化:

三、时间卷积操作

为了有效地捕获位置信息,使用嵌入向量作为局部注意力掩码来执行时间卷积操作;

理解:其中fmt为输出特征向量的第m个通道的值,⌊· · ·⌋表示向下取整操作,[ · · ·]表示矩阵的切片,( · )表示内积。X是经过近邻相似度计算处理的调制特征。

其中矩阵a∈Rk × T是一个相似矩阵,计算每个时间位置的局部相似性,a[ i , t]表示第t个特征向量和它的k个邻居之间的相似性。在实际操作中,邻居设置为1,a[ i , t]、a[ i , t-1 ]、a[ i , t + 1]之间进行相似度计算。

在实际操作中,我们根据ESM模块生成的嵌入向量来确定动态核权重。我们对两个序列1D - CNN上的W2V2特征进行时间卷积操作,其中输入通道和输出通道都保持不变,以保持时间维度上的一致性。

四、总损失

使用1D-CNN,全连接层和sigmoid激活函数来计算BCE(Binary Cross-Entropy)损失。

五、实验结果分析

所有的度量都是基于部分欺骗音频的帧级真实性标签计算的。

使用了基于点的二分类准确率,召回率和Sklearn的F1分数。在任何评估之前,根据特征的实际长度消除零填充。

实验测试表明使用real 1fake 0标签的效果更好,而且提出的模型复杂度更低。

贡献点:

  • 提出TDL方法,一种适用于PS场景的高效的ADD方法,该方法结合了嵌入相似性模块和时间卷积操作,可以有效地捕获特征和位置信息。
  • 提出的方法在ASV spoof 2019PS数据集上优于基线模型,即使在跨数据集实验中也表现出优越的性能。

注:科研新手总结的论文,后续会出一篇结合代码的分析文章。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/680203.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Python特征工程系列】基于相关性分析的特征重要性分析(案例+源码)

这是我的第295篇原创文章。 一、引言 相关性分析提供了一种简单而直观的方法来初步筛选特征。通过计算特征与目标变量之间的相关系数,我们能够快速地评估各个特征与预测目标之间的线性关系强度。 在统计学中,最常用的相关系数有两种:皮尔逊相…

酷开科技丨酷开系统重塑家庭娱乐生态,开启家庭生活新体验

家庭是社会的“基本细胞”。每一个小家都是国家的组成部分,每一个家庭的幸福才会带来整个社会和国家的幸福安定。家庭的意义,是爱、是关心、是陪伴,是一生的牵绊。我们大部分的时间都是在家庭中度过的,与家人相聚的时候&#xff0…

一款适合医院内部内网文件传输工具,了解一下!

在数字化时代,医院的数据管理和文件传输变得极其关键。医院内部的文件传输工具不仅需要满足基本的传输需求,还要考虑安全性、隐私保护和易用性等重要方面。以下是医院内网文件传输工具应具备的关键要素: 安全性:由于医院数据包含患…

内容产品运营方案业务架构解析与实践探索

### 背景 在信息爆炸的时代背景下,内容产品运营成为各行各业竞争的重要环节。构建合理的内容产品运营方案业务架构,能够帮助企业更好地管理内容生产、推广和变现,提升品牌影响力和商业价值。 ### 业务架构设计 #### 1. 内容生产与管理 建立…

滤波电阻器:用于能源系统和工业的高精度解决方案

滤波电阻器用于防止能源系统中的电源反馈。铝厂或钢铁厂的大型感应冶炼厂对电源频率产生谐波。这些必须不惜一切代价远离电网。过滤器通常以 T 或 L 元件的形式用于此目的。中压电源输入端的吸收电路由电容和电感的串联连接组成,对谐波进行负载并衰减谐波。 为了避…

【二叉树】Leetcode 637. 二叉树的层平均值【简单】

二叉树的层平均值 给定一个非空二叉树的根节点 root , 以数组的形式返回每一层节点的平均值。与实际答案相差 10-5 以内的答案可以被接受。 示例 1: 输入:root [3,9,20,null,null,15,7] 输出:[3.00000,14.50000,11.00000] 解释&#xff1a…

【qt15】windeployqt 安装依赖

debug模式vs可以使用qt插件新建qt文件 D:\Qt15\5.15.2\msvc2019\bin\windeployqt.exe Warning: Cannot find Visual Studio installation directory, VCINSTALLDIR is not set.D:\Qt15\5.15.2\msvc2019\bin\windeployqt.exe .\filecopier.exeWindows PowerShell Copyright (C) …

推荐一个简单可靠的驰骋低代码组织结构设计,设计开发使用20年了

题目:推荐一个简单可靠的组织结构设计。 以下观点是驰骋低代码设计者的观念与主张,根据如下内容生成。 组织结构分为:单组织模式、集团组织模式、SAAS组织模式。组织结构包含,人员、部门、角色、人员部门的关系、人员部门角色的关…

什么是泛洪攻击?DDos攻击也是泛洪攻击的一种?

在数字化时代的浪潮中,网络安全已成为一场没有硝烟的战争。其中,泛洪攻击作为一种常见的网络攻击手段,对个人用户、企业乃至国家网络安全构成了严重威胁。本文将对泛洪攻击进行深入剖析,包括其定义、原理、类型、影响以及应对策略…

【Redis数据库】命令操作

文章目录 一、连接命令二、键命令 🌈你好呀!我是 山顶风景独好 💕欢迎来到我的博客,很高兴能够在这里和您见面! 💕希望您在这里可以感受到一份轻松愉快的氛围! 💕这里不仅可以获得有…

ai聊天机器人app的分享!有4个热门的软件!

在科技日新月异的今天,AI聊天机器人已经不再是遥不可及的科幻概念,而是实实在在走进了我们的日常生活。无论是工作中的信息查询,还是生活中的闲聊解闷,这些智能助手都能为我们提供便捷、高效的服务。那么,市面上都有哪…

python系列29:压测工具locust

1. 介绍 使用pip进行安装,下面是个简单例子: from locust import HttpUser, taskclass HelloWorldUser(HttpUser):taskdef hello_world(self):self.client.get("/hello")self.client.get("/world")然后打开web页面: 点…

深度剖析可视化大屏的技术架构

在当今信息化时代,可视化大屏作为一种重要的信息展示方式,广泛应用于监控指挥中心、数据分析展示等领域。其技术架构对于保障大屏系统的稳定性和性能至关重要。本文将深入探讨可视化大屏的技术架构,包括硬件架构、软件架构和数据架构等方面&a…

电位器、金属触摸传感器、红外避障传感器、烟雾传感器、倾斜开关传感器 | 配合Arduino使用案例

电位器 电位器就是一个旋转按钮,可以读取到开关旋转的数值(范围:0-1023) /****** Arduino 接线 ***** VCC - 5v* GND - GND* OUT - A0***********************/int mainPin A0; // 接继电器的 IN 端口void setup() { Serial.be…

提示词工程基础:定义与重要性

目录 一、引言二、提示词工程的定义1. 概念明晰2. 技术框架3. 功能作用 三、提示词工程的重要性1. 核心作用强调2. 提升效率与降低成本3. 推动技术发展与创新 四、提示词工程的组成部分1. 提示词设计2. 模型训练与调整3. 效果评估与优化 五、实际应用示例1. 虚拟助手2. 自动新闻…

【Python数据分析--Numpy库】Python数据分析Numpy库学习笔记,Python数据分析教程,Python数据分析学习笔记(小白入门)

一,Numpy教程 给大家推荐一个很不错的笔记,个人长期学习过程中整理的 Python超详细的学习笔记共21W字点我获取 1-1 安装 1-1-1 使用已有的发行版本 对于许多用户,尤其是在 Windows 上,最简单的方法是下载以下的 Python 发行版…

了解一下Ubuntu Linux

1.3.1 什么是Ubuntu Ubuntu这个名字非常神奇,它取自非洲南部祖鲁语的ubuntu,是一个哲学名称,其意思为“人性”或者“我的存在是因为大家的存在”。对于中国人来说,一般称呼它为乌班图。 Ubuntu是在Debian的基础上开发出来的&am…

qt dragEnterEvent dragLeaveEvent dragMoveEvent dropEvent都不响应的问题解决方案。

环境&#xff1a;vs2019qt5.14.2 坑哦。让我搞了好久。各种不执行&#xff0c;最后发现,不用vs调制&#xff0c;直接运行exe就能接收拖拽了。 记录一下,感觉是qt的bug。上代码。 #ifndef MAINWINDOW_H #define MAINWINDOW_H#include <QMainWindow> #include <QText…

算法金 | 再见,PCA 主成分分析!

​大侠幸会&#xff0c;在下全网同名[算法金] 0 基础转 AI 上岸&#xff0c;多个算法赛 Top [日更万日&#xff0c;让更多人享受智能乐趣] 1. 概念&#xff1a;数据降维的数学方法 定义 主成分分析&#xff08;PCA&#xff09;是一种统计方法&#xff0c;通过正交变换将一组可…

大模型卷出新高度|暴雨AI服务器M8878助解算力之困

当今世界&#xff0c;作为新一轮科技革命和产业革命的重要驱动力&#xff0c;AI已经成为“兵家必争之地”。我国也在政府报告中首次将“人工智能”行动纳入国家战略&#xff0c;开启了以人工智能为核心的数字经济高质量发展的新时代。 当今世界&#xff0c;作为新一轮科技革命…