STFT:解决音频-视频零样本学习 (ZSL) 中的挑战

       传统的监督学习方法需要大量的标记训练实例来进行训练,视听零样本学习的任务是利用音频和视频模态对对象或场景进行分类,即使在没有可用标记数据的情况下。为了解决传统监督方法的限制,提出了广义零样本学习(Generalized Zero-Shot Learning, GZSL)的设置。GZSL方法允许模型识别和分类来自已见过和未见过类别的实例,从而为视听分类和识别任务提供了更实用和可扩展的解决方案。

     尽管深度学习在最近几年取得了发展,视听零样本学习因其在多个领域的潜在应用而受到了显著关注,例如暴力检测、航空场景识别、语音识别和视频分类等。现有的大多数方法分别对输入的视听和文本模态进行建模和对齐,以获得更健壮的视听特征表示。然而,将SNNs(尖峰神经网络)与变换器(Transformers)结合起来,仍然面临着几个挑战:

  • 时间步长:现有 SNN 通常使用固定时间步长来平均神经元输出,忽略了不同层在编码时间序列中的重要性,导致性能波动。
  • 尖峰冗余:SNN 输出存在时间维度和空间维度上的冗余,与尖峰发射频率和神经元位置高度相关。
  • 输出异质性:SNN 和 Transformer 的输出数据分布存在显著差异,SNN 为二进制尖峰序列,Transformer 为浮点特征,难以高效融合。

     本文提出一种新的Spiking Tucker Fusion Transformer(STFT)用于视听零样本学习。STFT模型通过以下方式来提高性能:

  • 时间步长因子(TSF): 动态衡量每个时间步对 SNN 输出的影响,指导后续推理信息的合成。
  • 全局-局部池化(GLP): 结合最大池化和平均池化操作,引导输入膜电位的形成,减少尖峰噪声。
  • 动态阈值调整: 根据语义和时序信息动态调整神经元阈值,提高模型鲁棒性。
  • 时序-语义 Tucker 融合: 以低成本实现 SNN 和 Transformer 输出的多尺度融合,同时保持完全的二阶交互。

1 方法

STFT的架构由四个主要部分组成:空间-时间尖峰神经网络(SNN)、潜在语义推理模块、时序-语义Tucker融合和联合推理模块。在训练阶段,训练集由标记的嵌入向量组成,目标是学习一个投影函数,将音频和视觉特征映射到类别级文本嵌入。在测试阶段,使用相同的函数将未见过的测试样本投影到嵌入空间。

1.1  空间-时间尖峰神经网络(SNN)

  • 卷积 SNN 块: 使用卷积操作和 LIF 模型构建 SNN 网络,每个 SNN 块包含卷积层和 LIF 层。
  • 全局-局部池化 (GLP): 将最大池化和平均池化操作相结合,提取全局和局部特征,并指导 LIF 神经元的输入特征分布。
  • 时间步长因子 (TSF): 动态调整不同时间步长 SNN 输出的权重,使模型能够有效地利用时间信息并编码不同时间尺度的相关特征。
  • 动态阈值调整: 根据当前 SNN 输出和 GLP 的信息含量动态调整 LIF 神经元的阈值,从而减少脉冲噪声并提高模型的鲁棒性。

1.2 潜在语义推理模块

  • 音频和视觉编码器: 使用预训练的 SeLaVi 模型提取音频和视觉特征,并进行进一步的特征提取和降维。
  • 潜在语义推理模块: 引入潜在知识组合器 (LKC) 来动态更新和融合音频和视觉特征的潜在语义信息,从而获得更鲁棒的跨模态特征表示。
  • LKC 通过学习一组潜在知识槽来捕获不同模态之间的潜在语义特征,并使用门控函数选择性地保留融合特征。
  • LKC 会根据输入向量和之前的潜在知识槽 Kt-1 动态更新,并通过自注意力机制进一步推断音频和视觉特征之间的内在关系。

1.3 时序-语义 Tucker 融合

  • 特征投影: 将音频和视觉特征分别投影到嵌入向量,并进行二线性交互。
  • Tucker 分解: 将二线性交互后的特征张量分解为多个因子矩阵,以降低模型参数数量并提高计算效率。
  • 多尺度融合: 利用 Tucker 分解后的因子矩阵进行多尺度融合,同时保留二阶交互信息。

1.4 联合推理模块

  • 跨模态 Transformer: 使用共享权重的跨模态 Transformer 进一步推理不同模态之间的特征对应关系,并捕获互补信息。
  • 投影和重建层: 将联合音频-视觉特征投影到与文本特征相同的嵌入空间,并进行重建以保留相关信息。

1.5 训练策略

STFT使用Nvidia V100S GPU进行训练。音频和视觉嵌入是使用预训练的SeLaVi提取的。设置了特定的参数,并选择了Adam作为训练优化器。STFT训练了60个周期,学习率为0.0001。为了更有效地更新参数,STFT使用了三元组损失、投影损失和重建损失的组合。

2 实验

在ZSL和GZSL设置下评估了所提出的模型。使用平均类别准确率来衡量模型在分类任务中的有效性。对于ZSL评估,特别关注模型在未见测试类别子集上的性能。在GZSL评估中,评估模型在包括已见(S)和未见(U)类别的整个测试集上的性能。通过计算和谐均值(HM),提供模型在GZSL场景下整体性能的平衡度量。

2.1 数据集

  • ActivityNet:目前的版本为v1.3,专注于视频中的活动检测和识别,包含丰富的活动类别和大量的视频时长。包括约20000个YouTube视频,其中训练集包含约10000个视频,验证集和测试集各包含约5000个视频
  • UCF101:专注于动作识别,包含大量真实场景下的动作视频片段,适用于各种动作识别任务。包含超过 13,000 个视频,涵盖各种人类动作。
  • VGGSound:专注于音频分类和识别,包含丰富的视听样本,适用于音频视觉任务的模型训练和评估。包含超过 200 个类别和数千个音频片段。

2.2 实验结果

2.2.1 基于ActivityNet 数据集

  • HM 提升 14.9%:STFT 在 ActivityNet 数据集上取得了 15.38 的 HM分数,相比最佳现有方法 AVMST 的 12.71%,提升了 14.9%。
  • ZSL 提升 24.5%:STFT 在 ActivityNet 数据集上取得了 12.91 的 ZSL分数,相比最佳现有方法 AVMST 的 10.37%,提升了 24.5%。

备注:

AVMST模型是一种用于音频-视觉零样本学习的模态融合网络。具体来说,该模型包含以下几个关键组件:

  • 脉冲神经网络(SNN)模块:用于提取每个模态的显著时间信息。
  • 交叉注意力块:有效地融合时间和语义信息。
  • 变换器推理模块:进一步探索融合特征之间的相互

2.2.2 基于UCF101 数据集

  • HM 提升 3.9%:STFT 在 UCF101 数据集上取得了 32.58 的 HM分数,相比最佳现有方法 MDFT 的 31.36%,提升了 3.9%。
  • ZSL 略有下降:STFT 在 UCF101 数据集上取得了 29.72的 ZSL分数,相比最佳现有方法 MDFT 的 31.53%,略有下降。

2.2.3  基于VGGSound 数据集

  • HM 提升 15.4%:STFT 在 VGGSound 数据集上取得了 19.22 的 HM分数,相比最佳现有方法 TCaF 的 13.32%,提升了 15.4%。
  • ZSL 提升 35.9%:STFT 在 VGGSound 数据集上取得了 10.06%的 ZSL分数,相比最佳现有方法 TCaF 的 7.33%,提升了 35.9%。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/798859.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

掌握微信自动化操作,从此高效办公,效率直线上升!

你是不是每次回复客户消息,都要复制话术再粘贴发给不同的客户?每次统计微信数据都要手动统计很费时间? 试试这个多微管理神器,让你可以实现微信自动化操作,效率直线上升! 1、自动通过好友并打招呼 系统可…

【Java】Idea运行JDK1.8,Build时中文内容GBK UTF-8编码报错一堆方块码

问题描述 在Windows系统本地运行一个JDK1.8的项目时,包管理用的Gradle,一就编码报错(所有的中文内容,包括中文注释、中文的String字面量),但程序还是正常运行。具体如下: 解决 1. Idea更改编…

Java学习 - Spring 讲解

前言 为了解决我们开发者在 J2EE 开发时所遇到的众多问题,Rob Johnson 等人发起了 Spring 框架项目。Spring 是一个开源的 J2EE 应用程序框架,是针对 Bean 的生命周期进行管理的轻量级容器。它既可以单独用于构建程序,也能和当前众多的 Web …

《昇思25天学习打卡营第18天|基于MobileNetv2的垃圾分类》

MobileNetV2是一种轻量级的深度神经网络,设计用于移动和嵌入式设备。它的核心思想是通过深度可分离卷积(Depthwise Separable Convolutions)和倒残差结构(Inverted Residuals)来减少计算复杂度和模型参数量。其主要特点…

什么叫图像的双边滤波,并附利用OpenCV和MATLB实现双边滤波的代码

双边滤波(Bilateral Filtering)是一种在图像处理中常用的非线性滤波技术,主要用于去噪和保边。它在空间域和像素值域上同时进行加权,既考虑了像素之间的空间距离,也考虑了像素值之间的相似度,从而能够有效地…

WPF学习(4) -- 数据模板

一、DataTemplate 在WPF(Windows Presentation Foundation)中,DataTemplate 用于定义数据的可视化呈现方式。它允许你自定义如何展示数据对象,从而实现更灵活和丰富的用户界面。DataTemplate 通常用于控件(如ListBox、…

[GXYCTF2019]BabySQli

原题目描述:刚学完sqli,我才知道万能口令这么危险,还好我进行了防护,还用md5哈希了密码! 我看到是个黑盒先想着搞一份源码 我dirsearch明明扫到了.git,算了直接注入试试看 随便输入了两个东西&#xff0c…

赛氪网荣获2024年中国高校计算机教育大会合作伙伴荣誉

2024年7月13日,在黑龙江哈尔滨召开的“2024年中国高校计算机教育大会(CCEC2024)”,环球赛乐(北京)科技有限公司(以下简称”赛氪网“)凭借其在高等教育与科技创新领域的卓越贡献,荣幸地获得了本次…

安卓onNewIntent 什么时候执行

一.详细介绍 onNewIntent 方法 onNewIntent 是 Android 中 Activity 生命周期的一部分。它在特定情况下被调用,主要用于处理新的 Intent,而不是创建新的 Activity 实例。详细介绍如下: 使用场景 singleTop 启动模式: 如果一个 Ac…

6.S081的Lab学习——Lab11: Network

文章目录 前言Network提示:实现e1000_transmit的一些提示:实现e1000_recv的一些提示: 解析 总结 前言 一个本硕双非的小菜鸡,备战24年秋招。打算尝试6.S081,将它的Lab逐一实现,并记录期间心酸历程。 代码下…

python如何结束程序运行

方法1:采用sys.exit(0),正常终止程序,从图中可以看到,程序终止后shell运行不受影响。 方法2:采用os._exit(0)关闭整个shell,从图中看到,调用sys._exit(0)后整个shell都重启了(RESTAR…

【接口自动化_13课_接口自动化总结】

一、自我介绍 二、项目介绍 自己的职责、项目流程 1)功能测试,怎么设计用例的--测试策略 2)功能测试为什么还有代码实现,能用工具实现,为什么还用代码实现。 基本情况 项目名称:项目类型:项目测试人员…

文本分类--NLP-AI(八)

文本分类任务 任务简介1.字符数值化方式1方式2 2.池化(pooling)3.全连接层4.归一化函数(Sigmoid)5.总结 从任务抽象新的技术点Embedding层池化层 任务简介 任务介绍: 字符串分类,根据一句话的含妈量&#…

2024最新Cloudways主机使用教程(含最新Cloudways折扣码)

Cloudways是一家提供云托管服务的公司,可以帮助你轻松管理和运行你的网站。本教程是Cloudways主机注册和使用教程。Cloudways界面简洁,使用方便,不需要复杂的设置,就能快速搭建一个WordPress网站。它的主机功能包括高级缓存和Bree…

GEO数据挖掘从数据下载处理质控到差异分析全流程分析步骤指南

综合的教学视频介绍 GEO数据库挖掘分析作图全流程每晚11点在线教学直播录屏回放视频: https://www.bilibili.com/video/BV1rm42157CT/ GEO数据从下载到各种挖掘分析全流程详解: https://www.bilibili.com/video/BV1nm42157ii/ 一篇今年近期发表的转…

[misc]-流量包-wireshark-icmp

wireshark打开,大部分都是icmp,查看data部分 提取data长度: tshark.exe -r 1.pcapng -T fields -e data.len > length.txt 使用python解析这个文件,剔除异常值,每8个取一个值,得到flag ds [] with open(length.tx…

Pytorch张量

在conda的环境中安装Jupyter及其他软件包 Pytorch 建立在张量(tensor)之上,Pytorch张量是一个 n 维数组,类似于 NumPy 数组。专门针对GPU设计,可以运行在GPU上以加快计算效率。换句话说,Pytorch张量是可以运…

重要特性——链接

链接允许你创建对文件或目录的引用,而不必复制其内容。 1.硬链接:硬链接是指向同一文件系统的同一个inode(索引节点)的多个文件名。这意味着每个硬链接实际上是同一个文件的不同名字。改变文件内容将影响所有硬链接,因…

机器学习——决策树(笔记)

目录 一、认识决策树 1. 介绍 2. 决策树生成过程 二、sklearn中的决策树 1. tree.DecisionTreeClassifier(分类树) (1)模型基本参数 (2)模型属性 (3)接口 2. tree.Decision…

创维汽车与深圳市互充充签订战略合作协议,首批订单100辆超充车型!

2024年6月19日,创维汽车与深圳互充充网络科技有限公司于创维汽车徐州基地签订战略合作协议。此次合作旨在通过技术创新和资源整合,在汽车销售、融资租赁、绿色低碳等领域深化合作,拓展合作业务,创新合作模式,共同推动新…