集智书童 | 用于时态动作检测的预测反馈 DETR !

本文来源公众号“集智书童”,仅用于学术分享,侵权删,干货满满。

原文链接:用于时态动作检测的预测反馈 DETR !

视频中的时间动作检测(TAD)是现实世界中的一个基本且具有挑战性的任务。得益于 Transformer 的独特优势,各种基于DETR的方法已在TAD中得到应用。

然而,最近的研究发现,DETR中自注意力层中的注意力衰减导致了其性能下降。本文在之前研究的基础上,针对DETR基础TAD方法中的交叉注意力层注意力衰减问题进行新的探讨。

此外,作者的研究结果发现,交叉注意力与预测之间存在与预测不同的模式,这表明了一个短路现象。为了解决这个问题,作者提出了一种新的框架,即预测反馈DETR(Pred-DETR),该框架利用预测来恢复注意力衰减并使交叉注意力与预测对齐。

具体而言,作者从预测的相互关系中设计出了新的预测反馈目标。

因此,Pred-DETR在缓解衰减并实现各种具有挑战性的基准测试结果(包括THUMOS14、ActivityNet-v1.3、HACS和FineAction等基于DETR的方法的最新性能)方面取得了良好的效果。

1 Introduction

随着社会的进步,视频媒体的使用越来越广泛,因此,寻找未剪辑视频中所需特定片段的效率方法的需求也在迅速增长。Temporal Action Detection(TAD)是一个基本任务,旨在识别视频中的特定动作并确定它们的时间边界。TAD主要通过两阶段的方法得到了提高。然而,最近的研究越来越多地关注基于DETR的端到端方法。

DETR [10]是一种最初在目标检测领域提出的框架,也是第一个使用集合预测的端到端检测框架。DETR方法还扩展到了视频领域,并应用于TAD 。在TAD中,每个 Query 用于预测视频中的一个动作及其对应的时间间隔。为了实现这一点,采用二分匹配来将每个 Query 与GT动作及其在未剪辑视频中的时间间隔对齐。这种方法的一个显著优点是排除了传统的启发式方法,如非极大值抑制(NMS)。

尽管标准注意力(简称为原始-DETR)的DETR在与变形DETR[16]在目标检测方面可以兼容,但在TAD的原始-DETR(即使最近采用了DAB-DETR[16]这样的结构)甚至表现更差。最近,问题的根源被Self-DETR[16]确定为自注意力(SA)中的注意力衰竭问题,如图1(e)所示,其中所有解码器 Query 都聚焦在几个 Query 上。注意力衰竭是注意力模块跳过的现象,目的是防止模型退化为秩1矩阵。Self-DETR利用交叉注意力(CA)图来恢复塌陷的SA。

然而,他们的解决方案依赖于CA的健壮性,否则它可能是不最佳的。作者发现CA不是健壮的,而更为糟糕,如图1所示。该图显示了CA解码器 Query 关注于少数编码器特征((图1中的(a))),并在几乎所有的 Query 中显示相同的模式。这是一个特别关键的问题,因为CA对于该任务至关重要,因为它在 Query 和视频特征之间架起了桥梁。这使作者得出解决CA塌陷并开发另一种自我反馈方法的结论。

图1还插入了(b)中的局部化预测和(f)中相应的交互与统一(IoU)映射作为 Query 的自我关系。在图中,注意力图清楚地显示出不同的模式,与它们的预测和自我关系无关。通常,作者理解为注意力图表示了模型关注的重点,因此暗示了为什么会产生这些结果。

因此,这种现象类似于一个捷径,模型依赖简单的线索,而不是有意义的表现。尽管存在塌陷的注意力,但模型仍可以生成多样且合理的结果,尽管所有的 Query 都关注相同的背景区域,如图1中的CA中所示。这是因为目标检测任务中的二元匹配通过惩罚重复结果来施加不同的预测。基于这个观察,作者建议将注意力图与相应的预测对齐。通过使用预测而不是塌陷的CA作为注意力指南,作者的目标是扩展模型,解决关注塌陷问题。

为此,作者提出一个新的框架,即预测反馈DETR(Pred-DETR),来解决DETR中整个注意力机制的塌陷问题。作者的方法首先将解码器 Query 之间的关系表示为DETR预测与时间间隔之间的IoU相似性映射。作者还把CA映射转化为解码器 Query 的自我关系。接下来,作者引入一个辅助目标,将CA和SA映射的自我关系与基于预测的IoU相似性映射对齐。此外,作者利用最近DETR机制的编码器预测来引导编码器SA和解码器CA。在包括THUMOS14,ActivityNet-v1.3,HACS和FineAction在内的各种具有挑战性的基准测试中,作者证明了所提出的方法显著减少了关注塌陷问题的程度。此外,激活的注意力导致了显著的性能改进,使其成为基于DETR方法的新颖最先进水平。

总之,作者的主要贡献如下:

  • 作者在TAD(Transformer-only Action Detection)的cross-attention中发现了注意力衰减问题。特别是,作者发现cross-attention的明显模式与预测不同,这意味着衰减现象是由于衰减引起的。

  • 作者提出了一种新的框架,叫做预测反馈DETR(Pred-DETR),它利用预测来减轻注意力衰减。作者为衰减的注意力模块设置一个辅助目标,使其与预测的IoU关系对齐。

  • 作者的广泛实验表明,Pred-DETR通过保持高关注度的多样性显著降低了注意力衰减的程度。此外,作者还验证了作者的模型在与DETR模型相比实现了新的最先进性能,这些模型是基于THUMOS14、ActivityNet-v1.3、HACS和FineAction的。

2 Related Work

2.1 Temporal Action Detection

动作检测(TAD)任务的目标是识别无剪辑视频中的动作时间段并将其分类为一类实例。在过去十年中,通过基础方法的研究和应用,TAD领域取得了显著的进展。受到目标检测中两阶段机制的成功启发,许多TAD方法采用了多阶段框架。

后续工作,点播学习被广泛应用于生成更灵活的 Proposal ,无需预先定义时间窗口。SSN[17]和TCN[19]引入了生成 Proposal 周围的扩展时间上下文,以提高排名性能。BSN[18]和BMN[19]将开始-结束对分组到不同的动作 Proposal 中,并对其进行最终局部化预测。BSN++[19]在BN的基础上指出,基于BSN的动作尺度存在不平衡问题。近日,ActionFormer[20]和TriDet[21]利用 Transformer 编码器作为多尺度 Backbone 网络,并BRN[18]解决了TAD的多尺度特征问题。

2.2 DETR

DETR [19] 是将目标检测视为直接的二元匹配预测问题,允许端到端检测无需任何人类启发式,例如置信度限制(NMS)。然而,DETR的需求是传统方法的10倍,因为二分匹配难以优化。为此问题,变形DETR [19]引入了稀疏注意力,通过学习指定关注的位置只关注一部分元素。基于DETR的后续模型 [19, 18]进一步通过显式编码边界信息提升了 Query 表示,这有效地帮助了训练的稳定性。

在TAD中,基于DETR的方法也被部署为DETR已达到了新的目标检测最先进性能。RTD-Net [18]识别了DETR中的密集注意力的问题,该问题表现出近似均匀分布,使得自注意力层像过度平滑一样发挥作用。TadTR [18]设计的根据变形DETR [19]的启发式设计的时序变形注意力。RecAct [19]提出了一个新的关系匹配来强制低重叠和高特征相似度的 Query 之间的高相关性。此外,LTP [18]提出了一种专为DETR设计的前向训练策略。

最近,自适应DETR [18]揭示了TAD中DETR性能下降的问题,即自注意力中的注意力衰竭,并提出了自反馈利用交叉注意力映射的引导来利用。虽然它明显降低了注意力衰竭的程度,但最佳性能取决于交叉注意力的假设。然而,作者发现交叉注意力已经崩溃,因此引入预测引导反馈,根据预测关系激活交叉注意力和自注意力。

3 Our Approach

本节介绍了作者提出的Pred-DETR方法中的预测反馈机制。具体来说,作者首先详细阐述了预备知识,讨论了注意力消融和预测。然后,作者介绍了预测反馈机制的解释,并描绘了整个框架,如图2所示。此外,作者还通过最近提出的DETR架构,将预测反馈机制扩展到编码器,仅用于训练。最后,作者总结了Pred-DETR的整体目标。

3.1 Preliminary

DETR采用了 Transformer (transformer)架构,主要由编码器(encoder)和解码器(decoder)两个部分组成。首先,编码器通过相似度计算(SA)捕捉输入特征之间的全局关系。

另一方面,解码器在目标 Query (object queries)和编码器特征(encoder features)之间执行交叉注意力(cross-attention)操作。这里目标 Query 是可学习嵌入向量(learnable embedding vectors) ,类似于 Anchor 点(anchors)的位置信息。这种机制确保每个 Query 都关注到编码器处理的最相关输入特征部分。

注意崩溃(Attention Collapse)。 注意崩溃是一种现象,其中注意力矩阵成为秩-1矩阵,以跳过注意力模块,从而防止学习[13]的退化。崩溃的注意力输出所有 Query 的均匀值,导致输入通过残差连接不需要额外的表示来传递。在本论文中,作者首次发现了 CA 的崩溃现象。这个问题使人们对 CA是可靠性的假设产生疑问。因此,需要整个注意力模块来完成崩溃的完全补救措施。

来自预测的反馈。 DETR 是最先实现端到端检测机制的作品,其中没有 Anchor 框或非极大值抑制(NMS)。由于不存在预定义的预测和真实值之间的匹配,因此它使用可学习的 Query 和二分匹配来为 Query 分配检测目标。由于匹配是一一映射,因此 DETR 预测结果将是多样的,因为当两个 Query 产生类似的局部定位结果时,一个 Query 将得到负损失。从这种特性的观点出发,预测的反馈可以激活崩溃注意力模块。

讨论: 在初始训练阶段,模型生成欠训练的预测。人们可能担心早期的反馈会影响模型的学习。然而,在前几轮迭代中,TAD的目标主要是优化反馈,确保欠训练的反馈不会破坏训练。此外,需要注意的是,由预测得出的指导并不构成注意力最佳关系。反馈充当规范器,帮助注意力图保持在预测附近,并维持与主要目标之间的平衡。同时,当预测反馈缓解崩溃时,CA的健全性得到恢复。这使得先前的 Self-DETR 工作的完整功能得到恢复。实验结果表明,恢复的 CA 显著提升了其性能。

3.2 Objectives

4 Experiments

4.1 Datasets

在本文中,作者使用了四个时间动作检测的挑战性基准:THUMOS14 江 et al. (2014),ActivityNet-v1.3 Fabian Caba Heilbron 和 Niebles (2015),HACS Zhao et al. (2019) 和 FineAction Liu et al. (2022)。

THUMOS14 分别有200 和 213 个视频用于训练集和验证集。该数据集包含与体育相关的20种动作类别。

ActivityNet-v1.3 包含 19,994 个视频,共200种动作类别。其中,10024、4926 和 5044 个视频分别用于训练、验证和测试。

HACS 中包含37613 和5981个视频,分别用于训练和验证,共200个动作类别,与ActivityNet-v1.3共享。

FineAction 包含每日事件,共计106个类别和16732个视频。THUMOS14 和FineAction 包含许多短暂的动作,而ActivityNet-v1.3 和HACS中的大多数视频则具有较长的动作。

4.2 Implementation Details

架构 作者使用了在Kinetics上的I3D Carreira和Zisserman于2017年预训练并于THUMOS14和ActivityNet-v1.3上使用。此外,作者分别采用SlowFast Feichtenhofer等人(2019)和Wang等人(2023)的VideoMAEv2-g以及在Deformable-DETR上的DAB-DETR的时序版本(如Self-DETR)。

用于TAD的增强DAB-DETR 此外,作者在DAB-DETR上引入了先进的技巧,包括保持匹配Liu等人(2023)、混合匹配Jia等人(2023)以及来自Deformable-DETR的两阶段机制。保持匹配利用预测与实际之间的IoU值作为类概率的目标值。

这与TadTR中的动作性回归密切相关。请注意,作者并未使用编码器的预测作为初始解码器 Query 。作者发现保持匹配显著提高了性能,这与TadTR的结果相符。然而,两阶段机制略微改进了它,因为它是因预测反馈而引入的。作者还报告了在补充材料中每个组成部分带来的好处的研究。

4.3 Main Results

与中国最先进的算法相比较。表格. 1显示了在THUMOS14和ActivityNet-v1.3上的比较结果。此外,表格. 2和表格. 3显示了在HACS和FineAction上的比较结果。Pred-DETR在多个基准测试中均优于基于DETR的方法。

第一部分由“标准方法”标识,包含非DETR方法,第二部分包括基于DETR的模型。此外,在基于DETR的模型中,RTD-Net,Self-DETR和作者的方法基于标准注意力,而TadTR和ReAct基于变形注意力。作者也指出了基础特征,称为“Feats”。大多数方法利用了TSN Wang等人(2016)或I3D特征,而一些方法也采纳了TSP Alwassel等人(2021)的特征。

在表格中,作者的模型在所有基准测试上均优于所有DETR基组模型。这表明,在注意力坍塌问题得到缓解时,原DETR架构可以在TAD中与变形DETR架构具有可比性或优越性,这与目标检测Lin等人(2023)的观察相吻合。更值得注意的是,Pred-DETR在包含非DETR的方法的ActivityNet-v1.3上表现最好。DETR基组方法在ActivityNet和HACS上的表现优于THUMOS14和FineAction上的表现。这可能是因为ActivityNet和HACS主要包含长时间动作,而THUMOS14和FineAction包含许多短实例。精确预测短动作需要高时间分辨率,而DETR尚未能够处理such a long sequence,因为其 Query 架构。尽管如此,最近的一些DETR模型包括作者的模型在处理短长度序列时超过了处理短长度序列的除了ActionFormer和TriDet的非DETR模型显示出优越的性能。

多样性是在ActivityNet-v1.3上的测试集上测量的,包括所有测试样本。当模型深度加深时, Baseline 的多样性接近0。然而,Pred-DETR的多样性并未下降,甚至有所增加。从这些结果来看,预测反馈有效地缓解了塌陷问题。

图5显示了编码器和解码器中的自注意力和交叉注意力的可视化。如图所示,基准DETR在所有注意模块上都出现了注意崩塌的现象。然而,作者的模型没有出现崩塌,展示出表达能力。

预测反馈目标。 在反馈中的自注意力目标方面,作者可以采用自注意力中与预测相交汇的建议。上表5显示了使用自注意力的结果。如果不使用交叉注意力预测反馈,作者可以看到反馈(用表中的'Pred Relation'表示)的性能优越于与交叉注意力(从CA)反馈。此外,当引入作者的交叉注意力预测反馈时,性能提升变得更大,因为交叉注意力的注意崩塌现象显著缓解了。

在作者的交叉注意力(cross-attention)预测反馈系统中,作者提出了利用交叉注意力的间接关系。也许你会认为一个直接的方法就是将真实值或预测区间与交叉注意力图进行匹配。但是,作者声称这种方式显著损害了用于交叉注意力的表示的多样性,主要是因為作者并不确切知道交叉注意力的应该关注的点。表5的底部展示了在ActivityNet-v1.3上的三种目标的结果。真实值或预测区间的目标(真实值称为'Ground-Truth',预测区间称为'Prediction Intervals')性能应符合预期地下降。然而,利用预测关系(Prediction Relation)的间接方法显著地提高了性能。

5 Conclusion

在本文中,作者发现在TAD的交叉注意力存在注意力消失。作者发现模型在预测上呈现出明显不同于预测的模式,这是一种由注意力消失引发的自捷径现象。为此,作者提出了预测反馈DETR(Pred-DETR)来将注意力与预测对齐。通过提供具有预测引导的辅助目标,预测反馈显著缓解了注意力消失的程度。作者的广泛实验证实Pred-DETR在THUMOS14,ActivityNet-v1.3,HACS和FineAction上的DETR模型超越了最先进的表现。

6 参考论文

[1].Prediction-Feedback DETR for Temporal Action Detection.

下载地址:2408.16729v2 (arxiv.org)

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/888027.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

什么是 HTTP Get + Preflight 请求

当在 Chrome 开发者工具的 Network 面板中看到 GET Preflight 的 HTTP 请求方法时,意味着该请求涉及跨域资源共享 (CORS),并且该请求被预检了。理解这种请求的背景,主要在于 CORS 的工作机制和现代浏览器对安全性的管理。 下面是在 Chrome …

Linux: network: 典型网络延迟图,CPU导致;

接上回说,https://mzhan017.blog.csdn.net/article/details/142689870; 其中在debug的过程中,看到下面这个IO图,这个图比较经典,是一个典型的网络延迟图,可用作为分析问题的一个参考。 如下图:黑…

2024年10月HarmonyOS应用开发者高级认证全新题库

注意事项:切记在考试之外的设备上打开题库进行搜索,防止切屏三次考试自动结束,题目是乱序,每次考试,选项的顺序都不同 新版题库:单选题40题 多选题20题 注意选项答案顺序不一样,大家记得看选项…

Redis篇(缓存机制 - 基本介绍)(持续更新迭代)

目录 一、缓存介绍 二、经典三缓存问题 1. 缓存穿透 1.1. 简介 1.2. 解决方案 1.3. 总结 2. 缓存雪崩 2.1. 简介 2.2. 解决方案 2.3. 总结 3. 缓存击穿 3.1. 简介 3.2. 解决方案 3.3. 总结 4. 经典三缓存问题出现的根本原因 三、常见双缓存方案 1. 缓存预热 1…

第Y2周:训练自己的数据集

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 在上一次体验yolov5s的为基础上,这次将训练自己的数据集。 在YOLO目标检测算法中常用的三种标签格式:voc(xml)、coco(json)和yolo(txt…

安防监控/视频系统EasyCVR视频汇聚平台如何过滤134段的告警通道?

视频汇聚/集中存储EasyCVR安防监控视频系统采用先进的网络传输技术,支持高清视频的接入和传输,能够满足大规模、高并发的远程监控需求。平台支持国标GB/T 28181协议、部标JT808、GA/T 1400协议、RTMP、RTSP/Onvif协议、海康Ehome、海康SDK、大华SDK、华为…

LabVIEW提高开发效率技巧----严格类型化定义

在LabVIEW开发过程中,严格类型化定义(Strict Typedefs) 是一种工具,用于保证程序中控件和常量的一致性,减少错误,提高维护效率。通过使用严格类型化定义,开发者可以确保在程序的多个地方引用相同…

个人项目简单https服务配置

1.SSL简介 SSL证书是一种数字证书,由受信任的证书颁发机构(CA)颁发,用于在互联网通信中建立加密链接。SSL代表“安全套接层”,是用于在互联网上创建加密链接的协议。SSL证书的主要目的是确保数据传输的安全性和隐私性…

Windows:win11旗舰版连接无线显示器,连接失败

摘要:win11系统通过 miracast 无线连接到长虹电视的时候,一直连接不上。查看电脑又是支持 miracast 协议,后续发现关闭防火墙即可正常连接。 一、问题现状 最近公司里新换了电视,打算把笔记本电脑投屏到电视上。由于 HDMI 插拔不…

python-pptx 中 placeholder 和 shape 有什么区别?

在 python-pptx 库中,placeholder 和 shape 是两个核心概念。虽然它们看起来相似,但在功能和作用上存在显著的区别。为了更好地理解这两个概念,我们可以通过它们的定义、使用场景以及实际代码示例来剖析其差异。 Python-pptx 的官网链接&…

深入理解Linux内核网络(二):内核与用户进程的协作

内核在协议栈接收处理完输入包以后,要能通知到用户进程,让用户进程能够收到并处理这些数据。进程和内核配合有很多种方案,第一种是同步阻塞的方案,第二种是多路复用方案。本文以epoll为例 部分内容来源于 《深入理解Linux网络》、…

101. 对称二叉树【 力扣(LeetCode) 】

文章目录 零、原题链接一、题目描述二、测试用例三、解题思路3.1 递归3.2 迭代 四、参考代码4.1 递归4.2 迭代 零、原题链接 101. 对称二叉树 一、题目描述 给你一个二叉树的根节点 root , 检查它是否轴对称。 进阶:你可以运用递归和迭代两种方法解决…

【MySQL】使用 JDBC 连接数据库

文章目录 前言1. 认识 JDBC1.1 概念1.2 好处 2. 使用 JDBC2.1 安装数据驱动包2.2 把 jar 包导入到项目中2.3 代码编写2.4 测试结果 3. 代码优化4. 源码展示结语 前言 在 MySQL 系列中,我们介绍了很多内容,包括但不限于建库建表,增删查改等等…

微信步数C++

题目: 样例解释: 【样例 #1 解释】 从 (1,1) 出发将走 2 步,从 (1,2) 出发将走 4 步,从 (1,3) 出发将走 4 步。 从 (2,1) 出发将走 2 步,从 (2,2) 出发将走 3 步,从 (2,3) 出发将走 3 步。 从 (3,1) 出发将…

基于基于微信小程序的社区订餐系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、Vue项目源码、SSM项目源码、微信小程序源码 精品专栏:…

ElasticSearch备考 -- Async search

一、题目 通过异步方式查询earthquakes索引下Magnitude大于5的数据 二、思考 正常的查询大家可能会用的多一点,这种异步查询为数据量比较大的查询在后台执行,不用同步等待结果,待执行完成在获取结果。 三、解题 Step 1、准备基础数据 # D…

Sping源码:三级缓存

目录 一、概念1、三级缓存的作用2、循环依赖的含义 二、代码1、代码下载2、文件功能介绍3、源码分析3.1、找到获取A对象的位置,打断点进行debug操作3.2、一步步找到在A对象中注入B对象的位置3.3、一步步找到B对象注入A对象的位置3.4、往下找到通过三级缓存解决循环依…

YouTube音视频合并批处理基于 FFmpeg的

专门针对YouTube高品质分享处理的,将音频和视频合并。 首先下载ffmpeg.exe网上随便下载。 echo off title YouTube 音视频合并 20241004 echo 作者:xiaoshen echo 网站:http://www.xiaoshen.cn/ echo. set /p audio请将【音频】文件拖拽到此…

六、Java 基础语法(下)

一、变量 1、变量的定义与使用 变量就是内存中的存储空间,空间中存储着经常发生改变的数据变量定义格式: 数据类型 变量名 数据值使用时根据变量名使用举例如下,上面是代码,下面是输出 2、变量的注意事项 变量名不允许重复…

Vue入门-指令学习-v-show和v-if

v-show: 作用:控制元素的显示隐藏 语法:v-show"表达式" 表达式值true显示,false隐藏 v-if 作用:控制元素的显示隐藏(条件渲染) 语法: vif"表达式" 表达式tr…