CVPR 2024 | Open-Vocabulary Video Anomaly Detection

CVPR 2024 - Open-Vocabulary Video Anomaly Detection

  • 论文:https://arxiv.org/abs/2311.07042
  • 原始文档:https://github.com/lartpang/blog/issues/14

在这里插入图片描述

这篇文章主要研究了开放词汇视频异常检测(openvocabulary video anomaly detection,OVVAD)的问题,这是一个具有挑战性但实际重要的问题。

传统方法不能处理开放词汇场景下的视频异常检测:

  • 主要是因为它们通常针对特定类别或已知异常进行训练和检测,缺乏对未知异常(即开放词汇)的泛化能力。
  • 此外,传统方法往往难以充分挖掘和利用视频数据中的时空信息以及外部知识,从而限制了其在开放词汇场景下的性能。

该研究提出了一种基于预训练大型模型的解决方案。利用语言图像预训练模型,如 CLIP 作为基础,得益于其强大的零样本泛化能力。

在这里插入图片描述

具体而言,将开放词汇视频异常检测任务分解为类无关检测(class-agnostic detection)和类特定分类(class-specific categorization)这样两个互补的子任务,以更好地处理开放词汇视频异常检测问题。并引入了几个专用模块来促进对基线和新异常的检测。

  • 对于类无关的检测:设计了时序适配器模块(TA)和语义知识注入模块(SKI),主要旨在提高检测性能;
    • 时序适配器模块 TA:现有的基于时序 Transformer 的设计面对新的类别时性能衰退严重,可能的原因是其中的额外参数特化于训练集,损害了对于新类别的泛化能力。因此本文设计了一个构建在经典的图卷积网络之上的几乎无权重的时序适配器来处理时序依赖,即 x t = LN ( softmax ( H ) x f ) , H i , j = − ∣ i − j ∣ σ x_t = \text{LN}(\text{softmax}(H)x_f), H_{i,j}=\frac{-|i-j|}{\sigma} xt=LN(softmax(H)xf),Hi,j=σij 来对各帧特征进行交互重组,这里仅有的额外参数来自于 LN。
    • 语义知识注入模块 SKI:该模块旨在将额外的语义知识引入视觉检测任务中,以提高模型性能。SKI 引入额外的关于异常场景的短语(包括场景名词和动作动词)作为先验知识输入 CLIP。然后使用视觉特征利用类似于 cross-attention 的操作从文本特征中寻找相关的语义知识 F k n o w = sigmoid ( x t F t e x t ⊤ ) F t e x t ⊤ / l F_{know} = \text{sigmoid}(x_t F^{\top}_{text})F^{\top}_{text}/l Fknow=sigmoid(xtFtext)Ftext/l。这里使用 sigmoid 函数来促使视觉信号可以组合更多相关的语义概念。模块输出直接送入二值检测器中获得类无关检测的帧异常和视频异常得分。
  • 对于细粒度异常分类:考虑到 CLIP 这样的预训练 VLM 面对视频相关的数据时 zore-shot 能力有限,本文使用新异常合成模块(NAS)基于潜在的异常类别生成可能的伪新异常视频样本,以帮助模型更准确地分类新异常类型。主要由三个关键过程组成:
    • 首先,使用预定义的模板提示生成器(prompt_gen)来提示大型语言模型(LLMs),例如 ChatGPT 和 ERNIE Bot,以生成有关现实世界中“战斗”的十个简短场景描述。
    • 然后,使用 AI 生成模型(AIGC)例如 DALLE mini 和 Gen-2,从生成的文本描述中产生相应的图像(Igen)或短视频(Sgen)。
    • Igen 会从单个图像转成视频片段,具体使用不同的检测比例中心剪裁图像中的对应区域,然后放缩到原始尺寸后,堆叠形成新的视频片段 Scat。
    • 为了模拟完整长异常视频中真实世界场景,这里将生成的 Scat 或者 Sgen 被随机插入到正常视频中的随机位置上,从而获得最终的伪异常视频样本 Vnas。
    • 利用这些 Vnas 可以微调训练在现有标准数据集(包含正常样本和异常样本)上的模型,从而增强其对于新异常的泛化能力。

实验结果表明,该模型在三个公开基准 UBnormal,UCF-Crime,XD-Violence 上优于现有方法,特别是在处理新类别时表现出明显的优势。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/533931.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Python列表到Excel表格第一列的转换技术详解

目录 一、Python列表与Excel表格的关系 二、所需工具与库 三、使用openpyxl将列表写入Excel第一列 四、使用pandas将列表写入Excel第一列 五、案例分析与注意事项 六、扩展应用与进阶学习 七、总结与展望 在数据处理和分析中,经常需要将Python中的数据&#…

【C 数据结构】双向链表

文章目录 【 1. 基本原理 】【 2. 双向链表的 创建 】实例 - 输出双向链表 【 3. 双向链表 添加节点 】【 4. 双向链表 删除节点 】【 5. 双向链表查找节点 】【 7. 双向链表更改节点 】【 8. 实例 - 双向链表的 增删查改 】 【 1. 基本原理 】 表中各节点中都只包含一个指针&…

AI大模型的创业机会

大模型的创业机会主要集中在以下几个方面,这些创业机会不仅能够帮助企业提高效率和创新能力,还能够推动AI技术的普及和发展。随着技术的不断进步和应用场景的拓展,未来可能会出现更多的创业机会。北京木奇移动技术有限公司,专业的…

陪玩小程序开发 运营级别陪玩成品搭建 支持二开源码交付 游戏陪玩系统,游戏陪玩源码,游戏陪玩语音社交源码

陪玩系统是一种新兴的服务模式,主要通过线上预约和线下社交、陪伴、助娱、分享、指导等方式为用户提供服务。这种服务模式适用于多种场景,包括家庭陪护、吃饭陪聊、景点伴游、网游陪练、健身指导、线下桌游、酒吧K歌、逛街观影、剧本密室、聚会轰趴、美食…

钉钉和金蝶云星空接口对接实战

钉钉和金蝶云星空接口对接实战 对接源平台:钉钉 钉钉(DingTalk)是阿里巴巴集团打造的企业级智能移动办公平台,是数字经济时代的企业组织协同办公和应用开发平台。钉钉将IM即时沟通、钉钉文档、钉闪会、钉盘、Teambition、OA审批、智能人事、钉…

三款好用的 Docker 可视化管理工具

文章目录 1、Docker Desktop1.1、介绍1.2、下载地址1.3、在Windows上安装Docker桌面1.4、启动Docker Desktop1.5、Docker相关学习网址 2、Portainer2.1、介绍2.2、安装使用 3、Docker UI3.1、介绍3.2、安装使用3.2.1、常规方式安装3.2.2、通过容器安装 Docker提供了命令行工具&…

电脑剪切复制到u盘文件丢失怎么办?未备份者的应急指南

在日常生活和工作中,我们经常使用电脑和U盘进行文件的传输和备份。然而,在剪切复制文件到U盘的过程中,有时可能会遇到文件丢失或无法找到的问题,而这时又没有备份,这无疑让人头疼不已。那么,面对这种情况&a…

个人在线要饭网站源码

源码简介 施舍也要讲究便捷,如果能像购物一样,那也是很美的一件事情; 接入了支付宝当面付系统. 安装环境 php5.6 Nginx 安装教程 1.上传源码压缩包到网站目录并解压即可 2.支付配置 /修改文件 app/config.php /*** 请填写以下配置信…

FX110网:西班牙CNMV 警告10家未受监管的外汇交易商!

2024年4月8日,西班牙国家证券市场委员会(西班牙语:Comisin Nacional del Mercado de Valores),即CNMV, 警告了10家未经授权的外汇交易商。 CNMV是监管西班牙证券交易市场的监管机构,交易商若被此…

Unity Shader之数学篇

一、坐标系 1、二维笛卡尔坐标系 屏幕坐标系是二维笛卡尔坐标系,OpenGL的屏幕坐标系原点在左下角,DirectX的屏幕坐标系原点在左上角。 2、三维笛卡尔坐标系 三维笛卡尔坐标系要区分是左手坐标系还是右手坐标系。 左手坐标系:举起你的左手…

三个域对象

一、Servlet中的三个域对象 请求域:request会话域:session应用域:application 三个域都有以下三个方法: // 向域中存储数据 void setAttribute(String name, Object obj);// 从域中读取数据 Object getAttribute(String name);…

mysql重启失败

服务器重启了一下,然后启动后发现mysql自动启动没有生效,于是手动通过systemctl启动mysqld,然后就报错:Starting MySQL...........The server quit without updating P[FAILED](/data/mysql/iz2zebvmy1qv3fao9c5riuz.pid). 根据配置my.cnf文…

ccf201509-3模板生成系统(list,map,字符串综合运用)

问题描述 成成最近在搭建一个网站,其中一些页面的部分内容来自数据库中不同的数据记录,但是页面的基本结构是相同的。例如,对于展示用户信息的页面,当用户为 Tom 时,网页的源代码是: 而当用户为 Jerry 时…

R语言ggplot2绘图学习笔记(基础知识大全)

R语言ggplot2绘图入门笔记 今天分享的内容是在R语言中利用ggplot2进行可视化的入门笔记,适用于初学者了解ggplot2绘图系统。干货满满,建议收藏! 首先安装以下R包: install.packages(c("tidyverse", "colorspace&qu…

为什么学生很难真正学好嵌入式?

10几年前,我是读电气工程专业,学了很多东西,结构,电机、绘图,plc等等.. 其实,都没什么鸟用,出来还是像个废物。 后面我自学转了单片机开发,说句难听点,自己买个开发板都比…

数据科学家常用的24个Python库,2024年最新美团架构师深入讲解Python开发

Scikit-learn是构建模型的Python库。事实上,scikit-learn建立在NumPy,SciPy和matplotlib之上。 TensorFlow TensorFlow由Google开发,是一个流行的深度学习库,可帮助您构建和训练不同的模型。 PyTorch PyTorch是一个基于Python…

强化学习MPC——(一)

目录 1.什么是强化学习2.强化学习的发展历史2.1最优控制2.2试错学习2.3时间差分(TD)学习 3强化学习的分类4强化学习基本概念 1.什么是强化学习 强化学习是机器学习的一种,是一种介于监督学习和非监督学习的机器学习方法。 学习二字就很形象…

在线预约小程序怎么做

在快节奏的现代生活中,无论是预约理发、还是预定餐厅,亦或是挂号就医,我们都希望有一个更加便捷、高效的方式来完成这些任务。而今,随着科技的发展,一款全新的在线预约小程序应运而生,为我们的生活带来了前…

全局锁和表锁 :给表加个字段怎么有这么多阻碍?

全局锁和表锁 :给表加个字段怎么有这么多阻碍? 今天我要跟你聊聊 MySQL 的锁。数据库锁设计的初衷是处理并发问题。作为多用户共享的资源,当出现并发访问的时候,数据库需要合理地控制资源的访问规则。而锁就是用来实现这些访问规则…

微信小程序页面交互综合练习 (重点:解决“setData of undefined”报错问题)

一、写一个注册表单,点击“注册”按钮将用户输入的数据带到服务器,并且能在控制台显示参数。 (1)首先,我需要在vscode里面创建一个简易的node.js服务器 //第一步:引入http模块 var http require(http); //第二步:创建…