CoSeg: Cognitively Inspired Unsupervised Generic Event Segmentation

名词解释

1.特征重建
特征重建是一种机器学习中常用的技术,通常用于自监督学习或无监督学习任务。在特征重建中,模型被要求将输入数据经过编码器(encoder)转换成某种表示,然后再经过解码器(decoder)将这种表示转换回原始的输入数据。
具体来说,特征重建的过程通常分为以下几个步骤:

1.编码(Encoding): 输入数据经过编码器,被映射到一个低维度的表示空间中,这个表示通常称为特征向量或隐藏表示。

2.重建(Reconstruction): 编码后的特征向量再经过解码器,被映射回原始的输入空间,尝试重建原始输入数据。

3.损失计算(Loss Computation): 通过比较重建数据与原始数据之间的差异,计算出重建误差或损失值。

4.优化(Optimization): 模型被训练以最小化重建误差,通过调整编码器和解码器的参数来提高重建的准确性。

在自监督学习中,通常使用无标签的数据来进行特征重建,因此模型必须依靠数据本身来学习如何有效地表示和重建输入。这样做的好处在于可以在本身是无监督的任务中,图片本身自己去学习自己的有用表示,有助于提取图片中的关键信息,从而提高后续任务的性能。因为往常的视频分割任务通常都会有人工标注的昂贵的注释集,而本文应用特征重建是由于语义的异质性,边界处的帧很难重建(通常具有较大的重建误差),这有利于事件边界检测(这样就能很容易检测出边界)。

2.语义视觉表示
语义视觉表示是指通过计算机视觉技术将图像或视频数据转换为具有语义含义的向量或特征表示。这种表示捕捉了图像或视频中物体、场景和动作等高级概念的语义信息,而不仅仅是低级的像素值或几何特征。

在语义视觉表示中,模型通常会学习到与物体类别、场景描述或动作等相关的特征,这些特征具有更高层次的抽象性,能够更好地反映数据的语义内容。这种表示有助于计算机理解图像或视频,并支持各种计算机视觉任务,如物体识别、场景理解、行为分析等。

语义视觉表示的生成可以通过多种方式实现,包括传统的手工设计特征提取器、基于深度学习的端到端表示学习方法以及结合语义信息的生成式模型等。随着深度学习技术的发展,基于深度神经网络的方法已经成为生成语义视觉表示的主流方法之一,这些方法可以在大规模数据集上进行端到端的训练,从而学习到更加丰富和高效的语义表示。

总的来说,语义视觉表示是计算机视觉领域中一种重要的数据表示形式,它将图像或视频转换为具有语义含义的向量表示,为各种视觉任务提供了有力支持。

3.特征空间和像素空间
特征空间和像素空间是在计算机视觉和机器学习中经常提到的两个概念,它们描述了数据在不同层次上的表示方式和表达内容的不同。

1.像素空间:
在像素空间中,图像被表示为一个由像素组成的矩阵,每个像素包含有关图像中某个位置的颜色或灰度信息。像素空间是图像的原始表示形式,它反映了图像中每个位置的具体像素值,通常是RGB颜色空间中的值或灰度值。像素空间中的操作通常是基于像素级别的,例如图像增强、滤波、边缘检测等处理都是直接在像素空间上进行的。

2.特征空间:
在特征空间中,图像被表示为一组抽象的特征向量或特征表示,这些特征捕捉了图像中的语义信息和高级结构。特征空间中的特征通常是通过特征提取器或深度神经网络从原始图像中学习得到的,它们可能表示物体、场景、纹理等高级概念。特征空间的表示更加抽象和语义化,它能够更好地捕捉到图像的语义内容,而不仅仅是像素级别的细节。在特征空间中进行的操作通常是基于特征级别的,例如特征重建、特征匹配、语义分割等处理都是在特征空间上进行的。

总的来说,像素空间和特征空间代表了数据在不同层次上的表达方式,像素空间更接近于原始数据的表示,而特征空间则更加抽象和语义化,能够捕捉到数据的高级结构和语义信息。个人理解就是,像素空间就是一张图片的原始矩阵,原始矩阵经过卷积等操作后被转为特征图,特征图代表的语义信息 更丰富更抽象,之后特征重建是在特征图上重建的。

框架

1.Contrastive Temporal Feature Embedding(CTFE)
在这里插入图片描述
通常,视频事件由语义相关的帧的序列组成。也就是说,相邻帧比以长时间间隔采样的帧更可能在语义上相似。根据这一观察,我们提出了一个对比时间特征嵌入方案来学习一个有区别的帧表示。从本质上讲,它将语义相似的框架投射得更近,而将不相似的框架推开。通过比较,利用这种学习,我们的框架将帧转换为一种新的表示,在语义上更容易区分。如图3所示,对比学习的正对由段内帧组成,而负对来自来自相同或其他视频的其他片段的段间帧,或存储器中的帧。
总体思路为选取B个视频,在每个视频里选择X个片段(片段帧数为T)。以图3为例:共选取了视频的三个片段,S(i)、S’(j)是同一个视频的不同片段,S(l)是别的视频的一个片段。首先,取S(i)中的一帧作为查询键Q,其他片段的一帧作为被查询键K,接下来,我们形成与查询xj i相关联的三种类型的否定对:1)视频内否定对:否定帧来自相同的视频,但来自不同的片段,即X’(j)的帧。2)视频间负对:负帧选自从不同视频提取的任何片段,即X(l)的帧。3)存储器负对:负帧来自在先前迭代期间嵌入在存储器中的帧。然后,将两帧进行对比学习,来判断它们是正样本还是负样本,图3表示的是Q与K来自于同一个视频的正样本。
利用这种学习,我们的框架将帧转换为一种新的表示,在语义上更容易区分。这对本质上是二分类的任务是友好的。
Frame Feature Reconstruction (FFR)
如我们所知,视频事件之间的过渡帧通常是不一致的,因此较难预测。因此,我们开发了一种无监督的特征重建方法来检测这些事件的边界,因为我们推测,边界帧通常比非边界帧具有更高的重建误差。然而,与之前的像素级图像重建不同,我们的帧重建是在高级语义特征空间中进行的。也就是说,我们的方法旨在重建由CTFE训练的框架的语义表示。
在这里插入图片描述
为了从H0(t)重构掩蔽的特征向量,我们修改了Transformer编码器的多头注意部分。具体来说,我们采用2层多头自注意(MSA)和多层感知器(MLP)块来处理H0,同时随机将掩码M(t)应用于第t个特征嵌入。重构模块的第l层的输出被定义为
在这里插入图片描述
重构模块的第l层的输出可以用如下方式定义:已知l层的输入来自于l-1层的输出
参数为掩掉的某一帧M(t)和l-1层的输出H(l-1),首先对M(t)和H(l-1)进行层归一化,保证训练稳定,再经过多头注意力机制计算得到具有时间上下文的语义信息,再和上一层输出相加后经过多层感知机输出。

整体框架
在这里插入图片描述
A:train
1.视频片段经过特征提取网络变成特征图。
2.CTFE模块对特征图进行处理,得到更高级的表示。
3.经过CTFE得到的表示送入FFR模块,进行特征重建,得到重建后的特征。
4.重建后的特征图与原特征图进行比较,特征重建是由于语义的异质性,边界处的帧很难重建(通常具有较大的重建误差),这有利于事件边界检测(这样就能很容易检测出边界)。

B:test
将视频帧送入模型,再逐个地对每一帧进行掩码,从而重建所有帧的特征,与原特征进行比较后有两种结果,一种是上半部构建错误,即检测到边界帧,另一种是下半部构建成功,即无边界帧。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/620958.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

栈结构(详解)

1.栈的概念 栈:一种特殊的线性表,其只允许在固定的一端进行插入和删除元素操作。进行数据插入和删除操作的一端称为栈顶,另一端称为栈底。栈中的数据元素遵守后进先出LIFO(Last In First Out)的原则。 压栈&am…

UE4 自定义shader获取灯光位置

UE4.26:How to get the direction of specific directional lights in custom node material? - #4 by Arkiras - Rendering - Epic Developer Community Forums 获取灯光位置的shader,应该是这个了atmosphere sun light vector 和vertexNormalWS的叉乘add一个固有…

【数据库系统工程师】2024年5月考前最后冲刺指南

一、备考关键: 高效率的备考方式:多轮迭代学习 △ 基础阶段 △ 大面积撒网(60%) 略读-> 做题 -> 回顾 -> 精读 △ 积累阶段 △ 有针对性的突破(30%) 完成所有章节之后,进行真题测试&#x…

【C++】命名空间、缺省参数、函数重载、引用

文章目录 1.认识命名空间2.命名空间的使用3.C的输入和输出4.缺省参数4.1缺省参数的概念4.2缺省参数的分类 5.函数重载6.引用6.1引用的概念6.2引用的特性6.3常引用(重点题目)6.4引用和指针的区别 1.认识命名空间 C总计63个关键字,C语言32个关键字 下面让我们学习一…

难以重现的 Bug如何处理

对很多测试人员(尤其是对新手来说)在工作过程中最不愿遇到的一件事情就是:在测试过 程中发现了一个问题,觉得是 bug,再试的时候又正常了。 碰到这样的事情,职业素养和测试人员长期养成的死磕的习性会让她…

常用的内外网文件传输方式及优缺点

在现代企业环境中,内外网文件传输是一项至关重要的任务。这涉及到数据的安全性、传输效率以及操作的便捷性等多个方面。 每种方式都有其独特的优缺点,下面我们将逐一进行分析。 1、FileLink 优势:FileLink是一款专用于企业内外网隔离后的文…

Spring Boot | Spring Boot 整合 “异步任务“ 的实现

目录: 一、异步任务1.1 "无返回值" 异步任务调用 :① 创建项目② 编写 "异步调用方法" ( 使用 Async 注解 )③ "主程序启动类"中 开启基于 "注解" 的异步任务支持 ( 使用EnableAsync注解 )④ 编写 "控制层" 相关…

Linux本地部署Nightingale夜莺监控并实现远程访问提高运维效率

💝💝💝欢迎来到我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:kwan 的首页,持续学…

轴承制造企业“数智化”突破口

轴承是当代机械设备中一种重要零部件。它的主要功能是支撑机械旋转体,降低其运动过程中的摩擦系数,并保证其回转精度。轴承是工业核心基础零部件,对国民经济发展和国防建设起着重要的支撑作用。 轴承企业普遍采用以销定产的经营模式&#xf…

Android Studio开发之路(九)创建android library以及生成aar文件

一、需求 我做了一个camerax相机opencv图像处理图片上传服务器功能的android应用,应客户需求要将其改成一个SDK,由客户加到他们自己的app里边。 于是,我需要制作一个library,打包成aar文件(jar:只有代码,没…

ATFX:美国通胀率平台期,或助力黄金延续涨势

ATFX金属:5月9日19:00至5月10日19:00,COMEX黄金的小时级别出现一波持续24小时的上涨走势,最高触及2385.3美元,累计涨幅2.78%,成为上周最佳的短线交易时机。R阻力线形成后,COMEX黄金进入下降通道&#xff0c…

2024年趋势:6款AI问答机器人工具推荐

众所周知,随着科技的发展,人工智能技术充斥着我们的生活。其中,AI问答机器人已经成为了我们生活和工作中不可或缺的一部分。它们不仅能够帮助我们快速获取信息,还能提供个性化的服务和建议,帮助我们快速解决问题。本文…

LayaAir引擎全面支持淘宝小游戏、小程序、小部件的发布

在最新的3.1版本和2.13版本中,LayaAir引擎已经全面支持了淘宝小游戏、小程序和小部件的开发和发布。这一重大更新,标志着LayaAir引擎与电商巨头阿里巴巴旗下的淘宝平台形成生态合作,在为广大开发者提供更加强大、高效的跨平台开发工具和解决方…

Java面试八股之什么是Java反射

什么是Java反射 基本概念 反射是Java语言的一个重要特性,它允许我们在运行时分析类、接口、字段、方法等组件的信息,并能够动态地操作这些组件,包括创建对象、调用方法、访问和修改字段值等。简单来说,反射提供了在程序运行时对…

#APPINVENTOR扩展插件之MQTT

1.APPINVENTOR网址: http://code.appinventor.mit.edu/http://code.appinventor.mit.edu/ 对应AI伴侣下载地址:http://code.appinventor.mit.edu/companions/MITAI2Companion.apkhttp://code.appinventor.mit.edu/companions/MITAI2Companion.apk 2.MQ…

ov泛域名证书1590元

OV SSL数字证书和DV SSL证书相比,审核比较严格,OV泛域名SSL证书审核严格、加密等级较高,因此吸引了很多注重网站安全性的开发者,不过,OV泛域名SSL证书也是有申请条件的,满足申请条件CA认证机构才会颁发SSL证…

31万奖金池等你挑战!IJCAI 2024 第九届“信也科技杯”全球AI算法大赛正式开赛!聚焦AI尖端赛题!

赛事概况 随着语音合成技术的不断进步,合成语音与真实语音之间的界限变得模糊,这不仅对数据安全构成威胁,也对科技伦理提出了新的要求。 第九届“信也科技杯”全球AI算法大赛聚焦于语音深度鉴伪识别领域,旨在激发全球算法爱好者和专家的创新潜力,共同应对由人工智能技术发展带来…

[猫头虎分享21天微信小程序基础入门教程]第5天:组件化开发与复用 ️

[猫头虎分享21天微信小程序基础入门教程]第5天:组件化开发与复用 🛠️ 第5天:组件化开发与复用 🛠️ 自我介绍 大家好,我是猫头虎,一名全栈软件工程师。今天我们将继续微信小程序的学习,重点…

【C++】学习笔记——stack和queue

文章目录 九、stack和queue1. stack和queue的介绍2. stack和queue的使用3. stack和queue的模拟实现4. deque的简单了解 未完待续 九、stack和queue 1. stack和queue的介绍 stack 就是我们常说的 栈 ,而 queue 就是 队列 。栈就是 后进先出 的数据结构,队…

【软考】设计模式之观察者模式

目录 1. 说明2. 应用场景3. 结构图4. 构成5. 优缺点5.1 优点5.2 缺点 6. java示例 1. 说明 1.定义对象间的一种一对多的依赖关系,当一个对象的状态发生改变时,所有依赖于它的对象都得到通知并被自动更新。2.也称为模型-视图模式、源-收听者模式或从属者…