计算机视觉注意力机制小盘一波 (学习笔记)

将注意力的阶段大改分成了4个阶段

1.将深度神经网络与注意力机制相结合,代表性方法为RAM

⒉.明确预测判别性输入特征,代表性方法为STN

3.隐性且自适应地预测潜在的关键特征,代表方法为SENet

4.自注意力机制

通道注意力

在深度神经网络中,每个卷积层通常包含多个通道,每个通道对应一个特定的特征。

通道注意力的目标是根据每个通道的重要性,动态地调整通道的权重,

以便在网络中更好地捕捉和利用重要的特征。
 

通过显示建模通道之间的相互依赖性,重新校准通道方面的特征响应

在squeeze阶段,通过全局平均池化操作,将卷积层的输出特征图压缩成一个特征向量

然后再excitation阶段,通过使用全连接层和非线性激活函数

学习生成一个通道的权重向量(被应用于原始特征图的每个通道),已对不同通道的特征进行加权

空间注意力

空间注意力可以被看作是一种自适应的空间区域选择机制

空间注意机制允许神经网络在处理输入数据时,有选择性地关注特定的空间位置或区域,

以便更好地提取有用的特征。

可以帮助网络集中注意力在重要的区域上,忽略或减少对不相关区域的处理。
其应用范围比通道注意力多出了精细分类(FGCls)和图像字幕(ICap)


它通过 策略梯度 以 端到端的方式循环预测重要区域, 并更新整个网络

明确预测 相关区域

引入空间变换器模块的方法

该模块可以对输入数据进行几何变换 平移旋转缩放

核心思想 是通过一个空间变换器  使得网络可以自动学习 对输入数据进行合适的几何变换

从而提升网络的鲁棒性和泛化能力

隐式的进行softmask的预测

该篇paper 提出了一种新的特征上下文利用方法

gather excite 通过在卷积神经网络的不同层之间收集特征信息,

并在每个层中激活重要的特征,从而提升网络的性能

传统的卷积神经网络在处理图像时,通常只考虑局部的特征

然而在某些任务重,全局上下文信息对于准确的预测非常重要

Non-local Neural Networks 非局部神经网络 通过 引入非局部操作

使得网络能够在任意位置上对全局信息进行交互

时间注意力

时间注意力可以被看作是一种动态的时间选择机制,决定了何时进行注意,因此通常用于视频处理。
 

本文提出了全局局部时间表示  来利用视频序列中的多尺度时间线索

进行视频人物重新识别

本篇Method 为 首先对相邻帧之间的短期时间线索,进行建模

然后捕获 不连续帧之间的长期关系

tam模块的核心思想是 引入一个自适应的时间注意力模块

他通过 学习得到每个时间步骤的注意力权重 从而决定那些时间步骤对于当前任务更加重要

这样模型在不同视频中 动态选择时间窗口的长度 以适应不同的时间尺度

分支注意力

分支注意力通常用于多分支的神经网络中,其中每个分支都专注于不同的特征子集
这些分支可以是不同层级的特征提取器,也可以是不同任务的子模型。

通过引入分支注意力,模型可以自动学习每个分支的权重, 以便更好地利用不同分支的特征。
 

提出了全新的高速网络架构 用于优化深度神经网络 由于梯度爆炸和梯度消失而导致的训练苦难的问题

引入门控机制来控制 信息的流动 从而允许网络更好地学习输入数据中的非线性关系

提出一种条件参数卷积

他可以为每个样例学习一个特定的卷积kernel参数 通过替换标准卷积

通道空间注意力

CBAM小陈读paper系列-CSDN博客

channel attention 学习通道间的依赖关系 来调整通道的重要性 以增强网络对不同通道的感知能力

spatial attention           空间上                              空间 

时空注意力

结合了空间注意力和时间注意力的优点,能够自适应地选择重要区域和关键帧。

1.Attention Mechanisms in Computer Vision: A Survey(https://arxiv.org/abs/2111.07624)

2.Squeeze-and-Excitation Networks(https://arxiv.org/abs/1709.01507)

3.Recurrent Models of Visual Attention(https://arxiv.org/abs/1406.6247)

4.Spatial Transformer Networks(https://arxiv.org/abs/1506.02025)

5.Gather-Excite: Exploiting Feature Context in Convolutional Neural Networks(https://arxiv.org/abs/1810.12348)

6.Non-local Neural Networks(https://arxiv.org/abs/1711.07971)

7.Global-Local Temporal Representations For Video Person Re-Identification(https://arxiv.org/abs/1908.10049)

8.TAM: Temporal Adaptive Module for Video Recognition(https://arxiv.org/abs/2005.06803) 9.Training Very Deep Networks(https://arxiv.org/abs/1507.06228)

10.CondConv: Conditionally Parameterized Convolutions for Efficient Inference(https://arxiv.org/abs/1904.04971)

11.CBAM: Convolutional Block Attention Module(https://arxiv.org/abs/1807.06521) 12.Residual Attention Network for Image Classification(https://arxiv.org/abs/1704.06904)

13.Recurrent Spatial-Temporal Attention Network for Action Recognition in Videos(https://ieeexplore.ieee.org/document/8123939)

14.STA: Spatial-Temporal Attention for Large-Scale Video-based Person Re-Identification(https://arxiv.org/abs/1811.04129)

15.Spatial-Temporal Graph Convolutional Network for Video-Based Person Re-Identification

本期内容 为b站学习笔记

计算机视觉注意力机制大盘点!Attention is all you need!_哔哩哔哩_bilibili

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/108511.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

状态机的设计与实现

写作目的 好久没有写博客进行输出了,是时候需要水一篇了,嘻嘻。 正好项目中使用了状态机,也借此分享一下系统中状态机的项目落地经验。 什么是状态机 以在某宝下单为例,在点击下单后,此时订单就已经创建了&#xff…

基于Python+pyecharts 实现国内上映电影票房评分可视化分析项目源码

基于Pythonpyecharts 实现国内上映电影票房评分可视化分析项目源码 项目内容 统计2018年在国内上映的所有电影,分别获取上映电影的票房、评分(豆瓣、猫眼、时光、imdb)、类型、上映日期、演员、导演等数据。利用所获数据绘图,对…

人工智能基础_机器学习006_有监督机器学习_正规方程的公式推导_最小二乘法_凸函数的判定---人工智能工作笔记0046

我们来看一下公式的推导这部分比较难一些, 首先要记住公式,这个公式,不用自己理解,知道怎么用就行, 比如这个(mA)T 这个转置的关系要知道 然后我们看这个符号就是求X的导数,X导数的转置除以X的导数,就得到单位矩阵, 可以看到下面也是,各种X的导数,然后计算,得到对应的矩阵结…

php之 角色的权限管理(RBAC)详解

RBAC(Role-based access control)是一种常见的权限管理模型,通过将用户分配至特定的角色,以及为角色分配访问权限,实现了权限管理的目的。以下是关于RBAC的详细解释: 角色:RBAC模型的核心是角色…

Java电商平台 - API 接口设计之 token、timestamp、sign 具体架构与实现|电商API接口接入

一:token 简介 Token:访问令牌access token, 用于接口中, 用于标识接口调用者的身份、凭证,减少用户名和密码的传输次数。一般情况下客户端(接口调用方)需要先向服务器端申请一个接口调用的账号,服务器会给出一个appId和一个key, …

常用JQuery插件汇总

Jquery插件,数字动画特效,从n到m数字跳动JJ​​​​​​​CountUp.jsA javascript class that animates a numerical value by counting to it.http://inorganik.github.io/countUp.js/

javaEE -10(11000字详解5层重要协议)

一:应用层重点协议 1.1: DNS DNS,即Domain Name System,域名系统。DNS是一整套从域名映射到IP的系统。 TCP/IP中使用IP地址来确定网络上的一台主机,但是IP地址不方便记忆,且不能表达地址组织信息&#x…

EASYX动画效果实现

eg1:绘制小球的动画效果 通过一下的代码实现小球从左向右移动效果&#xff0c;计算小球的移动速度和帧率实现移动效果平和造成视觉上的错觉 #include <stdio.h> #include <easyx.h> #include <iostream> #include <math.h> #define PI 3.14 // 1PI …

Android JNI/NDK 入门从一到二

1. 前言 最基础的创建JNI接口的操作&#xff0c;可以直接看这篇文章 : 第一个Android JNI工程&#xff0c; 本文会基于掌握创建JNI接口的操作的基础之上&#xff0c;来入门JNI/NDK。 2. 在JNI中打印日志 2.1 添加log模块 记得CMake中有log模块&#xff0c;不然编译不过 ta…

大模型之十九-对话机器人

大语言模型的最早应用是Chatbot&#xff0c;其实我最早接触语义理解在2014年&#xff0c;2014年做智能音箱的时候&#xff0c;那时也是国内第一批做智能音箱的&#xff0c;在现在看起来当时的智能音箱比较傻&#xff0c;很多问题无法回答&#xff0c;长下文效果也不好&#xff…

etcd的mvcc源码剖析

mvcc简介 悲观锁 在对于一些临界资源进行读写的时候&#xff0c;为了防止其他人进行同步的修改数据&#xff0c;直接将当前的数据锁住&#xff0c;不让别人使用&#xff0c;来实现并发安全 乐观锁 在对临界资源进行操作的时候&#xff0c;不锁住数据&#xff0c;实现独占&…

网络协议--TCP的交互数据流

19.1 引言 前一章我们介绍了TCP连接的建立与释放&#xff0c;现在来介绍使用TCP进行数据传输的有关问题。 一些有关TCP通信量的研究如[Caceres et al. 1991]发现&#xff0c;如果按照分组数量计算&#xff0c;约有一半的TCP报文段包含成块数据&#xff08;如FTP、电子邮件和U…

Elasticsearch跨集群检索配置

跨集群检索字面意思&#xff0c;同一个检索语句&#xff0c;可以检索到多个ES集群中的数据&#xff0c;ES集群默认是支持跨集群检索的&#xff0c;只需要动态的增加入节点即可&#xff0c;下面跟我一起来体验下ES的跨集群检索的魅力。 Elasticsearch 跨集群检索推荐的是不同集群…

linux中nginx配置https

一、版本适配 版本一定要适配&#xff0c;否则会报错各种参数定位不到不识别的错误&#xff0c;以下是版本适配信息&#xff0c;各位观客自行按照以下信息匹配版本。 Nginx 1.11.5及以上版本与OpenSSL 1.0.2及以上版本兼容。Nginx 1.15.2及以上版本与OpenSSL 1.1.1及以上版本兼…

redis的bitmap(面试题,待补充)

位图简介 如果我们需要记录某一用户在一年中每天是否有登录我们的系统这一需求该如何完成呢&#xff1f;如果使用KV存储&#xff0c;每个用户需要记录365个&#xff0c;当用户量上亿时&#xff0c;这所需要的存储空间是惊人的。 Redis 为我们提供了位图这一数据结构&#xff…

图神经网络及其在知识图谱的应用

一 应用领域 道路交通&#xff0c;动态预测 自动驾驶&#xff0c;无人机场景 化学&#xff0c;医疗等场景 物理模型相关 二 图基本模块定义 V Vertex点 E Edge 边&#xff08;向量&#xff09; U Global 图 &#xff08;例如&#xff1a;全局向量&#xff09; 无论事…

msigdbr hallmarks gsea broad研究所

使用msigdbr r包 #BiocManager::install("msigdb") #https://www.gsea-msigdb.org/gsea/msigdb #https://cran.r-project.org/web/packages/msigdbr/vignettes/msigdbr-intro.html #https://bioconductor.org/packages/release/data/experiment/vignettes/msigdb/ins…

RPC远程调用加密方法获取返回值

前言 从混淆的加密JS中还原了加密参数的具体生成流程&#xff0c;结果想从JS转python的过程中第一步就卡住了。开头密钥JS代码如下&#xff0c;但是水平有限不知道如何转为python实现(如果有大佬知道希望可以评论指点)。利用execjsjsdom来执行简化还原后的JS代码依旧无法实现。…

MGRE环境下的OSPF

实验拓扑 需求 1 R6为ISP只能配置IP地址&#xff0c;R1-R5的环回为私有网段 2 R1/4/5为全连的MGRE结构&#xff0c;R1/2/3为星型的拓扑结构&#xff0c;R1为中心站点 3 所有私有网段可以互相通讯&#xff0c;私有网段使用OSPF完成。 IP规划 配置IP R1 # interface GigabitEt…

Flutter FittedBox

&#x1f525; 英文单词FittedBox &#x1f525; Fitted 通过有道翻译如下 &#xff1a; Box 通过有道翻译如下 &#xff1a; 对 FittedBox 的理解 我们可以将 FittedBox 理解为合适的盒子&#xff0c;将其它布局放到FittedBox这样一个盒子中&#xff0c;从而实现 盒子里面的…