【Vision Transformers-VIT】: 计算机视觉中的Transformer探索

《博主简介》

小伙伴们好,我是阿旭。专注于人工智能、AIGC、python、计算机视觉相关分享研究。
更多学习资源,可关注公-仲-hao:【阿旭算法与机器学习】,共同学习交流~
👍感谢小伙伴们点赞、关注!

《------往期经典推荐------》

一、AI应用软件开发实战专栏【链接】

项目名称项目名称
1.【人脸识别与管理系统开发】2.【车牌识别与自动收费管理系统开发】
3.【手势识别系统开发】4.【人脸面部活体检测系统开发】
5.【图片风格快速迁移软件开发】6.【人脸表表情识别系统】
7.【YOLOv8多目标识别与自动标注软件开发】8.【基于YOLOv8深度学习的行人跌倒检测系统】
9.【基于YOLOv8深度学习的PCB板缺陷检测系统】10.【基于YOLOv8深度学习的生活垃圾分类目标检测系统】
11.【基于YOLOv8深度学习的安全帽目标检测系统】12.【基于YOLOv8深度学习的120种犬类检测与识别系统】
13.【基于YOLOv8深度学习的路面坑洞检测系统】14.【基于YOLOv8深度学习的火焰烟雾检测系统】
15.【基于YOLOv8深度学习的钢材表面缺陷检测系统】16.【基于YOLOv8深度学习的舰船目标分类检测系统】
17.【基于YOLOv8深度学习的西红柿成熟度检测系统】18.【基于YOLOv8深度学习的血细胞检测与计数系统】
19.【基于YOLOv8深度学习的吸烟/抽烟行为检测系统】20.【基于YOLOv8深度学习的水稻害虫检测与识别系统】
21.【基于YOLOv8深度学习的高精度车辆行人检测与计数系统】22.【基于YOLOv8深度学习的路面标志线检测与识别系统】
23.【基于YOLOv8深度学习的智能小麦害虫检测识别系统】24.【基于YOLOv8深度学习的智能玉米害虫检测识别系统】
25.【基于YOLOv8深度学习的200种鸟类智能检测与识别系统】26.【基于YOLOv8深度学习的45种交通标志智能检测与识别系统】
27.【基于YOLOv8深度学习的人脸面部表情识别系统】28.【基于YOLOv8深度学习的苹果叶片病害智能诊断系统】
29.【基于YOLOv8深度学习的智能肺炎诊断系统】30.【基于YOLOv8深度学习的葡萄簇目标检测系统】
31.【基于YOLOv8深度学习的100种中草药智能识别系统】32.【基于YOLOv8深度学习的102种花卉智能识别系统】
33.【基于YOLOv8深度学习的100种蝴蝶智能识别系统】34.【基于YOLOv8深度学习的水稻叶片病害智能诊断系统】
35.【基于YOLOv8与ByteTrack的车辆行人多目标检测与追踪系统】36.【基于YOLOv8深度学习的智能草莓病害检测与分割系统】
37.【基于YOLOv8深度学习的复杂场景下船舶目标检测系统】38.【基于YOLOv8深度学习的农作物幼苗与杂草检测系统】
39.【基于YOLOv8深度学习的智能道路裂缝检测与分析系统】40.【基于YOLOv8深度学习的葡萄病害智能诊断与防治系统】
41.【基于YOLOv8深度学习的遥感地理空间物体检测系统】42.【基于YOLOv8深度学习的无人机视角地面物体检测系统】
43.【基于YOLOv8深度学习的木薯病害智能诊断与防治系统】44.【基于YOLOv8深度学习的野外火焰烟雾检测系统】
45.【基于YOLOv8深度学习的脑肿瘤智能检测系统】46.【基于YOLOv8深度学习的玉米叶片病害智能诊断与防治系统】
47.【基于YOLOv8深度学习的橙子病害智能诊断与防治系统】48.【车辆检测追踪与流量计数系统】
49.【行人检测追踪与双向流量计数系统】50.【基于YOLOv8深度学习的反光衣检测与预警系统】
51.【危险区域人员闯入检测与报警系统】52.【高压输电线绝缘子缺陷智能检测系统】

二、机器学习实战专栏【链接】,已更新31期,欢迎关注,持续更新中~~
三、深度学习【Pytorch】专栏【链接】
四、【Stable Diffusion绘画系列】专栏【链接】
五、YOLOv8改进专栏【链接】持续更新中~~
六、YOLO性能对比专栏【链接】,持续更新中~

《------正文------》

介绍

Transformer 模型极大地推动了人工智能领域的发展,尤其是在自然语言处理 (NLP) 和计算机视觉领域。使 transformer 如此强大的关键特征之一是它们的注意力机制,它允许模型专注于输入数据的不同部分。

这种机制在Vision Transformers(ViT) 中尤为重要,该VIT在 An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale(Dosovitskiy 等人,2021 年)中介绍,它将Transformer架构应用于图像数据。

在这篇文章中,我们将深入探讨如何量化和可视化注意力,重点关注 ViT 模型,并演示如何生成和解释注意力地图。

ViT 模型:基于 Transformer 的计算机视觉架构

我们讨论的具体模型是 google/vit-large-patch32-384 ,它在 ImageNet-21k 上进行了预训练,并在 ImageNet 2012 上进行了微调。该模型具有:

  • 分辨率:224x224(预训练)和 384x384(微调)
  • 层数:24 层,每层有 16 个关注头
  • Tokens:145(包括CLS-Tokens)

生成注意力热力图

注意力热力图有助于可视化模型聚焦的图像的哪些部分。层中的每个注意力头都学习tokens关系的不同方面。该过程包括:

  1. 通过模型管道推理图像
  2. 聚合注意力映射
  3. 平滑地图并将其应用于原始图像

配置 ViT 模型

为了能够从模型的推理中提取注意力数据,在加载预训练(和微调)模型时,在通过图像之前需要进行一些配置:

from transformers import ViTForImageClassification, ViTImageProcessor

# Load a pre-trained ViT model and feature extractor
model_name = 'google/vit-large-patch32-384'
processor = ViTImageProcessor.from_pretrained(model_name, do_rescale=False)
model = ViTForImageClassification.from_pretrained(model_name, attn_implementation='eager')

# Run an image through the pipline
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs, output_attentions=True)

# Getting the attentions
attentions = outputs.attentions 

原始注意力

在汇总所有 24 层的总分类注意力之前,我们可以绘制单层 16 个注意力图像(作为标记的数量;145X145),让我们看一下最后一层,例如:

img

单层 16 张注意力图像 (16X145X145)

ig, axs = plt.subplots(4, 4, figsize=(20, 20))
for i, ax in enumerate(axs.flatten()):
    ax.imshow(attentions[-1][0, i, :, :].detach().cpu().numpy())
    ax.axis('off')

滚动注意力

滚动注意力聚合跨多个图层的注意力地图,提供跨所有图层的图像焦点的全面视图。该技术突出显示了最相关的区域,提供了一种视觉解释形式,并使模型的内部工作更易于解释。

根据Abnar&Zuidema(2020)的工作,transformers中的注意力流可以量化。数学过程包括以下步骤:

img

代码如下:

def attention_rollout(attentions):
    # Initialize rollout with identity matrix
    rollout = torch.eye(attentions[0].size(-1)).to(attentions[0].device)

    # Multiply attention maps layer by layer
    for attention in attentions:
        attention_heads_fused = attention.mean(dim=1) # Average attention across heads
        attention_heads_fused += torch.eye(attention_heads_fused.size(-1)).to(attention_heads_fused.device) # A + I
        attention_heads_fused /= attention_heads_fused.sum(dim=-1, keepdim=True) # Normalizing A
        rollout = torch.matmul(rollout, attention_heads_fused) # Multiplication

    return rollout

这个简单的过程借鉴了基于Transformers的NLP任务模型评估,使我们能够聚合所有层的注意力,保留每个标记(视觉中的图像补丁)为任务传达的信息。

示例和视觉演示

以下是一些示例,展示了注意力图如何突出显示重要的图像区域,从而增强了转换器模型在视觉任务中的可解释性。

使用这个推出过程,我们能够在原始输入之上生成一个注意力布局:

img

输入和生成的注意力热力图,这是通过将分类标记的注意力向量扩展到 12X12 矩阵中来实现的。

cls_attention = rollout[0, 1:, 0]  # Get attention values from [CLS] token to all patches
cls_attention = 1 - cls_attention.reshape(int(np.sqrt(num_of_patches)), int(np.sqrt(num_of_patches)))

img

classifaciton tokens的 12X12 原始注意力热力图。

在应用Geussion Filter并重塑后,我们得到了要叠加的最终图像如下:

# Normalize the attention map for better visualization
cls_attention = (cls_attention - cls_attention.min()) / (cls_attention.max() - cls_attention.min())

# Resize and blur the attention map
cls_attention_resized = Image.fromarray((cls_attention * 255).astype(np.uint8)).resize((img_size, img_size), resample=Image.BICUBIC)
cls_attention_resized = cls_attention_resized.filter(ImageFilter.GaussianBlur(radius=2))

img

操作后的注意力图

最后,应用灰度注意力叠加的变换:

# Convert the attention map to RGBA
cls_attention_colored = np.array(cls_attention_resized.convert("L"))
cls_attention_colored = np.stack([cls_attention_colored]*3 + [cls_attention_colored], axis=-1)

# Adjust the alpha channel to control brightness
cls_attention_colored_img = Image.fromarray(cls_attention_colored, mode="RGBA")
cls_attention_colored_img.putalpha(100)  # Adjust alpha for blending (lower value for darker overlay)

生成的地图:

img

灰度注意力地图

总结

在图像分类任务领域,描绘注意力图像具有显着优势。

这些图像突出显示了图像中与特定任务最相关的区域,从而对影响模型决策的关键区域进行了重点分析。此功能充当视觉解释的一种形式,使模型的内部工作更易于解释。

通过揭示模型认为重要的图像部分,注意力地图增强了透明度和可信度,使用户能够更有效地理解和验证模型的预测。

在这个特定示例中,模型似乎在耳朵和脸上有更多的重点来确定这是一只狗。

img


好了,这篇文章就介绍到这里,感谢点赞关注,更多精彩内容持续更新中~

关注文末名片G-Z-H:【阿旭算法与机器学习】,可获取更多干货学习资源

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/756168.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

嵌入式Linux系统编程 — 4.5 strcmp、strchr 等函数实现字符串比较与查找

目录 1 字符串比较 1.1 strcmp() 函数 1.2 strncmp() 函数 1.3 示例程序 2 字符串查找 2.1 strchr() 函数 2.2 strrchr() 函数 2.3 strstr() 函数 2.4 strpbrk() 函数 2.5 示例程序 1 字符串比较 strcmp() 和 strncmp() 函数是C语言标准库中用于比较两个字符串的函…

STM32 HAL库 外部中断 实现按键控制LED亮灭

目录 1、为什么使用GPIO外部中断控制LED亮灭? 2、NVIC嵌套向量中断控制器 3、EXTI外部中断 4、项目的硬件排线 5、STM32CUBE_MX配置 6、HAL库代码 7、实际效果 1、为什么使用GPIO外部中断控制LED亮灭? 实现LED亮灭控制有很多方式,其中…

等保2.0安全计算环境解读

等保2.0,即网络安全等级保护2.0制度,是中国为了适应信息技术的快速发展和安全威胁的新变化而推出的网络安全保护标准。相较于等保1.0,等保2.0更加强调主动防御、动态防御和全面审计,旨在实现对各类信息系统的全面保护。 安全计算环…

自适应响应式瓷砖地板建材网站源码pbootcms模板

模板介绍 一款全面的自适应响应式瓷砖地板建材网站源码pbootcms模板。该模板兼容所有浏览器,整站源码下载,可以帮您节约建站成本,以高质量高效率完成网站的设计创建。 模板截图 源码下载 自适应响应式瓷砖地板建材网站源码pbootcms模板

IDEA错误:command line is too long 命令行过长

今天运行程序时遇到了一个错误,提示如下: 那么话不多说,如何解决呢? 首先点击右上角的编辑配置 点击修改选项 点击缩短命令行 选择JAR清单 好了,问题解决

数据分析-常用模型-RFM模型

一、RFM模型的底层逻辑 漏斗模型中,大部分业务都是按流程推进,可以做漏斗分析。但是,大家有没有想过一个问题: 如果没有转化过程记录,该怎么办?如果用户行为频率很高,有几十个漏斗&#xff0c…

AI与音乐的结合

前言 毫无疑问,AI的发展已经在音乐领域带来了诸多变化和影响.但人类创作仍然具有不可替代的重要性。人类的灵感、创造力以及对音乐的深刻理解和情感表达是音乐产业的核心动力来源。AI 更倾向于被视为一种辅助工具,与人类创作者相互协作和融合,共同推动音…

Python28-1 机器学习算法之决策树

决策树(Decision Tree) 决策树算法是一种常用的机器学习算法,属于监督学习范畴。它可以用于分类和回归任务,具有易于理解和解释的特点。决策树通过递归将数据分割成更小的子集,构建一个树形结构,其中每个节…

侯捷C++面向对象高级编程(上)-2-构造函数

1.inline函数 2.访问级别 3.构造函数 4.重载

《mysql篇》--查询(进阶)

目录 将查询结果作为插入数据 聚合查询 聚合函数 count sum group by子句 having 联合查询 笛卡尔积 多表查询 join..on实现多表查询 内连接 外连接 自连接 子查询 合并查询 将查询结果作为插入数据 Insert into 表2 select * from 表1//将表1的查询数据插入…

大模型知识库的使用

大模型知识库的使用通常涉及以下几个方面,使用大模型知识库可以提高信息检索的准确性和效率,促进知识的传播和应用。同时,也需要关注知识库的质量和更新,以确保提供的知识是准确和可靠的。北京木奇移动技术有限公司,专…

苏东坡传-读书笔记四

长江三峡,无人不知其风光壮丽,但对旅客而言,则是险象环生。此段江流全长二百二十余里,急流旋涡在悬崖峭壁之间滚转出入,水下暗石隐伏,无由得见,船夫要极其敏捷熟练,才可通行。三峡之…

使用shell脚本编写监控系统资源(CPU,内存,磁盘)使用情况

🏡作者主页:点击! 🛠️Shell编程专栏:点击! ⏰️创作时间:2024年6月20日16点30分 🀄️文章质量:95分 目录 ————前言———— 1.本章目标 2.编写脚本 1.获取内…

关于vs code中Live Server插件安装后无法打开的问题

一、问题情况 安装好Live Server插件之后,点击open with live server只会出现界面右下角落的提示,但是不会跳转到浏览器的页面:如下所示: 二:解决步骤 1、首先进行扩展设置,默认将浏览器的设置为chrome浏览…

The difference between Manhattan distance and Cosine Distance

题意:为什么即使返回了相同的文本块,曼哈顿距离(Manhattan Distance)和余弦距离(Cosine Distance)之间还是存在差异? 问题背景: I am using the qdrant DB and client for embeddin…

Pytorch实战(二)

文章目录 前言一、LeNet5原理1.1LeNet5网络结构1.2LeNet网络参数1.3LeNet5网络总结 二、AlexNext2.1AlexNet网络结构2.2AlexNet网络参数2.3Dropout操作2.4PCA图像增强 前言 参考原视频:哔哩哔哩。 一、LeNet5原理 1.1LeNet5网络结构 LeNet-5,其中&…

如何安装和卸载软件?

如何安装和卸载软件? 💻 如何安装和卸载软件?——默语的详细教程摘要引言正文内容🖥️ 在Windows上安装和卸载软件安装软件卸载软件 🍏 在Mac上安装和卸载软件安装软件卸载软件 🤔 QA环节📝 表格…

访客(UV)、点击量(PV)、IP、访问量(VV)概念

1、https://www.cnblogs.com/QingPingZm/articles/13855808.htmlhttps://www.cnblogs.com/QingPingZm/articles/13855808.html

智慧校园-档案管理系统总体概述

智慧校园档案管理系统,作为教育信息化进程中的重要一环,它运用现代信息技术的力量,彻底改变了传统档案管理的面貌,为学校档案资源的收集、整理、存储、检索与利用开辟了全新的途径。这一系统全面覆盖学生、教职工、教学科研及行政…

今天天气正好,开锐界L去追风

早就想开着它来个惬意的自驾游,结果因为工作原因一直在忙东忙西,锐界L这车都是上下班代步使用,今天终于空闲下来了,带着它来郊区转一圈,顺便交一篇极其不正式的游记吧,写的不好。 本来打算去的远一点&…