手撕Vision Transformer -- Day1 -- 基础原理

手撕Vision Transformer – Day1 – 基础原理

目录

  • 手撕Vision Transformer -- Day1 -- 基础原理
  • Vision Transformer (ViT) 模型原理
    • 1. Vit 网络结构图
    • 2. 背景
    • 3. 模型架构
      • 3.1 图像切块(Patch Embedding)
      • 3.2 添加位置编码(Positional Encoding)
      • 3.3 Transformer编码器(Transformer Encoder)
      • 3.4 分类头(Classification Head)
    • 4. ViT的优势
    • 5. ViT的缺点
    • 6. 总结
    • 参考

Vision Transformer (ViT) 模型原理

1. Vit 网络结构图

在这里插入图片描述

Vit 网络结构

2. 背景

ViT(Vision Transformer)是2020年由Google提出的一种新型图像分类模型,成功地将Transformer架构应用于计算机视觉任务,挑战了传统的卷积神经网络(CNN)。ViT的核心思想是将图像分割成小块(patch),并将这些patch视为一维的序列输入Transformer模型。

3. 模型架构

ViT模型主要包括以下几个步骤:

3.1 图像切块(Patch Embedding)

  • 图像分块:将输入图像分成固定大小的patches。假设输入图像大小为 ( H × W × C H \times W \times C H×W×C )(H为高度,W为宽度,C为通道数),将图像划分为 ( P × P P \times P P×P ) 大小的patches。
  • Flatten:每个patch的像素值被展平成一维向量,形状为 ( ( P × P × C P \times P \times C P×P×C) )。
  • 线性映射:这些一维向量通过一个线性层映射到一个固定的维度 ( D ),即生成一个 ( D ) 维的嵌入向量。

3.2 添加位置编码(Positional Encoding)

  • 由于Transformer模型没有像CNN那样的局部感知机制,因此必须为每个patch添加位置信息。
  • 位置编码:为每个patch的嵌入向量添加一个固定的、学习到的位置编码,使得模型能够区分不同位置的patch(我们采取的可学习的参数)。

3.3 Transformer编码器(Transformer Encoder)

  • ViT使用标准的Transformer编码器结构,包含多个自注意力层和前馈神经网络层。
    • 自注意力机制(Self-Attention):每个patch嵌入向量通过自注意力机制与其他patch的嵌入向量进行交互,以捕捉全局信息。
    • 前馈神经网络:自注意力层的输出经过前馈神经网络(Feed-Forward Network,FFN)进行非线性变换。
    • 层归一化和残差连接:每个Transformer层使用层归一化(Layer Normalization)和残差连接(Residual Connection)。

3.4 分类头(Classification Head)

  • 在经过多个Transformer编码器层后,取出[CLS] token(分类标记)对应的输出作为图像的表示。
  • 最后,经过一个全连接层(FC layer)进行分类。

4. ViT的优势

  • 全局感知:ViT能够通过自注意力机制捕捉图像中全局的依赖关系,而不是像CNN那样依赖局部感知。
  • Transformer的优势:Transformer架构在自然语言处理(NLP)中表现优异,ViT将其应用到计算机视觉任务中,能够显著提高性能。

5. ViT的缺点

  • 数据依赖性:ViT的性能依赖于大规模的训练数据集,通常需要预训练的模型和大量的计算资源。
  • 计算成本:Transformer模型的自注意力计算复杂度为 ( O(N^2) ),其中 ( N ) 是patch的数量,这使得ViT在处理大尺寸图像时的计算开销较大。

6. 总结

ViT通过将图像切分成小块并将其输入到Transformer中,成功地克服了传统CNN的局限,带来了较为显著的性能提升。尽管ViT在数据和计算资源上有较高要求,但它为视觉任务的研究提供了一个新的思路,展示了Transformer在图像处理上的巨大潜力。

参考

视频讲解:【Sora重要技术】复现ViT(Vision Transformer)模型_哔哩哔哩_bilibili

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/962751.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【AI】DeepSeek 概念/影响/使用/部署

在大年三十那天,不知道你是否留意到,“deepseek”这个词出现在了各大热搜榜单上。这引起了我的关注,出于学习的兴趣,我深入研究了一番,才有了这篇文章的诞生。 概念 那么,什么是DeepSeek?首先百…

Java锁自定义实现到aqs的理解

专栏系列文章地址:https://blog.csdn.net/qq_26437925/article/details/145290162 本文目标: 理解锁,能自定义实现锁通过自定义锁的实现复习Thread和Object的相关方法开始尝试理解Aqs, 这样后续基于Aqs的的各种实现将能更好的理解 目录 锁的…

html的字符实体和颜色表示

在HTML中,颜色可以通过以下几种方式表示,以下是具体的示例: 1. 十六进制颜色代码 十六进制颜色代码以#开头,后面跟随6个字符,每两个字符分别表示红色、绿色和蓝色的强度。例如: • #FF0000:纯红…

Golang 并发机制-1:Golang并发特性概述

并发是现代软件开发中的一个基本概念,它使程序能够同时执行多个任务,从而提高效率和响应能力。在本文中,我们将探讨并发性在现代软件开发中的重要性,并深入研究Go处理并发任务的独特方法。 并发的重要性 增强性能 并发在提高软…

three.js用粒子使用canvas生成的中文字符位图材质

three.js用粒子使用canvas生成中文字符材质 <!DOCTYPE html> <html lang"en"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Three.…

《逆向工程核心原理》第三~五章知识整理

查看上一章节内容《逆向工程核心原理》第一~二章知识整理 对应《逆向工程核心原理》第三章到第五章内容 小端序标记法 字节序 多字节数据在计算机内存中存放的字节顺序分为小端序和大端序两大类 大端序与小端序 BYTE b 0x12; WORD w 0x1234; DWORD dw 0x12345678; cha…

2025年数学建模美赛 A题分析(4)楼梯使用人数模型

2025年数学建模美赛 A题分析&#xff08;1&#xff09;Testing Time: The Constant Wear On Stairs 2025年数学建模美赛 A题分析&#xff08;2&#xff09;楼梯磨损分析模型 2025年数学建模美赛 A题分析&#xff08;3&#xff09;楼梯使用方向偏好模型 2025年数学建模美赛 A题分…

【cocos creator】【模拟经营】餐厅经营demo

下载&#xff1a;【cocos creator】模拟经营餐厅经营

29.Word:公司本财年的年度报告【13】

目录 NO1.2.3.4 NO5.6.7​ NO8.9.10​ NO1.2.3.4 另存为F12&#xff1a;考生文件夹&#xff1a;Word.docx选中绿色标记的标题文本→样式对话框→单击右键→点击样式对话框→单击右键→修改→所有脚本→颜色/字体/名称→边框&#xff1a;0.5磅、黑色、单线条&#xff1a;点…

高性能消息队列Disruptor

定义一个事件模型 之后创建一个java类来使用这个数据模型。 /* <h1>事件模型工程类&#xff0c;用于生产事件消息</h1> */ no usages public class EventMessageFactory implements EventFactory<EventMessage> { Overridepublic EventMessage newInstance(…

neo4j初识

文章目录 一 图论基础二 柯尼斯堡七桥问题2.1 问题背景2.2 欧拉的解决3.1 核心概念3.2 核心优势3.3 应用场景3.4 技术特性3.5 版本与部署3.6 示例&#xff1a;社交关系查询3.7 限制与考量 四 图论与 Neo4j 的关联4.1 数据建模4.2 高效遍历4.3 应用场景 五 示例&#xff1a;用 N…

吴恩达深度学习——超参数调试

内容来自https://www.bilibili.com/video/BV1FT4y1E74V&#xff0c;仅为本人学习所用。 文章目录 超参数调试调试选择范围 Batch归一化公式整合 Softmax 超参数调试 调试 目前学习的一些超参数有学习率 α \alpha α&#xff08;最重要&#xff09;、动量梯度下降法 β \bet…

行业规范要当作业务实体画出来吗

第五元素 总觉得这些没有逻辑的实体&#xff0c;在绘制的时候不应该绘出来&#xff0c;他们没有责任啊。 比如以下:查阅规范 感觉不太对 UMLChina潘加宇 你这个规范是一个电脑系统还是一本书 第五元素 是书 UMLChina潘加宇 书没有智能&#xff0c;唯一暴露的接口是“翻”…

冯·诺依曼体系结构

目录 冯诺依曼体系结构推导 内存提高冯诺依曼体系结构效率的方法 你使用QQ和朋友聊天时&#xff0c;整个数据流是怎么流动的&#xff08;不考虑网络情况&#xff09; 与冯诺依曼体系结构相关的一些知识 冯诺依曼体系结构推导 计算机的存在就是为了解决问题&#xff0c;而解…

Qt之数据库操作三

主要介绍qt框架中对数据库的增加&#xff0c;删除和修改功能。 软件界面如下 程序结构 tdialogdata.h中代码 #ifndef TDIALOGDATA_H #define TDIALOGDATA_H#include <QDialog> #include<QSqlRecord> namespace Ui { class TDialogData; }class TDialogData : pub…

8.攻防世界Web_php_wrong_nginx_config

进入题目页面如下 尝试弱口令密码登录 一直显示网站建设中&#xff0c;尝试无果&#xff0c;查看源码也没有什么特别漏洞存在 用Kali中的dirsearch扫描根目录试试 命令&#xff1a; dirsearch -u http://61.147.171.105:53736/ -e* 登录文件便是刚才登录的界面打开robots.txt…

算法基础学习——快排与归并(附带java模版)

快速排序和归并排序是两种速度较快的排序方式&#xff0c;是最应该掌握的两种排序算法&#xff0c; &#xff08;一&#xff09;快速排序&#xff08;不稳定的&#xff09; 基本思想&#xff1a;分治 平均时间复杂度&#xff1a;O(nlogn) / 最慢O(n^2) / 最快O(n) 步骤&…

51单片机开发——I2C通信接口

I2C是微电子通信控制领域广泛采用的一种总线标准。 起始和停止信号&#xff1a; void iic_start(void) {IIC_SDA1;//如果把该条语句放在SCL后面&#xff0c;第二次读写会出现问题delay_10us(1);IIC_SCL1;delay_10us(1);IIC_SDA0; //当SCL为高电平时&#xff0c;SDA由高变为低d…

力扣017_最小覆盖字串题解----C++

题目描述 我们可以用滑动窗口的思想解决这个问题。在滑动窗口类型的问题中都会有两个指针&#xff0c;一个用于「延伸」现有窗口的 r 指针&#xff0c;和一个用于「收缩」窗口的 l 指针。在任意时刻&#xff0c;只有一个指针运动&#xff0c;而另一个保持静止。我们在 s 上滑动…

【Numpy核心编程攻略:Python数据处理、分析详解与科学计算】1.16 内存黑科技:缓冲区协议的底层突破

1.16 内存黑科技&#xff1a;缓冲区协议的底层突破 目录 #mermaid-svg-RmGabswVIrCh5olE {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-RmGabswVIrCh5olE .error-icon{fill:#552222;}#mermaid-svg-RmGabswVIrCh5o…