关于VIT（Vision Transformer）的架构记录

关于VIT（Vision Transformer）的架构记录

article2025/2/23 4:54:37/文章来源:https://blog.csdn.net/m0_61949623/article/details/136122852

在VIT模型设计中，尽可能地紧密遵循原始的Transformer模型（Vaswani等人，2017年）。这种刻意简化的设置的一个优势是，可扩展的NLP Transformer架构及其高效的实现几乎可以即插即用。

图：模型概述。我们将图像分割为固定大小的补丁，线性嵌入每个补丁，添加位置嵌入，并将结果向量序列馈送到标准Transformer编码器中。为了进行分类，我们采用了添加额外可学习的“分类标记”的标准方法。Transformer编码器的插图灵感来自Vaswani等人（2017年）。

原文这段话解释了VIT的架构，我们假设H=W=224,P=16。

那么我们首先将224*224*3的x变成196*768。

然后经过一个线性层，其中D=768(可以变，这是transformer架构的参数），还是196*768。

加一个cls额外token，变成197*768。

然后位置嵌入一下，还是196*768。

得到的嵌入向量作为编码器的输入。

公式是这些，transformer内部的我就不介绍了，可以看attention is all you need 这篇论文。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：/a/391062.html

如若内容造成侵权/违法违规/事实不符，请联系我们进行投诉反馈qq邮箱809451989@qq.com，一经查实，立即删除！

相关文章

Qt实用技巧：QCustomPlot做北斗GPS显示绝对位置运动轨迹和相对位置运动轨迹图的时，使图按照输入点顺序连曲线

Qt实用技巧：QCustomPlot做北斗GPS显示绝对位置运动轨迹和相对位置运动轨迹图的时，使图按照输入点顺序连曲线

若该文为原创文章，转载请注明原文出处本文章博客地址：https://hpzwl.blog.csdn.net/article/details/136131310 红胖子网络科技博文大全：开发技术集合（包含Qt实用技术、树莓派、三维、OpenCV、OpenGL、ffmpeg、OSG、单片机、软硬…

阅读更多...

机器学习入门--LSTM原理与实践

机器学习入门--LSTM原理与实践

LSTM模型长短期记忆网络（Long Short-Term Memory，LSTM）是一种常用的循环神经网络（RNN）变体，特别擅长处理长序列数据和捕捉长期依赖关系。本文将介绍LSTM模型的数学原理、代码实现和实验结果，并…

阅读更多...

MongoDB从入门到实战之.NET Core使用MongoDB开发ToDoList系统（3）-系统数据集合设计

MongoDB从入门到实战之.NET Core使用MongoDB开发ToDoList系统（3）-系统数据集合设计

前言前几章教程我们把ToDoList系统的基本框架搭建好了，现在我们需要根据我们的需求把ToDoList系统所需要的系统集合（相当于关系型数据库中的数据库表）。接下来我们先简单概述一下这个系统主要需要实现的功能以及实现这些功能我们需要设计那些…

阅读更多...

平时积累的FPGA知识点（10）

平时积累的FPGA知识点（10）

平时在FPGA群聊等积累的FPGA知识点，第10期： 41 ZYNQ系列芯片的PL中使用PS端送过来的时钟，这些时钟名字是自动生成的吗？ 解释：是的。PS端设置的是ps_clk，用report_clocks查出来的时钟名变成了clk_fpga_0&a…

阅读更多...

NX二次开发树列表双击快速进入编辑状态

NX二次开发树列表双击快速进入编辑状态

先将这几个树列表回调注释给解开 int TreeColumn0;//定义一个全局边量记录点击的那一列NXOpen::BlockStyler::Tree::BeginLabelEditState OnBeginLabelEditCallback(NXOpen::BlockStyler::Tree *tree,NXOpen::BlockStyler::Node *node,int columID) {if(columnIDTreeColumnID)…

阅读更多...

The method toList() is undefined for the type Stream

The method toList() is undefined for the type Stream

The method toList() is undefined for the type Stream （JDK16） default List<T> toList() { return (List<T>) Collections.unmodifiableList(new ArrayList<>(Arrays.asList(this.toArray()))); }

阅读更多...

磁体发条概念

磁体发条概念

使用磁体发条（也称为磁弹簧或磁蓄能器）作为储能装置是一个有趣的概念，它利用电磁感应原理来存储和释放能量。磁体发条的基本原理是通过旋转一个强磁体，使其通过一个线圈的中心，从而在线圈中产生电流。当磁体停止旋转时…

阅读更多...

平时积累的FPGA知识点（11）

平时积累的FPGA知识点（11）

平时在FPGA群聊等积累的FPGA知识点，第11期： 51 可以把dcp文件封装到自己ip里吗？解释：不可以 52 fifo的异步复位要做异步复位同步释放吗？解释：要跟写时钟同步，所以需要在ip外部做一下同步释放 53 vivado报错 Phase 6.1 Hold Fix Iter Phase 6.1.1 Update Timing …

阅读更多...

下一代Windows系统曝光：基于GPT-4V，Agent跨应用调度，代号UFO

下一代Windows系统曝光：基于GPT-4V，Agent跨应用调度，代号UFO

下一代Windows操作系统提前曝光了？？ 微软首个为Windows而设的智能体（Agent） 亮相： 基于GPT-4V，一句话就可以在多个应用中无缝切换，完成复杂任务。整个过程无需人为干预，其执行成功…

阅读更多...

PANTONE(R)_colorist 潘通色号查询软件

PANTONE(R)_colorist 潘通色号查询软件

PANTONE_colorist 潘通色号查询查找颜色一栏输入对应的色号，即可显示对应的图案。下载 https://download.csdn.net/download/jintaihu/19340557

阅读更多...

2024年最新onlyfans虚拟信用卡订阅教程

2024年最新onlyfans虚拟信用卡订阅教程

一、Onlyfans是什么？ OnlyFans是一个允许创作者分享自己的独家内容的平台，简称o站。这个平台允许创作者创建一个订阅服务，粉丝需要支付费用才能访问其独家内容。本文将教你如何使用虚拟卡在OnlyFans上进行充值。二、如何使用虚拟卡支付 O…

阅读更多...

【测试】测试概念篇和基础篇

【测试】测试概念篇和基础篇

目录一.了解软件测试的基础概念1.需求2.测试用例3.BUG 二.开发模型和测试模型1.瀑布模型2.螺旋模型3.增量模型和迭代模型4.敏捷模型三.软件测试模型V模型W模型四.BUG篇1. 如何合理的创建 bug2. bug 级别3. bug 的生命周期4. 跟开发产生争执怎么办一.了解软件测试的基础概念…

阅读更多...

springboot190基于springboot框架的工作流程管理系统的设计与实现

springboot190基于springboot框架的工作流程管理系统的设计与实现

简介【毕设源码推荐 javaweb 项目】基于springbootvue 的适用于计算机类毕业设计，课程设计参考与学习用途。仅供学习参考， 不得用于商业或者非法用途，否则，一切后果请用户自负。看运行截图看第五章第四章获取资料方式 **项…

阅读更多...

循序渐进-讲解Markdown进阶（Mermaid绘图）-附使用案例

循序渐进-讲解Markdown进阶（Mermaid绘图）-附使用案例

Markdown 进阶操作查看更多学习笔记：GitHub：LoveEmiliaForever Mermaid官网由于CSDN对某些Mermaid或Markdown语法不支持，因此我的某些效果展示使用图片进行下面的笔记内容全部是我根据Mermaid官方文档学习的，因为是初学者所以…

阅读更多...

分布式锁redisson

分布式锁redisson

文章目录 1. 分布式锁1.1 基本原理和实现方式对比synchronized锁在集群模式下的问题多jvm使用同一个锁监视器分布式锁概念分布式锁须满足的条件分布式锁的实现 1.2 基于Redis的分布式锁获取锁&释放锁操作示例基于Redis实现分布式锁初级版本ILock接口SimpleRedisLock使用示…

阅读更多...

解决LeetCode编译器报错的技巧：正确处理位操作中的数据类型

解决LeetCode编译器报错的技巧：正确处理位操作中的数据类型

一天我在leetcode上刷题时，遇到了这样的题目： 随即我写了如下的代码： int convertInteger(int A, int B) {int count 0;int C A ^ B;int flag 1;while(flag){if (C & flag){count;}flag<<1;}return count;} 但LeetCode显示如下…

阅读更多...

Linux常见指令（一）

Linux常见指令（一）

一、基本指令 1.1ls指令语法 ： ls [ 选项 ][ 目录或文件 ] 功能：对于目录，该命令列出该目录下的所有子目录与文件。对于文件，将列出文件名以及其他信息。常用选项： -a 列出目录下的所有文件，包括以 .…

阅读更多...

第9章网络编程

第9章网络编程

9.1 网络通信协议通过计算机网络可以实现多台计算机连接，但是不同计算机的操作系统和硬件体系结构不同，为了提供通信支持，位于同一个网络中的计算机在进行连接和通信时必须要遵守一定的规则，这就好比在道路中行驶的汽车一定要遵…

阅读更多...

实验二物理内存管理-实验部分

实验二物理内存管理-实验部分

目录一、知识点 1、计算机体系结构/内存层次 1.1、计算机体系结构 1.2、地址空间&地址生成 1.3、伙伴系统（Buddy System） 2、非连续内存分配 2.1、段式存储 2.2、页式存储 2.3、快表和多级页表 2.4、段页式存储 3、X86的特权级与MMU 3.…

阅读更多...

如何让Obsidian实现电脑端和安卓端同步

如何让Obsidian实现电脑端和安卓端同步

Obsidian是一款知名的笔记软件，支持Markdown语法，它允许用户在多个设备之间同步文件。要在安卓设备上实现同步，可以使用remote save插件，以下是具体操作步骤： 首先是安装电脑端的obsidian，然后依次下载obs…

阅读更多...

最新文章