Vision Transformer(二):位置嵌入向量

1. 什么是位置嵌入向量

位置嵌入向量是Transformer兴起时就引入的一个概念。早期在处理文本信息时,词语之间是相关联的,只有具有一定位置关系的词语组合才能够表达一些正确的意思。

2. 在Transformer中是如何实现的?

在Transformer的训练过程中,我们将图片划分为一个patch序列作为输入。在开始阶段,Position Embedding作为一个可训练参数与patch embedding进行求和引入到网络中(实际上Transformer已经不能再称为网络)。

3. 什么是位置嵌入

Transformer 模型中的位置嵌入(position embedding)是一种机制,用来给模型提供关于序列中各个元素位置的信息。在原始的 Transformer 模型中,这是必要的,因为模型的主要构建块(如自注意力层)本身并不具备处理序列中元素位置关系的能力。

位置嵌入通常是以向量形式实现的,这些向量有与序列中的每个元素(例如,单词或者图像的patches)相同的维度。模型在处理输入之前,会将这些位置向量加到对应元素的嵌入(embedding)上。这样做的目的是让模型不仅能够学习输入元素的特征,还能学习元素在序列中的相对或绝对位置。

4. 举例

在很多网络资源中,已经就“为什么position embedding与sequences of image patches以求和的方式引入”做了很多详解。本处并不准备进行大量的公式推导,而是举一个简单的例子讲解“位置嵌入”的意义。

如图1所示,为一张训练图片,图像中是一辆车。假设我们在训练时,仅将该图像划分为三个patch进行输入,如图2所示。

在训练过程中,从简化的角度看,位置嵌入就是表征车头在车身左边,车尾在车身右侧,经过学习所得到的就是这种位置关系,具有这种位置关系的才会被检测为汽车。从另一方面,如图3和图4的位置关系,因为违反了这种位置关系,就不会被认作是一辆汽车。

当然,Transformer 通过位置嵌入学习的不仅仅是简单的“车头在车身前端,车尾在后端”的物理布局。它更倾向于学习如何在视觉上将各个图像块整合成一个有意义的整体(在这个例子中是一辆车)。这包括理解各个图像块之间的相对位置和视觉特征,以及如何将这些块组合起来构成一个连贯的对象。

图1 典型的训练数据(汽车)

图2 正确的位置关系(汽车)

图3 不正确的位置关系(非汽车)

图4 不正确的位置关系(非汽车类)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/374548.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ubuntu22.04@laptop OpenCV Get Started: 000_hello_opencv

ubuntu22.04laptop OpenCV Get Started: 000_hello_opencv 1. 源由2. Hello OpenCV2.1 C应用Demo2.2 Python应用Demo 3. 参考资料 1. 源由 之前,通过敲门砖已经砸开了OpenCV的大门,接下来是体验下“Hello World!”程序。 2. Hello OpenCV …

洗地机值得买吗?四款好用的洗地机推荐

洗地机值得买吗,相比传统清洁工具而言,洗地机的优势明显,甚至可以说是代差级的优势。它可以一机多用,在扫地、拖地、滚刷自清洁、烘干/晾干上一次完成,不仅清洁能力强大又大大减少了家务所需的时间,是正儿八…

啤酒:畅享精酿啤酒与海鲜的鲜美滋味

夏日的阳光总是让人心生慵懒,而在这个季节里,没有什么比一杯冰镇啤酒和一串烤肉更能令人感到惬意了。当Fendi Club啤酒与烤肉相遇,它们将为你的夏日时光增添无尽的欢愉。 Fendi Club啤酒,以其醇厚的口感和酿造工艺收获了许多的啤酒…

専攻春节钜惠

専攻春节钜惠 大家好,新春佳节到来之际,为了答谢大家多年来的支持厚爱,也为了更广泛的推广VBA应用,“VBA语言専攻”在春节期间再次推出钜惠活动,时间2月9日到2月17日(大年三十到正月初八) 1 &…

宠物空气净化器哪个品牌质量好?实惠的猫用猫用净化器牌子测评

作为宠物主人,我们深知养宠物的乐趣和责任,但同时也面临着一些挑战,比如宠物脱毛、气味和室内空气质量等问题。正因如此,越来越多的家庭选择宠物空气净化器,为我们营造一个清新、健康的居住环境。 无论我们多么喜欢我…

Dijkstra算法(求最短路)

简介: 迪杰斯特拉算法(Dijkstra)是由荷兰计算机科学家狄克斯特拉于1959年提出的,因此又叫狄克斯特拉算法。是从一个顶点到其余各顶点的最短路径算法,解决的是有权图中最短路径问题。 特点: 迪杰斯特拉算法采用的是一种贪心策略&a…

双侧条形图绘制教程

写在前面 双侧条形图在我们的文章中也是比较常见的,那么这样的图形是如何绘制的呢? 以及它使用的数据类型是什么呢? 这些都是我们在绘制图形前需要掌握的,至少我们知道绘图的数据集如何准备,这样才踏出第一步。 今天…

代码审计-CVE-2023-6654-PHPEMS-加密-解密分析

路由: 入口方法: 鉴权分析: 由此可以得出 鉴权是由session类负责获取参数后,由各个类的魔术方法负责:(在此还有一个方法 全局搜索登录关键词) 1、断点分析: 寻找鉴权点分析&#…

ref用法

目录 React中提供两种方法创建ref对象: 类组件获取 Ref 三种方式 ① Ref属性是一个字符串。 ② Ref 属性是一个函数。 ③ Ref属性是一个ref对象。 高级用法1:forwardRef 转发 Ref 高级用法2:ref实现组件通信 【ref作用】:最…

UE4 C++创建摄像机摇臂和相机并且设置Transform

新建MyPawn C类 .h #include "GameFramework/SpringArmComponent.h" //SpringArm组件 #include "Camera/CameraComponent.h" //Camera组件class 工程名称_API AMyPawn : public APawn { //定义组件变量 public:UPROPERTY(VisibleAnywhere, BlueprintRead…

CSS:两列布局

两列布局是指一列宽度固定&#xff0c;另一列自适应。效果如下&#xff1a; HTML: <div class"container clearfix"><div class"left"></div><div class"right"></div> </div>公共 CSS&#xff1a; .con…

2024年2月CCF-全国精英算法大赛题目

第一次参加这种比赛&#xff0c;虽然是c类赛事&#xff0c;但是是ccf主办的&#xff0c;难度还是有点的&#xff0c;主要是前面签到题主要是思想&#xff0c;后面的题目难度太高&#xff0c;身为力扣只刷了一百多道题目的我解决不了&#xff0c;这几道我只做了B,C题,E题超时了&…

HR看了都想点开的简历:吸睛模板+撰写技巧

工作致富的第一步&#xff1a;写一份好的简历。一个独特、简单、清晰的个人简历模板可以更好地吸引雇主的注意和兴趣&#xff0c;并帮助你在许多求职者中脱颖而出。如何制作一份令人印象深刻的简历&#xff1f;巧妙地使用个人简历模板是一个不错的选择。在本文中&#xff0c;我…

Spring Boot整合新版Spring Security:Lambda表达式配置优雅安全

文章目录 1. 引言2. 项目依赖配置3. 使用Lambda表达式配置Spring Security4. 自定义身份验证逻辑5. 认证与授权注解5.1 Secured注解5.2 PreAuthorize和PostAuthorize注解 6. 总结 &#x1f389;Spring Boot整合新版Spring Security&#xff1a;Lambda表达式配置优雅安全 ☆* o(…

STM32F1 - 点灯-寄存器模式

点灯 实验概述&#xff1a;Step1> 建立工程Step2> 宏定义 - 寄存器地址 实验概述&#xff1a; 用配置寄存器的方式&#xff0c;开关一个LED灯&#xff0c; 只用标准库中提供的启动文件&#xff0c; Step1> 建立工程 出现错误&#xff1a;导入文件类型错误 keil5编译中…

QT Linux下无法使用CTRL+ALT+P快捷键,不生效

文章目录 一、背景二、排查&#xff08;1&#xff09;检查创建&#xff0c;发现没问题。&#xff08;2&#xff09;查看 shortcutMap 是否注册&#xff08;3&#xff09;排查xcb有没有获取到该事件&#xff08;4&#xff09;排查是否是系统的问题&#xff08;5&#xff09;www.…

10英寸安卓车载平板电脑丨ONERugged车载工业平板:解决农业工作效率

农业是人类社会的基石之一&#xff0c;而农业工作效率的提升一直是农民和农业专业人士关注的重要议题。随着技术的不断进步&#xff0c;车载工业平板成为了解决农业工作效率的创新解决方案。本文将探讨车载工业平板如何为农业带来巨大的改变&#xff0c;提高农民的工作效率和农…

Fink CDC数据同步(六)数据入湖Hudi

数据入湖Hudi Apache Hudi(简称&#xff1a;Hudi)使得您能在hadoop兼容的存储之上存储大量数据&#xff0c;同时它还提供两种原语&#xff0c;使得除了经典的批处理之外&#xff0c;还可以在数据湖上进行流处理。这两种原语分别是&#xff1a; Update/Delete记录&#xff1a;H…

【Java 数据结构】泛型进阶

泛型 1 什么是泛型2 引出泛型2.1 语法 3 泛型类的使用3.1 语法3.2 示例3.3 类型推导(Type Inference) 泛型是如何编译的擦除机制裸类型4 泛型的上界4.1 语法4.2 示例4.3 复杂示例 5 泛型方法5.1 定义语法5.2 示例5.3 使用示例-可以类型推导5.4 使用示例-不使用类型推导 6 通配符…

编译原理与技术(三)——语法分析(五)自底向上-LR分析

一、自顶向下的LL(1)与自底向上的LR &#xff08;一&#xff09;LL(1)非递归预测分析器及分析表 &#xff08;二&#xff09;LR分析器及分析表 二、LR分析 举个例子。 从上面不难看出&#xff0c;LR分析也是由分析表驱动的。那么关键在于构造LR分析表。