albef论文学习

首先要知道vit是啥东西。vit就是transformer模型在图像领域的运用。

transformer模型原本是用于自然语言的,encoder和decoder接受的都是文字。vit把图像分割成很多个小块,把各个小块拉长当成向量来用,接下来就是一样的。最后接一个全连接层做分类。

注意它只用了encoder部分哦

有些模型会把最后得到的tokens做一个平均作为输入给最后的全连接层的值(用这个平均作为这个图片上提炼出来的信息),有些模型会在后面加上一个cls 作为 token(bert饼干),最后拿这个cls对应的值作为图像的信息。albet使用的是后者的方法。

再来看albet部分:

左边那一部分其实和vit一毛一样,(可能是图像进入transformer模型的通用方法)提出来的黄色方块就是上文提到的cls对应的token,是图像信息的精华。

右边的部分是bert模型的一部分。用这个已经预训练过的语言模型处理text信息,bert模型那当然cls不得不品,和隔壁cls图像信息门当户对

这里的特点在于他把bert模型拆开了,(不拆开那不就是clip吗)

首先要对刚刚拿到的两个token做简化(downsample , normalization,把向量变短)

得到了两个正样本,就要尽可能让他们两个更近,负样本存在下面的队列里(moco操作,没有梯度不用占一大堆内存)通过正样本和负样本的对比学习得到的loss让图像特征和文本特征尽量拉近。在这一步就要让图像和文本尽量配对

事实上,这个模型只需要下面半部分就已经可以通过正负样本的学习来学习哪些图像和文本可以配对了。

ITM(img text matching)loss是什么?判断文本和图片匹不匹配。这一步不给他上强度的话会很简单,所以会从一开始搞正负样本的地方找出一个与正样本相似度最高的样本作为负样本给它判断,强化其能力。

MLM就是bert的完型填空,但也运用了图像那一边传过来的信息。

主体部分就是这样,接下来是重量级:动量蒸馏

这个主要适用于对付从互联网上爬下来的垃圾数据。我们获得的图像和对应文本经常会牛头不对马嘴,别的文本却又刚好可以放进去,这样正样本和负样本对比学习就要学出史来了。

应对方法:不要one-hot而是multi-hot,从动量模型里得出一些可以的描述,让结果既要和正样本去靠拢,也要接近这些。

问题:动量模型是从哪来的?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/535475.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

(学习日记)2024.04.12:UCOSIII第四十节:软件定时器函数接口讲解

写在前面: 由于时间的不足与学习的碎片化,写博客变得有些奢侈。 但是对于记录学习(忘了以后能快速复习)的渴望一天天变得强烈。 既然如此 不如以天为单位,以时间为顺序,仅仅将博客当做一个知识学习的目录&a…

编程技巧(五) mysql中查询将行转为列逗号隔开拼接

让清单成为一种习惯 互联网时代的变革,不再是简单的开发部署上线,持续,正确,安全地把事情做好尤其重要;把事情做好的前提是做一个可量化可执行的清单,让工程师就可以操作的清单而不是专家才能操作: 设定检查点 根据节点执行检查程序操作确认或边读边做 二者选其一不要太…

CSS导读 (元素显示模式)

(大家好,今天我们将继续来学习CSS的相关知识,大家可以在评论区进行互动答疑哦~加油!💕) 目录 三、CSS的元素显示模式 3.1 什么是元素显示模式 3.2 块元素 3.3 行内元素 3.4 行内块元素 3.5 元素…

马斯克预言:下一代Grok 3模型将需10万Nvidia H100 GPU进行训练|TodayAI

特斯拉首席执行官兼xAI创始人埃隆马斯克对人工通用智能(AGI)的发展做出了一些大胆的预测,并讨论了AI行业面临的挑战。他预测,AGI可能在明年或2026年之前超越人类智能,但训练AGI将需要极大数量的处理器,进而…

priority_queue的使用以及模拟实现

前言 上一期我们对stack和queue进行了使用的介绍,以及对底层的模拟实现!以及容器适配器做了介绍,本期我们在来介绍一个容器适配器priority_queue! 本期内容介绍 priority_queue的使用 仿函数介绍 priority_queue的模拟实现 什么…

2024年人工智能路线图

今天分享的是人工智能专题系列深度研究报告:《人工智能专题:2024年人工智能路线图》。 秘书制定部门的人工智能战略优先事项和政策,并且是关键的对话者与私营部门、联邦机构、州官员,以及主要的国际同行。这部长在白宫人力资源委员…

C/C++基础----运算符

算数运算符 运算符 描述 例子 两个数字相加 两个变量a b得到两个变量之和 - 两个数字相减 - * 两个数字相乘 - / 两个数字相除 - % 两个数字相除后取余数 8 % 3 2 -- 一个数字递减 变量a:a-- 、--a 一个数字递增 变量a: a 、 a 其中递…

如何在 7 天内掌握C++?

大家好,我是小康,今天我们来聊下如何快速学习 C 语言。 本篇文章适合于有 C 语言编程基础的小伙伴们,如果还没有学习过 C,请看这篇文章先入个门:C语言快速入门 引言: C,作为一门集面向过程和…

精彩回顾 | 「AI 驱动增长,研发数智化升级」分享沙龙成功举办

AI 应用元年,人工智能技术将如何助力企业发展新质生产力,构建增长动能? 日前,LigaAI 与深圳市企业联合会、西云数据联合举办了「AI 驱动增长,研发数智化升级」技术专题沙龙。本次活动围绕「AI」应用实践,邀…

2024-基于人工智能的药物设计方法研究-AIDD

AIDD docx 基于人工智能的药物设计方法研究 AI作为一种强大的数据挖掘和分析技术已经涉及新药研发的各个阶段,有望推动创新药物先导分子的筛选、设计和发现,但基于AI的数据驱动式创新药物设计和筛选方法仍存在若干亟待解决的问题。我们课题组的核心研究…

Kali中间人攻击

中间人攻击 中间人攻击(Man-in-the-Middle Attack,简称MITM)是一种网络安全攻击,其中攻击者插入自己(作为“中间人”)在通信的两个端点之间,以窃取或篡改通过的数据。攻击者可以监视通信&#x…

我为什么选择成为程序员?

前言: 我选择成为程序员不是兴趣所在,也不是为了职业发展,全是生活所迫! 第一章:那年,我双手插兜,对外面的世界一无所知 时间回到2009年,时间过得真快啊,一下就是15年前…

多线程回答的滚瓜烂熟,面试官问我虚线程了解吗?我说不太了解!

Java虚拟线程(Virtual Threads)标志着Java在并发编程领域的一次重大飞跃,特别是从Java 21版本开始。这项新技术的引入旨在克服传统多线程和线程池存在的挑战。 多线程和线程池 在Java中,传统的多线程编程依赖于Thread类或实现Ru…

Green Hills 自带的MULTI调试器查看R7芯片寄存器

Green Hills在查看芯片寄存器时需要导入 .grd文件。下面以R7为例,演示一下过程。 首先打开MULTI调试器,如下所示View->Registers: 进入如下界面,选择导入寄存器定义文件.grd: 以当前R7芯片举例(dr7f7013…

室内定位中文综述阅读

1 室内高精度定位技术总结与展望 [4]柳景斌,赵智博,胡宁松等.室内高精度定位技术总结与展望[J].武汉大学学报(信息科学 版),2022,47(07):997-1008.DOI:10.13203/j.whugis20220029. 1.1.1 WiFi‐RTT定位 2016 年 12 月,随着新版 IEEE802.11 标准的公布&#xff0c…

力扣55. 跳跃游戏

Problem: 55. 跳跃游戏 文章目录 题目描述思路复杂度Code 题目描述 思路 将题目稍作转化:验证最远走到的距离是否超出组数; 1.获取数组nums的长度n,定义int变量farthest初始化为0; 2.从0~n-1循环每次更新farthes的长度farthest …

2024年3月文章一览

2024年3月编程人总共更新了12篇文章: 1.2024年2月文章一览 2.Programming Abstractions in C阅读笔记:p308-p311 3.Programming Abstractions in C阅读笔记:p312-p326 4.Programming Abstractions in C阅读笔记:p327-p330 5.…

查询卖家已卖出的交易数据

要获取淘宝订单详情数据,你需要使用淘宝开放平台的API来获取数据。以下是获取淘宝订单详情数据的步骤: 在淘宝开放平台上创建一个应用,获取到AppKey和AppSecret。 使用OAuth 2.0授权方式,获取到授权码。 第三方公司授权 使用授…

快速排序(单边循环和双边循环)

快速排序 单边循环快排 pv指向分区中最后一个元素,i,j指向分区中第一个元素,j所指向的元素和pv指向的元素比较大小,如果比pv所指大,则j,否则与i所指元素交换位置,i,j;当…