18.自监督视觉`transformer`模型DINO

文章目录

  • 自监督视觉`transformer`模型DINO
    • 总体介绍
    • DINO中使用的SSL和KD方法
    • multicrop strategy
    • 损失函数定义
    • `teacher`输出的中心化与锐化
    • 模型总体结构及应用
      • reference


欢迎访问个人网络日志🌹🌹知行空间🌹🌹


自监督视觉transformer模型DINO

总体介绍

论文:1.Emerging Properties in Self-Supervised Vision Transformers

这篇文章旨在探索自监督训练有没有给视觉transformer带来相对于CNN没有的新特性。

除了观测到自监督训练ViT工作特别好外,作者还有两个新发现,一个是自监督训练得到的特征图包含明显的语义信息,有可能将自监督的结果直接拿来做语义分割和目标检测,另外一个是直接拿自监督得到的特征向量应用KNN分类,得到了非常好的效果。ps:本人在工程数据(20W张)上验证的直接使用KNN分类的效果比efficient-net还好。

正如DINO的名字缩写,这整个算法使用了知识蒸馏的架构,通过一个teacher网络引导student的学习,使用损失值计算的梯度更新student模型的参数,而teacher模型的参数使用的是student模型参数的指数移动平均值,和BYOL的方法有些相似。除了知识蒸馏,作者还强调了对输入进行RandomResizeCroptransformer使用小patch_size的重要性。同时,DINO需要对teacher的输出进行中心化和锐化centering and sharpening,否则模型训练会不稳定,甚至崩溃(collapse)。DINO使用的studentteacher且训练过程中相互促进学习,也属于共蒸馏codistillation模型。

知识蒸馏的概念是一个学生网络student表示为 g θ s g\theta_s gθs学习匹配一个教师网络teacher表示为 g θ t g\theta_t gθt的输出,通过teacher引导student的训练。

假如给定一个输入图像 x x x,网络对应的输出是 K K K维的概率分布 P P P(类似于有K个类别的分类),studentteacher对应的输出概率分别为P_sP_t

在计算student输出概率的时候使用的是带 τ s \tau_s τs温度系数的softmax方法,在DINO中默认的 τ s = 0.1 \tau_s=0.1 τs=0.1,目的在于增大输出的相对熵,促进类别之间相似度的区分,在计算teacher输出的概率时同样使用了 τ t = 0.9 \tau_t=0.9 τt=0.9

P s ( x ) ( i ) = e x p ( g θ s ( x ) ( i ) / τ s ) ∑ k = 1 K e x p ( g θ s ( x ) ( k ) / τ s ) P_s(x)^(i)=\frac{exp(g\theta_s(x)^{(i)}/\tau_s)}{\sum\limits_{k=1}^{K}exp(g\theta_s(x)^{(k)}/\tau_s)} Ps(x)(i)=k=1Kexp(g

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/112725.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

国际多语言出海商城源码/返佣产品自动匹配拼单商城源码

源码介绍: 国际多语言出海商城返佣产品自动匹配订单拼单商城源码,8国多语言出海拼单商城。此网站是很多巴西客户定制的原型,已投放运营符合当地本地化。 多语言商城返利返佣投资理财派单自带余额宝,采取全新支付端口&#xff0c…

Hadoop RPC简介

数新网络-让每个人享受数据的价值https://www.datacyber.com/ 前 言 RPC(Remote Procedure Call)远程过程调用协议,一种通过网络从远程计算机上请求服务,而不需要了解底层网络技术的协议。RPC它假定某些协议的存在,例…

师从IEEE Fellow|民办高校计算机专业教师自费赴美访学

D老师科研背景较弱,拟自费访学并带孩子出国就读,故要求申请到美国生活成本低且有较好公立中学教育资源的地区,并希望对方不收管理费。最终我们落实了德克萨斯大学达拉斯分校的邀请函,对方是IEEE Fellow、IET Fellow和EAI Fellow三…

链表的结点个数统计及查找

链表节点个数统计 要统计链表中的节点个数,只需要遍历整个链表,并在遍历的过程中计数即可。具体实现代码如下:(仍然使用C#) 先定义一个整型函数(节点个数的返回值一定是整型变量) int getLinkNodeNum(struct Test *head) {int cnt 0;whil…

类和对象(中)

目录 1.类的6个默认成员函数 2.构造函数 2.1 概念 2.2 特性 3.析构函数 3.1 概念 3.2 特性 4.拷贝构造函数 4.1 概念​ 4.2 特性 5.赋值运算符重载 5.1 运算符重载 (重要) 5.2 赋值运算符重载 5.3 Date类的其他运算符重载 6.const成员函数…

Linux开机、重启、关机和用户登录注销

1.【关机】 shutdown shutdown now 表示立即关机 shutdown -h now 表示立即关机 shutdown -h 1 表示1分钟后关机 halt 用来关闭正在运行的Linux操作系统 2.【重启】 shutdown -r now 表示立即重启 reboot 重启系统 sync …

2023年免费CRM软件盘点:14款热门工具全面比较(含开源)

在初创企业或小型企业阶段,特别是在预算有限且客户管理需求较为基础的情境下,使用免费的CRM系统通常是一个理智的选择。这类系统虽然在功能上可能不如付费版本丰富,但基本的客户信息管理、销售跟踪和沟通记录等核心功能通常都能满足需求。 对…

【Proteus仿真】【51单片机】贪吃蛇游戏

文章目录 一、功能简介二、软件设计三、实验现象联系作者 一、功能简介 本项目使用Proteus8仿真51单片机控制器,使用8*8LED点阵、按键模块等。 主要功能: 系统运行后,可操作4个按键控制小蛇方向。 二、软件设计 /* 作者:嗨小易…

蜜罐系统HFish的部署与功能实测

1. 引入 根据参考1对蜜罐的定义: 蜜罐(Honeypot)是一个计算机科学领域的术语,指用于检测或防御未经授权的行为或黑客攻击的陷阱。其名称来源于其工作原理类似于用来诱捕昆虫的蜜罐。蜜罐通常伪装成看似有利用价值的网路、资料、…

CHS零壹视频恢复程序高级版视频修复OCR使用方法

目前CHS零壹视频恢复程序监控版、专业版、高级版已经支持了OCR,OCR是一种光学识别系统,高级版最新版本中不仅仅是在视频恢复中支持OCR,同时视频修复模块也增加了OCR功能,此功能可以针对一些批量修复的视频文件(如执法仪…

ubuntu(18.04)中架设HiGlass docker镜像服务,已尝试mcool、bedpe、wig格式文件

前言 使用到的软件 docker 文档 : https://www.docker.com/ HiGlass 文档:http://docs.higlass.io/higlass_docker.html#running-locally https://github.com/higlass/higlass-dockerhiglass-docker 地址:https://github.com/higla…

【JAVA学习笔记】 57 - 本章作业

项目代码 https://github.com/yinhai1114/Java_Learning_Code/tree/main/IDEA_Chapter14/src/com/yinhai/homework 1. (1)封装个新闻类,包含标题和内容属性,提供get, set方法, 重写toString方法,打印对象时只打印标题; (2)只提供…

【机器学习合集】模型设计之注意力机制动态网络 ->(个人学习记录笔记)

文章目录 注意力机制1. 注意力机制及其应用1.1 注意力机制的定义1.2 注意力机制的典型应用 2. 注意力模型设计2.1 空间注意力机制2.2 空间注意力模型2.3 通道注意力机制2.4 空间与通道注意力机制2.5 自注意力机制2.5 级联attention 动态网络1. 动态网络的定义2. 基于丢弃策略的…

小程序day02

目标 WXML模板语法 数据绑定 事件绑定 那麽問題來了,一次點擊會觸發兩個組件事件的話,該怎么阻止事件冒泡呢? 文本框和data的双向绑定 注意点: 只在标签里面用value“{{info}}”,只会是info到文本框的单向绑定,必须在…

安装docker报错:except yum.Errors.RepoError, e:

问题描述: 在安装docker的时候,配置阿里云地址出现以下问题 问题原因: linux 系统中存在多版本的python. yum 依赖 python 2, 而个人使用 python 3 导致. 解决办法: 修改 /usr/bin/yum-config-manager文件中第一行 #!/usr/bin/p…

arcgis图上添加发光效果!

看完本文, 你可以不借助外部图片素材, 让你的图纸符号表达出你想要的光! 我们以之前的某个项目图纸为例,来介绍下让符号发光的技术! 第一步—底图整理 准备好栅格影像底图、行政边界的矢量数据,确保“数据合适、位置正确、边界吻合”。 确定好图纸的大小、出图比例、投…

字体文件名称成中的Bold, Light,Italic,Regular, Medium是什么意思?

解释 字体文件名: IntelOneMono-Bold.ttf其中IntelOneMono字体名称 Bold 字体的样式 .ttf字体后缀 样式英文 中文Bold粗体BoldItalic粗体斜体Italic斜体Light细体LightItalic斜细体Medium中等MediumItalic中等斜体Regular标准以下来自鸿蒙字体以下来自鸿蒙字体TC…

深度学习_3 数据操作之线代,微分

线代基础 标量 只有一个元素的张量。可以通过 x torch.tensor(3.0) 方式创建。 向量 由多个标量组成的列表(一维张量)。比如 x torch.arange(4) 就是创建了一个1*4的向量。可以通过下标获取特定元素(x[3]),可以通…

通过Google搜索广告传送的携带木马的PyCharm软件版本

导语 最近,一起新的恶意广告活动被发现,利用被入侵的网站通过Google搜索结果推广虚假版本的PyCharm软件。这个活动利用了动态搜索广告,将广告链接指向被黑客篡改的网页,用户点击链接后下载的并不是PyCharm软件,而是多种…

WSL安装Ubuntu

先安装wsl2 安装Ubuntu 打开windows商店,搜索对应版本的Ubuntu,点击获取进度跑完后,点击打开,就可以完成安装 删除Ubuntu版本 wsl --unregister Ubuntu-18.04安装位置迁移 正常情况下Ubuntu是被安装在C盘,我们需要…