CLIP浅谈

CLIP论文地址:Learning Transferable Visual Models From Natural Language Supervision
CLIP代码地址:https://github.com/openai/CLIP

简介

CLIP是OpenAI在2021年2月发表的一篇文章,它的主要贡献有以下2点:
1)将图像分类问题映射为了多模态问题,也就是说他的图片标签不再是一个单词类别,而是一段文字描述,例如:“A photo of {label}”;
2)利用4亿的训练数据,将待分类的图片映射为了zero-shot问题,对于新来的数据,只需要把标签记录下来,就可以直接分类,而不需要重新训练。

模型结构

在这里插入图片描述

text encoder可以简单地理解为bert,作用为将图片的描述映射为特征向量,假如有n个句子,就是n个文本特征,image encoder可以理解为vit,假如有n张图片,也会得到n个图片特征。最后将文本特征和图片特征计算余弦距离,可以得到n*n的矩阵。由于每个文本只有一张对应的图片是正例,同理每一张图片只有一句文本是正例,因此对角线处的余弦距离最近,相似度最高,其他位置的距离要尽可能的大,相似度尽可能的低。当训练完成后,在预测的时候,只需要计算每张图片与待预测的类别余弦距离即可,找距离最近,相似度最高的一个类别就是输出结果。

实验结果

在这里插入图片描述

实验结果表明,clip在众多数据集上都战胜了resnet50,这在之前的网络中是不可能的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/167524.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MCU内存基础知识

文章目录 一、存储器分类二、C语言内存分区内存区三、STM32启动文件分析四、应用分析 一、存储器分类 RAM(Random Access Memory) :掉电之后就丢失数据,读写速度块 ROM (Read Only Memory) :掉电之后仍然可以保持数据 单片机的RA…

【Java SE】 详解java访问限定符

访问限定符 Java中主要通过类和访问权限来实现封装:类可以将数据以及封装数据的方法结合在一起,更符合人类对事物的认知,而访问权限用来控制方法或者字段能否直接在类外使用。Java中提供了四种访问限定符: 实际只有三种访问限定…

纯CSS动态渐变文本特效

如图所示,这是一个炫酷的文本渐变效果,如同冰岛的极光一般。本次的文章让我们逐步分解代码,了解其实现原理。 基于以上动图效果可以分析以下是本次动效实现的主要几点: 文本中有多个颜色的动画每个颜色显示的半径不同&#xff0…

亚马逊化妆品护肤品等HRIPT/RIPT重复性斑贴测试如何办理?

一、哪类产品需要HRIPT / RIPT斑贴试验: HRIPT(人体重复斑点试验)和RIPT(人体斑点试验)是化妆品相关的测试,用于评估化妆品是否可能引起皮肤敏感和过敏反应。只有化妆品类产品需要进行HRIPT / RIPT斑贴试验…

五分钟搭建开源ERP:Odoo,并实现公网远程访问

文章目录 前言1. 下载安装Odoo:2. 实现公网访问Odoo本地系统:3. 固定域名访问Odoo本地系统 前言 Odoo是全球流行的开源企业管理套件,是一个一站式全功能ERP及电商平台。 开源性质:Odoo是一个开源的ERP软件,这意味着企…

普通函数VS箭头函数

首先给大家看一个代码 const jonas {year: 1995,calcAge: function () {console.log(this);console.log(2038 - this.year);},greet: () > console.log(Hey ${this.firstName}), };jonas.greet();这个会输出什么? 这个我们上篇文章中讲过,箭头函数…

(五)、基于 LangChain 实现大模型应用程序开发 | 基于知识库的个性化问答 (文档加载 Document Loading)

😄 大语言模型(Large Language Model, LLM), 可以回答许多不同的问题。但是大语言模型的知识来源于其训练数据集,并没有用户的信息(比如用户的个人数据,公司的自有数据),也没有最新发生时事的信息&#xff…

算法-二叉树-简单-二叉树的最大和最小深度

记录一下算法题的学习7 二叉树的最大深度 题目:给定一个二叉树 root ,返回其最大深度。 二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。 输入:root [3,9,20,null,null,15,7] 输出:3 示例分析&#xff…

概念解析 | 光电神经网络:optoelectronic neural network

注1:本文系“概念解析”系列之一,致力于简洁清晰地解释、辨析复杂而专业的概念。本次辨析的概念是:光电神经网络。 概念解析 | 光电神经网络的原理、挑战与未来 1. 背景介绍 在过去的十年中,深度学习和神经网络在许多领域取得了显著的成就,如图像识别、自然语言处理、医疗…

【大数据开发】FineReport报表基础入门

博主:👍不许代码码上红 欢迎:🐋点赞、收藏、关注、评论。 格言: 大鹏一日同风起,扶摇直上九万里。 文章目录 一 登录账号二 创建一个新的表格三 单元格扩展3.1 无扩展3.2 纵向扩展3.3 横向扩展 四 父子格…

代码随想录算法训练营第四十一天【动态规划part03】 | 343. 整数拆分、96.不同的二叉搜索树

343. 整数拆分 题目链接: 力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台 求解思路: 动规五部曲 确定dp数组及其下标含义:dp[i] 拆分i,可以得到的最大乘积为dp[i]确定递推公式:从1开始遍…

一周互联网简讯 | 本周互联网发生了啥?(第3期)

1.百度T7跳槽字节3-1,总包145万,压力太大想降级 硕士毕业工作10年,一百度T7大头兵发文称,自己最近拿到字节3-1的offer,年包从现有的110万涨30%到145万。但是担心去字节后因为定的职级高需要带人,压力会很大…

nginx代理本地服务请求,避免跨域;前端图片压缩并上传

痛点 有时用vscode进行一些测试 请求不同端口服务、或者其他服务接口时时,老是会报跨域,非常的烦 所有就想用 nginx 进行请求代理,来解决这个痛点 nginx 下载地址:nginx: download 下载到某一目录: window下nginx相关…

10个值得关注的即时通讯软件开发趋势

作为即时通讯软件开发领域的专家,以下是我对即时通讯软件开发的十个值得关注的趋势的分享。 1. 云通信技术的进步 随着云计算和网络技术的不断发展,云通信技术在即时通讯软件开发中扮演着越来越重要的角色。通过使用云通信技术,开发者可以实…

文具办公产品展示预约小程序的作用如何

从整体来看,文具办公品牌/门店的生意来源于线下自然流量或线上自营商城/入驻第三方商城的的流量,线上多数情况都是以直接销售配送为主,但其实对文具品牌/门店而言还有信息展示、服务预约、在线咨询、产品介绍等需求。 虽然小区周边的消费者需…

vue安装three.js并创建第一个入门场景

vue安装three.js,并创建第一个入门场景 安装three.js npm install --save three引入three.js import * as THREE from threethree.js结构 three.js坐标 创建一个场景 scene场景,camera相机,renderer渲染器 创建一个场景 this.scene new T…

从矿源到指尖——周大福天然钻石的非凡实力

(2023年11月20日,北京)在近百年历程中,周大福珠宝集团一直致力珠宝工艺传承与创新设计的孕育,于1929年创立周大福品牌,凭借对中国传统黄金工艺的传承与创新、对中国传统文化的融合与发扬,将黄金…

阿里云oss使用签名url上传时的一些配置注意事项

我来讲一下测试下来遇到的问题点和解决方案: 一、配置相关问题 你可以先按照阿里云的文档把一些oss的基本配置弄好,再看下面的内容; 配置跨域访问规则; 这是非常重要的一步。默认情况下,oss不允许上传文件时携带Cont…

分享购的实战攻略:让您轻松掌握流量密码

​小编介绍:10年专注商业模式设计及软件开发,擅长企业生态商业模式,商业零售会员增长裂变模式策划、商业闭环模式设计及方案落地;扶持10余个电商平台做到营收过千万,数百个平台达到百万会员,欢迎咨询。 分…

从0开始学习JavaScript--JavaScript中的对象

JavaScript中的对象是一种重要的数据结构,它不仅是语言的基石,还提供了丰富的功能和灵活性。本文将深入研究JavaScript对象的创建、属性访问、方法定义,以及实际应用中的技巧,通过丰富的示例代码,帮助读者更全面地了解…