Data-Free Generalized Zero-Shot Learning 中文版

摘要

深度学习模型具有从大规模数据集中提取丰富知识的能力。然而,由于涉及到数据版权和隐私问题,数据共享变得越来越具有挑战性。因此,这妨碍了从现有数据向新的下游任务和概念有效转移知识。零样本学习(ZSL)方法旨在通过从基类中转移学习的语义知识来识别新类别。然而,传统的生成式ZSL方法通常需要访问基类的真实图像,并依赖手动注释的属性,这在数据限制和模型可扩展性方面存在挑战。为此,本文解决了一个具有挑战性和实践意义的问题,即无数据零样本学习(DFZSL),其中仅有基于 CLIP 预训练分类器的基类数据可用于零样本分类。具体来说,我们提出了一个用于 DFZSL 的通用框架,由三个主要组成部分组成。首先,为了恢复基础数据的虚拟特征,我们将基类图像的 CLIP 特征建模为基于预训练分类器的 von Mises-Fisher(vMF)分布样本。其次,我们利用 CLIP 的文本特征作为低成本的语义信息,并提出了一个特征语言提示调整(FLPT)方法,进一步调整虚拟图像特征和文本特征。第三,我们使用对齐良好的虚拟图像特征和相应的语义文本特征训练条件生成模型,从而实现了对新类别特征的生成,并实现更好的零样本泛化。我们的框架已在通用 ZSL 的五个常用基准数据集以及基类到新类别 ZSL 的 11 个基准数据集上进行了评估。结果表明了我们方法的优越性和有效性。我们的代码可在 https://github.com/ylong4/DFZSL 上找到。

介绍

深度学习模型的强大之处在于它们能够从大规模数据集中提取丰富的知识,包括视觉特征和语义信息。然而,跨不同公司、机构和国家之间的数据共享变得越来越具有挑战性和敏感性。与数据版权和隐私相关的担忧,特别是在健康和安全等敏感领域,给大规模数据集中的知识顺利传输到新的下游任务和概念中造成了重大障碍。这些挑战阻碍了深度学习模型的广泛利用,并限制了它们在各个领域的潜在影响。受到数据和模型隐私问题日益增长的担忧的启发,特别是在将知识转移到新概念的情境中,==本文解决了无数据零样本学习的问题,即在没有访问任何真实数据的情况下进行零样本学习。==零样本学习(ZSL)解决了利用从基类转移的语义知识来识别新类的挑战。尽管零样本学习取得了显著进展,但大多数零样本学习方法通常需要访问基类的标记图像,无论是用于对齐视觉-语义嵌入还是训练条件生成模型。==不幸的是,由于隐私或版权限制,从基类获取真实数据在现实世界的应用中往往是不切实际的。此外,现有方法严重依赖于手动注释的属性,这在可扩展性和注释难度方面存在挑战。==大规模预训练的视觉语言模型(例如 CLIP)等最近取得了显著的零样本泛化能力。这些模型通过在大量图像-标题对上进行广泛训练,而无需手动注释的属性,就实现了这种能力。然而,有效地将这些模型在弱对齐的图像-标题对上训练的知识转移到下游细粒度零样本分类任务仍然具有挑战性和不足。这主要是由于预训练模型和特定分类任务之间的类别粒度差异所致。Prompt 调整通过向输入添加可学习的提示来解决这个问题。然而,最近的 Prompt 调整方法仍然存在单边对齐的问题,并且依赖于对真实图像的访问。

为此,本文解决了一个具有挑战性和实用性的问题,被称为无数据零样本学习(DFZSL)。在这种情况下,用于零样本分类的唯一可用资源是基于 CLIP 特征的预训练基类分类器。值得注意的是,我们没有访问来自基类或新类的任何真实数据,并且不需要手动属性注释。我们的设置与绝对零样本学习密切相关。然而,他们的方法仍然依赖于手动属性注释,并且在传统和泛化 ZSL 中表现不佳。

所提出的框架由三个主要组件组成。首先,为了恢复基类数据,我们将基类图像的 CLIP 特征建模为从 von Mises-Fisher(vMF)分布中取样的样本,其中可学习的均值(μ)和适当的集中(κ)参数基于预训练分类器。这使我们能够通过从分布中采样来恢复基类数据的虚拟特征。需要注意的是,我们的方法并不恢复原始图像。相反,我们的重点是恢复高级图像特征向量,这更有效并避免了隐私和版权问题。其次,为了连接基类和新类,我们利用 CLIP 的文本编码器获取低成本的语义信息,以通用文本特征的形式,消除了对手动属性注释的需求。我们的框架是通用的,任何视觉语言基础模型都有可能使用。为了增强对下游细粒度零样本分类任务的适应能力,我们引入了一种特征语言提示调整方法。该方法旨在通过调整视觉特征和文本输入来进一步将基类的虚拟图像特征与其对应的文本特征对齐。第三,我们使用良好对齐的虚拟图像特征和相应的语义文本特征训练条件生成模型,使我们能够为新类生成标记数据。然后,通过监督学习实现零样本分类。我们的框架已在用于泛化 ZSL 的五个常用基准测试中进行了评估,以及用于基类到新类泛化的 11 个基准测试中进行了评估。结果表明了我们方法的优越性。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/469542.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据结构 --- 复杂度概念及计算讲解(时间复杂度,空间复杂度)

今天没有sao话,今天认真学习 一、时间复杂度 1、概念讲解 2、计算讲解 二、空间复杂度 1、概念讲解 2、计算讲解 三、常见复杂度对比 四、完结撒❀ 前言: 经常刷题的人都知道,我们在解决一道题时可能有多个解法,那么如何…

1、Java虚拟机学习-类的生命周期-加载阶段-以及怎样查看方法区中的对象和堆中对象的关联以及静态变量存在什么地方

类的生命周期 其中连接又可以分为3个小阶段 一、加载阶段 1、加载阶段第一步是类加载器根据类的全限定名通过不同的渠道以二进制流的方式获取字节码信息。 渠道: 2、类加载器在加载完类之后,Java虚拟机会将字节码中的信息保存在内存的方法区中。 方法区是虚拟…

HarmonyOS NEXT应用开发—投票动效实现案例

介绍 本示例介绍使用绘制组件中的Polygon组件配合使用显式动画以及borderRadius实现投票pk组件。 效果预览图 使用说明 加载完成后会有一个胶囊块被切割成两个等大的图形来作为投票的两个选项,中间由PK两字分隔开点击左边选项,两个图形会随着选择人数…

Http 超文本传输协议基本概念学习摘录

目录 HTTP协议 超文本传输协议 HyperText超文本 HTML超文本标记语言 HTTP协议原理 请求发送 服务器处理 响应发送 连接关闭或保持 HTTP协议版本 HTTP/0.9 HTTP/1.0 HTTP/1.1 HTTP/2 HTTP/3 HTTP请求方法 GET POST PUT DELETE HEAD OPTIONS HTTP请求头字…

MQTT学习从零到实战:二

本次基于MQTT实现的服务器之一:EMQX 协议版本:5.0 文档路径:快速开始 | EMQX 5.0 文档 MQTT协议服务器搭建 本次使用的服务器是EMQX。 下载地址:立即开始 | EMQX 从中我们也可以看出,企业版支持数据持久化&#xf…

springboot+template模板语法+SQL如何从零开始创建并运行一个实例

目录 一、创建springboot项目 二、启动程序测试一下,右上角点击运行: 三、代码编写 1、先在entity里写一个实体类,User: 2、写一个mapper接口,写四个接口,增删改查。(我这里后面就以获取所…

蓝桥杯每日一题——棋盘

问题描述 小蓝拥有 n xn 大小的棋盘,一开始棋盘上全都是白子。小蓝进行了 m 次操作,每次操作会将棋盘上某个范围内的所有棋子的颜色取反(也就是白色棋子变为黑色,黑色棋子变为白色)请输出所有操作做完后棋盘上每个棋子的颜色。输入格式 输入的…

3.14_理解专业术语_3.18

分布式电源 风能、太阳能、生物质能等新能源的应用,有很大部分是分散式的,且容量较小。这些分散布置在电力负荷附近的、容量在数千瓦至数十兆瓦之间的、为环境兼容的、节能的发电装置,如燃气轮机、内燃机、小型光伏发电站、燃料电池、风力发电…

Docker知识--01

虚拟化 # 什么是虚拟化 在计算机中,虚拟化(英语:Virtualization)是一种资源管理技术,是将计算机的各种实体资源,如服务器、网络、内存及存储等,予以抽象、转换后呈现出来,打…

【计算机网络】IP 协议

网络层IP协议 一、认识 IP 地址二、IP 协议报头格式三、网段划分1. 初识子网划分2. 理解子网划分3. 子网掩码4. 特殊的 IP 地址5. IP 地址的数量限制6. 私有 IP 地址和公网 IP 地址7. 理解全球网络(1)理解公网(2)理解私网&#xf…

C语言---指针的两个运算符:点和箭头

目录 点(.)运算符箭头(->)运算符需要注意实际例子 C语言中的指针是一种特殊的变量,它存储了一个内存地址。点(.)和箭头(->)是用于访问结构体和联合体成员的运算符。…

[LeetBook]【学习日记】排序算法——归并排序

主要思想 归并排序是一种分治算法,其排序过程包括分和治分是指将要排序的序列一分为二、二分为四,直到单个序列中只有一个数治是指在分完后,将每两个元素重新组合,四合为二、二合为一,最终完成排序 图片作者&#xf…

SkiaSharp使用SKCanvas.DrawText绘制2D文本时部分字符渲染位置异常。

Skia是一个开源的 2D 图形库,支持多种平台和语言,可以用于绘制各种图形和效果,SkiaSharp是其.Net版本。 在绘制文本时,一般做法是: private void SkContainer_PaintSurface(object? sender, SkiaSharp.Views.Deskto…

Linux系统安装宝塔面板结合内网穿透实现公网登录本地面板——“cpolar内网穿透”

文章目录 一、使用官网一键安装命令安装宝塔二、简单配置宝塔,内网穿透三、使用固定公网地址访问宝塔 宝塔面板作为建站运维工具,适合新手,简单好用。当我们在家里/公司搭建了宝塔,没有公网IP,但是想要在外也可以访问内…

Midjourney 和 Dall-E 的优劣势比较

Midjourney 和 Dall-E 的优劣势比较 Midjourney 和 Dall-E 都是强大的 AI 绘画工具,可以根据文本描述生成图像。 它们都使用深度学习模型来理解文本并将其转换为图像。 但是,它们在功能、可用性和成本方面存在一些差异。 Midjourney 优势: 可以生成更…

攻防世界新手模式例题(Web)

PHP2 首先我们查看页面,查看前端代码 发现均没有什么有效信息,由题目可知,此问题与php相关,于是我们可以看一下他的index.php文件 查看时用?index.phps 补充知识:phps文件就是php的源代码文件,通常用于…

算法之位运算

常见的位运算操作: 首先先熟悉一下常见的位运算操作: 1. 基础位运算 左移<<, 右移>>, 按位与&, 按位或|, 按位异或^, 按位取反~ 注意: 异或其实是一种无进位相加. 2. 给定一个 n, 确定它的二进制表示中第x位是 0 还是 1 n & (1<<x) 或者 (n>…

消费者组大观:5种状态,1场分布式奇迹

欢迎来到我的博客&#xff0c;代码的世界里&#xff0c;每一行都是一个故事 消费者组大观&#xff1a;5种状态&#xff0c;1场分布式奇迹 前言EmptyDead状态处理 Dead 状态的策略&#xff1a;防范和恢复&#xff1a; PreparingRebalance处理 "PreparingRebalance" 状…

【Leetcode-102.二叉树的层序遍历】

题目详情&#xff1a; 给你二叉树的根节点 root &#xff0c;返回其节点值的 层序遍历 。 &#xff08;即逐层地&#xff0c;从左到右访问所有节点&#xff09;。 示例 1&#xff1a; 输入&#xff1a;root [3,9,20,null,null,15,7] 输出&#xff1a;[[3],[9,20],[15,7]]示例…

Linux软件管理(1)

软件管理 下载 wget Linux wget是一个下载文件的工具&#xff0c;它用在命令行下。 wget工具体积小但功能完善&#xff0c;它支持断点下载功能&#xff0c;同时支持FTP和HTTP下载方式&#xff0c;支持代理服务器和设置起来方便简单。 1.语法 wget [选项]……[URL]…… 2、…