【ICCV2023】频率成分在少样本学习中的重要性

论文标题:Frequency Guidance Matters in Few-Shot Learning

论文链接:https://openaccess.thecvf.com/content/ICCV2023/html/Cheng_Frequency_Guidance_Matters_in_Few-Shot_Learning_ICCV_2023_paper.html

代码:暂未开源

引用:Cheng H, Yang S, Zhou J T, et al. Frequency Guidance Matters in Few-Shot Learning[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023: 11814-11824.

a364b1325f103a99da411ecc97ecfcbd.png

导读

少样本学习旨在学习一种具有判别性的特征表示,以便使用很少标记的支持样本来识别未见过的类别。虽然大多数少样本学习方法关注图像样本的空间信息,但频率表示在分类任务中也被证明是重要的。本文研究了不同频率分量对少样本学习任务的影响。

为了增强少样本学习方法的性能和泛化能力,作者提出了一种新颖的"Frequency-Guided Few-shot Learning"(FGFL)框架,该框架利用任务特定的频率成分来自适应地遮蔽相应的图像信息。该框架采用了一种新颖的多级度量学习策略,包括原始图像、遮蔽图像和未遮蔽图像之间的三元损失,以及遮蔽和原始支持集和查询集之间的对比损失,以利用更多的判别性信息。

作者进行了广泛的实验,涵盖了四个基准数据集,并考察了几种不同的少样本学习场景,包括标准场景、跨数据集、跨领域和粗粒度注释分类。无论是定性还是定量的结果都表明,所提出的FGFL方案能够关注与类别判别相关的频率成分,从而将这些信息整合到更有效和更具泛化性的少样本学习中。

本文贡献

首先,本文提出了FGFL框架,利用频率信息来增强少样本学习方法在空间域中的性能和泛化能力。

其次,提出了两种类型的排名损失函数,包括原始和生成图像的样本和任务级别的三元组和对比损失函数,以强制网络专注于每个少样本元任务的类别判别频率成分。此外,生成的未遮蔽图像也被用于增强支持集的可区分性。

第三,研究了不同频率成分对当前方法在几种泛化少样本设置下的影响,即跨数据集、跨领域和粗到细粒度注释泛化。实验证明了所提出的FGFL能够提高少样本方法的性能和泛化能力,在几种少样本设置下获得了卓越的结果。

相关工作

少样本学习

少样本学习的目标是识别只有少数可用的支持样本的新的查询样本。近年来,现有的深度少样本学习方法主要可分为三类。首先,基于优化的元学习方法[2,11,20,28,33]依赖于设计一种良好的模型初始化或优化策略,能够快速适应新的任务。其次,基于度量的方法[7,29,30,36,48,55,58]专注于构建一个合适的潜在空间来提取区别性特征嵌入,然后基于支持样本和查询样本之间的相似性进行预测。第三,基于数据生成和增强的方法侧重于生成更多的变异样本来学习更准确的分类器,例如,通过自监督学习应用数据旋转或转换[21],用生成模型[14,23]合成新数据,或使用带有伪标签[18,44,52]的外部数据。上述算法大多只使用空间图像作为网络输入,而没有利用频率信息。在本文的工作中,作者研究了频率信息在离散余弦变换(DCT)域中的影响,并利用它来指导空间域中的少样本分类。

频域学习

频域学习包含丰富的图像理解模式,在一些计算机视觉任务中得到了广泛的研究,如压缩感知[43,51,56]、视觉预训练[47]、域转移[19,53]和图像分类[4,8,32,42,50]。Yang等人,[53]使用快速傅里叶变换(FFT),通过简单地在源域和目标域样本之间交换低频频谱来实现域对齐。最近的一些工作考虑应用离散余弦变换(DCT)在频域进行学习。

在这项工作中,本文也使用DCT将图像转换到频域。与之前的工作[4]不同,作者考虑了空间域和频率域之间的相互作用,并学习生成区分频率掩模,以增强空间域的学习。

本文方法

少样本学习的频率分析

这部分研究了频率成分对不同少样本分类设置下现有少样本方法的泛化性能的影响。研究通过在元任务中去除和保留每个图像的部分频率成分,用于进行类别预测。为了生成输入RGB图像X的频率表示,作者采用了2D-离散余弦变换(2D-DCT)函数,得到D = DCT(X)。

然后,可以去除或保留每个输入图像的部分频率成分,随后再应用反2D-DCT函数,将其转换回到具有原始输入尺寸的空间域,得到

eac8359ec51c95b64e4c9faf13d40645.png

通过使用DCT函数,可以将原始数据分解为两部分

ccb6da297e59151687717312cf7a6d91.png
,其中XH和XO分别代表高频成分和其他成分。

对于给定的新测试集上的少样本任务

768b0672c97ec9b86c00d0a6a01f3e3b.png
,可以使用部分频率信息重建图像以更新测试任务,得到 fda4e15dc14e96463d2cdcdfda1347bc.png
。然后,采用现有的少样本方法来为每个查询样本 c8af6e7c39354deb1c26b4ecfacbc5f9.png
进行预测。表1显示了在不同测试领域上的分类准确度,图2绘制了经过训练的特征编码器提取的图像特征的t-SNE可视化。 5c5d46291e0e8a81cf2c60be86c2d9fe.png
42535fa3cccba2f151a207cf46dd9b93.png

可以观察到,去除特定频率成分可以提高少样本模型的泛化性能,但会降低相同测试场景下的标准少样本性能。因此,频率信息在不同分类场景中起到不同的作用。通过评估和观察,可以推测少样本方法的泛化行为与频率成分有关,而这些频率成分在不同数据集和领域之间可能有所变化。

频率引导的少样本学习
e939f3aa0152f9ec350a70875dc88a38.png

由于不同的频率成分编码了特定的图像信息,作者提出了"Frequency-Guided Few-shot Learning"(FGFL)框架,利用频率掩模来指导在空间域中的训练。如图3所示,FGFL具有两个分支,分别具有两个编码器

b471c0c02dd4319a7ac397fd8eef95d8.png
,用于在频率和空间域中进行特征提取。

首先,根据频率域中的分类生成任务特定的类别判别频率掩模。这个掩模会突出与当前任务相关的重要频率信息。接下来,我们将遮蔽和未遮蔽的频率样本转换回到空间域,并根据遮蔽和未遮蔽区域生成两个图像集。最后,采用新颖的多级度量策略(如图4所示)来进行类别预测。

daea976700017ca42ec8af2bcd9b3902.png

图4为所提出的多级度量策略的示意图。具体来说,对于元任务中图像集X中的每一幅图像,我们分别从相应的未掩蔽和掩蔽集

59f38ab6465c9306984c8fc81ee8e1cf.png
中构建其三元组,作为正对和负对,分别采用样本级别的三元组损失 deefe41e9eeccd7e44ff2bb21feee263.png
来挖掘它们之间的关联。

在任务级别,我们通过重新组合

23964b5f6456b06c54dce0c50c5882e0.png
中的图像构建了两个额外的少样本任务。然后,我们提出了一个类别级对比损失 560200035f6d1f8b5b706da1d4a158f1.png
,用于处理正对(原始支持和查询样本)和负对(来自不同集合的支持和查询样本)。 2f6762939c5abb4c1ebb421f0d988198.png
计算如下: f2b11c7e1ffdac893f99060374ea6d74.png

其中,

567942d480f83bd22defe74d932abcb0.png

此外,为了分类,我们使用未遮蔽的图像来增强支持集,并使用

d2b1cfd67eaf642730fab711004822a8.png
损失。 f4bde0be93ddf7db68e8119f8388a574.png
计算如下: 252368ceef6cdedd70471130705032de.png

其中,

3ef365debe68b513322b9380a10c73ad.png
9cbc4f6b77392bb6e7685f71b93b3eb8.png

增强分类损失:

f8646d381a4f543cc3c29ebcce88a51c.png

综上,总体分类损失如下:

6ce627684c6765f33c9c2e18bd632628.png

实验

实验结果

与SOTA的比较:

293d990528be68234a352adf00d94aad.png

可视化结果:

1358541050baf62fae7fb0fa66a7ab15.png

5-way 5-shot 设置下的结果:

0e8c1e3e4e3049e296b99e6d51e9d68c.png

3-way 1-shot设置下的三个具有挑战性的少样本泛化场景:

35476d321e5d10b6ce164ee5eae6ef4f.png
消融实验
635ef347301c2314a832b661760037a0.png

结论

本文提出了一种新的频率引导的少样本学习(FGFL)框架,用于少样本的分类和泛化。具体而言,DCT域中由分类梯度生成的频率掩模可以强调当前元任务中的类别判别频率组分。本文提出的多级度量策略,包括样本级三元组损失和类别级对比损失,可以更好地利用样本和任务级别的频率信息,并鼓励模型捕获更多与任务相关的频率信息,以帮助空间域中的分类。此外,本文系统地研究了频率信息对少样本泛化行为的影响。大量实验证明,FGFL在标准少样本设置上取得了与最先进方法相竞争的结果,并显著改善了在未见测试领域的泛化性能。

☆ END ☆

如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 woshicver」,每日朋友圈更新一篇高质量博文。

扫描二维码添加小编↓

ee372b2d05986123f14106ee5850da22.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/109308.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

入学生活科研随笔

近而立之年,巅峰享受的时期有两段。一是高考后,收到入学通知书。早晨,八点多,我醒来在院子里看到,爸爸在门口和邮政快递员寒暄。那天应该是8月15号,清晨凉凉爽爽的,杨树遮住了大半个院子。第二段…

2-多媒体数据压缩国际标准-Part3

文章目录 视频压缩的国际标准MPEG-1&MPEG-2/H.262视频标准MPEG-4 AVC/H.264视频标准H.264编码框架概述H.264视频编码的技术创新点 H.265/HEVC视频标准HEVC性能与编解码框架概述Quadtree-based coding structureDeblocking & SAO FilterHEVC各模块运算量 视频压缩的国际…

利用Web Serial API实现Vue与单片机串口通信

一、Web Serial API介绍 Web Serial API 是一项 Web 技术,用于在浏览器中访问串行端口设备(如 Arduino、传感器等)并与之通信。它提供了一组 JavaScript 接口,使得 Web 应用程序可以通过 USB 串行端口连接到硬件设备&…

CentOS7安装配置MobaXterm使用换源处理虚拟机拍照备份与还原Linux常用命令

目录 一、centos7安装与配置 1.1 参考安装步骤 1.2 安装配置CentOS 7实操 1.2.1 配置虚拟机 1.2.2 登录CenOS 1.2.3 检测是否可联网 1.2.4 查看、设置IP地址 1.2.5 使用vi编辑ifcfg-ens33 1.2.6 重启网络服务 1.3 MobaXterm使用 1.3.1 官方下载地址 1.3.2 MobaXte…

BAT035.【工作常用批处理专栏】批处理功能说明及下载

引言:本文主要提供本专栏中练习的批处理功能进行说明和下载。 一、本专栏练习的批处理下载地址 链接:https://pan.baidu.com/s/1L_V-_LojpbfFcUFbvBK1_A 提取码:vady 二、本专栏练习的批处理汇总如下 【工作常用批处理专栏】批处理目录树: │ BAT001.CMD命令速查手册.h…

SonarLint安装与简介

简介: SonarLint 是SonarQube官方推出的可以在idea 静态扫描插件,可以同步sonarqube的规则,在开发编译的时候发现问题,可以有效减少在流水线扫描返工的次数 安装 idea 选择setttings ,搜索sonarlint插件&#xff0c…

微信小程序设计之页面文件pages

一、新建一个项目 首先,下载微信小程序开发工具,具体下载方式可以参考文章《微信小程序开发者工具下载》。 然后,注册小程序账号,具体注册方法,可以参考文章《微信小程序个人账号申请和配置详细教程》。 在得到了测…

2023年中国牙钻机优点、产量及市场规模分析[图]

牙钻机,又称为牙科钻机或牙科设备,是一种专用于牙科诊所和牙科医院的医疗设备。它被用来进行牙齿修复、治疗和牙科手术等操作。牙钻机通常由电动马达驱动,带有不同类型的钻头、磨头和其他附件,用于在牙齿上进行各种不同的操作&…

DSP开发例程(3): sys_print_to_uart

目录 DSP开发例程: sys_print_to_uart创建工程源码编辑os.capp.cfgmain.c 调试原理分析 DSP开发例程: sys_print_to_uart 在DSP 应用的执行过程中, 我们经常需要调用 System_printf() 来显示当前的执行状态. 不只是 System_printf() 函数, SYS/BIOS 打印信息的函数还包括: Sys…

nodejs+vue食力派网上订餐系统-计算机毕业设计

采用当前流行的B/S模式以及3层架构的设计思想通过 技术来开发此系统的目的是建立一个配合网络环境的食力派网上订餐系统,这样可以有效地解决食力派网上订餐管理信息混乱的局面。 本设计旨在提高顾客就餐效率、优化餐厅管理、提高订单准确性和客户的满意度。本系统采…

GLoRE:大型语言模型的逻辑推理能力探究

最新研究揭示,尽管大语言模型LLMs在语言理解上表现出色,但在逻辑推理方面仍有待提高。为此,研究者们推出了GLoRE,一个全新的逻辑推理评估基准,包含12个数据集,覆盖三大任务类型。 实验对比发现,…

后门程序分析1

临时补充一个内容,这是一个后门程序,通过IDA分析,之后把里面收集的信息点全部整理出来(包括:反虚拟机,系统信息等等)pass:guet 用IDA打开先看看主函数的样子 查阅一些这些API InternetOpenA&…

【机器学习合集】模型设计之网络宽度和深度设计 ->(个人学习记录笔记)

文章目录 网络宽度和深度设计1. 什么是网络深度1.1 为什么需要更深的模型浅层学习的缺陷深度网络更好拟合特征学习更加简单 2. 基于深度的模型设计2.1 AlexNet2.2 AlexNet工程技巧2.3 VGGNet 3. 什么是网络宽度3.1 为什么需要足够的宽度 4. 基于宽度模型的设计4.1 经典模型的宽…

EM算法解析+代码

大纲 数学基础:凸凹函数,Jensen不等式,MLEEM算法公式,收敛性HMM高斯混合模型 一、数学基础 1. 凸函数 通常在实际中,最小化的函数有几个极值,所以最优化算法得出的极值不确实是否为全局的极值&#xff…

初学编程入门基础教学视频,中文编程开发语言工具箱之豪华编辑构件,免费版中文编程软件下载

初学编程入门基础教学视频,中文编程开发语言工具箱之豪华编辑构件,免费版中文编程软件下载 构件的其中一个属性、方法,查找内容,替换内容。 构件工具箱非常丰富,其中该构件在 文本件构件板菜单下。 编程系统化课程总目…

web - 前段三剑客

目录 前言 一. HTML 常用标签演示 图片标签 ​编辑 表格标签(重点) ​编辑 表单标签 (重点) 布局标签 其余标签 二. CSS 2.1 . css的三种引入方式 2.2 . 三大选择器 2.3 . css样式 - 浮动 2.4 . css样式 - 定位 1.static 2.absolute(绝对位置) 3.relavite(相…

【设计模式】第13节:结构型模式之“享元模式”

一、简介 所谓“享元”,顾名思义就是被共享的单元。享元模式的意图是复用对象,节省内存,前提是享元对象是不可变对象。 实现:通过工厂模式,在工厂类中,通过一个Map或者List来缓存已经创建好的享元对象&am…

LeetCode 415 字符串相加 简单

题目 - 点击直达 1. 415 字符串相加 简单1. 题目详情1. 原题链接2. 题目要求3. 基础框架 2. 解题思路1. 思路分析2. 时间复杂度3. 代码实现 1. 415 字符串相加 简单 1. 题目详情 给定两个字符串形式的非负整数 num1 和num2 ,计算它们的和并同样以字符串形式返回。…

LeetCode题:88合并两个有序数组,283移动零,448找到所有数组中消失的数字

目录 88合并两个有序数组 1、题目要求 2、解题思路 (1)、暴力解法: (2)、双指针,使用第三数组的解法: 3、代码展示 (1)、暴力解法: (2&am…

画时钟(turtle库)

思路: 总体来看,分为两个部分:固定的表盘,和不断刷新的指针(和时间显示) 固定的表盘 我的表盘长这个样子: 分为三个部分:60个dot点(分、秒),12条…