【顶刊TPAMI 2025】多头编码(MHE)之Part 6:极限分类无需预处理

目录

  • 1 标签分解方法的消融研究
  • 2 标签分解对泛化的影响
  • 3 讨论
  • 4 结论

论文:Multi-Head Encoding for Extreme Label Classification
作者:Daojun Liang, Haixia Zhang, Dongfeng Yuan and Minggao Zhang
单位:山东大学
代码:https://github.com/Anoise/MHE

论文地址:Online,ArXiv,GItHub

背景动机参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 1
基础知识参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 2
算法实现参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 3
表示能力参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4
实验结果参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 5
无需预处理见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 6

请各位同学给我点赞,激励我创作更好、更多、更优质的内容!^_^

关注微信公众号,获取更多资讯
在这里插入图片描述

1 标签分解方法的消融研究

为了进一步验证定理3中隐含的结论,即当模型泛化与数据过度拟合时,模型泛化变得与标签的语义无关,本文对模型泛化进行标签分解的消融研究。众所周知,预处理技术的核心是对极端标签进行语义聚类,将其划分为多个易于处理的局部标签。因此,本文将使用标签聚类(LC)的模型与使用标签随机重排和任意分解(LRD)的模型的性能进行比较。
在这里插入图片描述

图8:XLC中标签分解预处理(a)与未预处理(b)的比较。 F F F是从模型中提取的特征。 C i C_i Ci i i i-个簇, C i ′ C'_i Ci i i i-个随机标签集。在每个阶段,都有一个将特征映射到特定集合或类别的分类器。

如图8所示,标签分解可以被概念化为多阶段分类过程,即,给定特征最初被分配给簇,随后识别该簇内的特定类别。 如图8-a所示,预处理技术可以促进分类的初始阶段,例如区分运输的两个类别(狗可以被认为是填充类别) 而动物由于其巨大的差异而被证明是容易的。 然而,在第二阶段,基于粗特征对精细子类别进行分类变得困难,例如,从动物簇中区分蚂蚁、鸟类和蜜蜂变得更加困难( C 2 C_2 C2 )而不是从混合簇( C 2 C_2 C2),如图8-b所示,其中没有使用预处理技术。这表明,在没有标签预处理的情况下,LRD 的初始阶段相对困难,而第二阶段则相对于 LC 简单。 更多真实数据集的实验结果请参见附录F.4 。

2 标签分解对泛化的影响

此外,本文还比较了三种不同复杂度的模型,以评估它们在使用精心设计的 LC 和随机 LRD 方法进行配置时的泛化能力。如图9所示,当低复杂度模型对数据拟合不足时,LRD 和 LC 之间存在明显的性能差距:小模型(图9-a )中约为 4%,中模型(图 9-a)中约为 2%(图9-b )。这是因为层次分类器在后续阶段的性能依赖于早期阶段的决策结果,特别是当低复杂度模型提取的特征表现出可区分性降低时。这解释了为什么在涉及低复杂度的情况下,LRD 模型落后于 LC 模型。然而,随着模型复杂性的增加,这种性能差距逐渐缩小。最终,当模型过度拟合数据时,如图9-c所示,LRD 和 LC 之间的差距消失。值得注意的是,尽管这里使用的高复杂度模型(ResNet-18)很小,但该模型的过度参数化在实践中很容易实现。此外,本文的实验,包括附录F.4中的实验,支持LC和LRD的泛化性能是一致的。
在这里插入图片描述

图 9 :消融研究,调查标签分解模式对模型泛化的影响。 'LC’表示标签聚类,'LRD’表示标签随机重排然后任意分解。 SimpleConv-4(小)表示欠拟合,ResNet-10(中)表示欠拟合,ResNet-18(大)表示过拟合。

总之,本文发现当簇的数量保持不变并且其中样本的分布近似均匀时,LRD 不会损害超参数化模型的泛化能力。这有力地支持了定理3中隐含的主张。

3 讨论

在这里,本文通过阐明 MHE 与其他采用多个分类器的方法之间的区别来讨论 MHE 的创新性。

最近的几种方法[ 59 , 60 ]利用多个分类器来解决长尾分布问题。具体来说, [ 59 , 60 ]中的作者将数据集分成平衡的子集,并在每个子集上训练专家模型。然后,将多个专家模型(一个子集上的一个模型)聚合以获得最终模型,如图10a所示。长尾方法不适用于解决CCOP,因为聚合模型中分类器的参数没有减少。与上述不同形式的方法不同,如图10 (eg)所示,所提出的基于MHE的算法可以通过将难以解决的极端标签分解为多个易于解决的局部标签并组合局部标签来很好地解决CCOP通过简单的计算得到极端的标签。

有许多基于树的方法[ 2,11,12 ]使用多个分类器来执行 XLC 任务。这些方法通过分层分支来划分标签空间。例如,Hierarchical softmax [ 2 , 22 ]采用霍夫曼树对短分支的高频词进行编码,如图10a所示。然而,巨大的标签空间极大地增加了树的深度和大小,需要遍历低频样本的深层路径,使其不适合 XMLC 任务。受此推动,一些基于HLT的方法[ 11 , 12 ]被提出,但它们涉及节点分裂时的复杂优化,使得难以获得廉价且可扩展的树结构[ 26 ] 。相反,基于 MHE 的算法没有预处理步骤。因此,只要标签空间完全映射,分类器的长度可以任意划分。
在这里插入图片描述

图10:使用多个分类器的算法之间的比较。符号“ ⨄ \biguplus ”表示聚合运算,“ ⨂ \bigotimes ”表示克罗内克积运算。

一些多标签学习算法也采用多分类器来处理标签功率集过大的关键挑战。具体而言,如图10-c所示,二值相关算法将多标签学习问题分解为 ∣ Y ∣ |\bm{Y}| Y个独立的二值分类问题。在图10-d中,分类器链算法将多标签学习问题转化为二元分类问题链,其中链中的后续二元分类器建立在前一个分类器的预测之上。但是,这些算法中分类器的数量等于标签的数量,不适合XLC任务。与这些算法不同的是,提出了基于mhe的算法,通过组合多头分类器来解决CCOP问题。因此,基于mhes的算法的计算复杂度大大降低,使其更加灵活,更适合XLC任务。

4 结论

在本文中,本文提出了一种多头编码(MHE)机制来应对 XLC 任务中存在的 CCOP 挑战。 MHE将极端标签分解为多个短局部标签的乘积,每个头在这些局部标签上进行训练和测试,从而几何上减少了计算量。针对XLC任务,例如XSLC、XMLC和模型预训练,设计了三种基于MHE的算法,包括多头乘积(MHP)、多头级联(MHC)和多头采样(MHS)。实验结果表明,三种基于MHE的算法在其应用的任务中均实现了SOTA性能,并且可以大大加快模型训练和推理的速度。此外,本文对MHE的表征能力进行了理论分析。事实证明,OHE 和 MHE 之间的性能差距相当小,并且不需要标签预处理技术。

本文认为XLC是传统分类任务的自然延伸,它使本文能够处理极端标签,并且更适合真实世界的样本和实际应用。反过来,为 XLC 设计的基于 MHE 的算法可以为许多传统任务带来更多新颖的解决方案。例如,本文可以将回归任务转化为XLC任务,并使用基于MHE的算法来解决它。在强化学习中,当将其视为 XLC 任务时,基于 MHE 的算法可以为极端状态空间提供准确的预测。

背景动机参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 1
基础知识参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 2
算法实现参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 3
表示能力参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 4
实验结果参见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 5
无需预处理见 【顶刊TPAMI 2025】多头编码(MHE)之极限分类 Part 6

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/948168.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【Leetcode】732. 我的日程安排表 III

文章目录 题目思路代码复杂度分析时间复杂度空间复杂度 结果总结 题目 题目链接🔗 当 k k k 个日程存在一些非空交集时(即, k k k 个日程包含了一些相同时间),就会产生 k k k 次预订。 给你一些日程安排 [startTime, endTime…

Tableau数据可视化与仪表盘搭建-数据连接

连接数据有三种类型 第一种,连接到本地文件,例如Excel,csv,JSON等 第二种,连接到数据库,例如MySQL 注意:连接到数据库要安装对应的数据库的驱动的 连接本地文件

Chapter4.2:Normalizing activations with layer normalization

文章目录 4 Implementing a GPT model from Scratch To Generate Text4.2 Normalizing activations with layer normalization 4 Implementing a GPT model from Scratch To Generate Text 4.2 Normalizing activations with layer normalization 通过层归一化(La…

搭建开源版Ceph分布式存储

系统:Rocky8.6 三台2H4G 三块10G的硬盘的虚拟机 node1 192.168.2.101 node2 192.168.2.102 node3 192.168.2.103 三台虚拟机环境准备 1、配置主机名和IP的映射关系 2、关闭selinux和firewalld防火墙 3、配置时间同步且所有节点chronyd服务开机自启 1、配置主机名和…

GPIO、RCC库函数

void GPIO_DeInit(GPIO_TypeDef* GPIOx); void GPIO_AFIODeInit(void); void GPIO_Init(GPIO_TypeDef* GPIOx, GPIO_InitTypeDef* GPIO_InitStruct); void GPIO_StructInit(GPIO_InitTypeDef* GPIO_InitStruct); //输出 读 uint8_t GPIO_ReadInputDataBit(GPIO_TypeDef* GPIOx,…

使用JMeter玩转tidb压测

作者: du拉松 原文来源: https://tidb.net/blog/3f1ada39 一、前言 tidb是mysql协议的,所以在使用过程中使用tidb的相关工具连接即可。因为jmeter是java开发的相关工具,直接使用mysql的jdbc驱动包即可。 二、linux下安装jmet…

Launcher3主页面加载显示流程分析

布局结构 抓取布局后,可以看到每个图标是一个DoubleShadowBubbleTextView,父布局是CellLayout、workspace。 我们可以在CellLayout添加子view打印出调用堆栈信息,可以整体上看页面加载显示流程。 主要类 Launcher.java:主界面&…

开发培训:慧集通(DataLinkX)iPaaS集成平台-基于接口的连接器开发(不需要认证机制)

一、开发一个简单的应用0源,本实例中对接的应用不需要接口认证 1、【连接管理-自建】新建应用源,保存并发布 代码示例 return {$$ - >//日志打印$$.$Log.info(日志打印) } 二、使用应用,建立应用连接 1、实例创建,【连接管理…

pikachu靶场--目录遍历和敏感信息泄露

pikachu靶场—目录遍历和敏感信息泄露 目录遍历 概述 在web功能设计中,很多时候我们会要将需要访问的文件定义成变量,从而让前端的功能便的更加灵活。 当用户发起一个前端的请求时,便会将请求的这个文件的值(比如文件名称)传递到后台,后台再…

机器学习详解(13):CNN图像数据增强(解决过拟合问题)

在之前的文章卷积神经网络CNN之手语识别代码详解中,我们发现最后的训练和验证损失的曲线的波动非常大,而且验证集的准确率仍然落后于训练集的准确率,这表明模型出现了过拟合现象:在验证数据集测试时,模型对未见过的数据…

Word2Vec解读

Word2Vec: 一种词向量的训练方法 简单地讲,Word2Vec是建模了一个单词预测的任务,通过这个任务来学习词向量。假设有这样一句话Pineapples are spiked and yellow,现在假设spiked这个单词被删掉了,现在要预测这个位置原本的单词是…

#渗透测试#漏洞挖掘#WAF分类及绕过思路

免责声明 本教程仅为合法的教学目的而准备,严禁用于任何形式的违法犯罪活动及其他商业行为,在使用本教程前,您应确保该行为符合当地的法律法规,继续阅读即表示您需自行承担所有操作的后果,如有异议,请立即停…

电子应用设计方案85:智能 AI门前柜系统设计

智能 AI 门前柜系统设计 一、引言 智能 AI 门前柜系统旨在提供便捷、安全和智能的物品存储与管理解决方案,适用于家庭、公寓或办公场所的入口区域。 二、系统概述 1. 系统目标 - 实现无接触式物品存取,减少交叉感染风险。 - 具备智能识别和分类功能&am…

如何在不丢失数据的情况下从 IOS 14 回滚到 IOS 13

您是否后悔在 iPhone、iPad 或 iPod touch 上安装 iOS 14?如果你这样做,你并不孤单。许多升级到 iOS 14 beta 的 iPhone、iPad 和 iPod touch 用户不再适应它。 如果您在正式发布日期之前升级到 iOS 14 以享受其功能,但您不再适应 iOS 14&am…

线性代数考研笔记

行列式 背景 分子行列式:求哪个未知数,就把b1,b2放在对应的位置 分母行列式:系数对应写即可 全排列与逆序数 1 3 2:逆序数为1 奇排列 1 2 3:逆序数为0 偶排列 将 1 3 2 只需将3 2交换1次就可以还原原…

设计心得——流程图和数据流图绘制

一、流程图和数据流图 在软件开发中,画流程图和数据流图可以说是几乎每个人都会遇到。 1、数据流(程)图 Data Flow Diagram,DFG。它可以称为数据流图或数据流程图。其主要用来描述系统中数据流程的一种图形工具,可以将…

SpringBoot框架开发中常用的注解

文章目录 接收HTTP请求。RestController全局异常处理器Component依赖注入LombokDataBuildersneakyThrowsRequiredArgsConstructor 读取yml文件配置类注解 接收HTTP请求。 RequestMapping 接收HTTP请求。具体一点是 GetMapping PostMapping PutMapping DeleteMapping 一共…

ELK日志平台搭建 (最新版)

一、安装 JDK 1. 下载 JDK 21 RPM 包 wget https://download.oracle.com/java/21/latest/jdk-21_linux-x64_bin.rpm2. 安装 JDK 21,使用 rpm 命令安装下载的 RPM 包: sudo rpm -ivh jdk-21_linux-x64_bin.rpm3. 配置环境变量 编辑 /etc/profile 文件以配置 JAVA_HO…

使用 Jupyter Notebook:安装与应用指南

文章目录 安装 Jupyter Notebook1. 准备环境2. 安装 Jupyter Notebook3. 启动 Jupyter Notebook4. 选择安装方式(可选) 二、Jupyter Notebook 的基本功能1. 单元格的类型与运行2. 可视化支持3. 内置魔法命令 三、Jupyter Notebook 的实际应用场景1. 数据…

AcWing-164.可达性统计(拓扑排序 + 位运算)

原题链接:164. 可达性统计 - AcWing题库 题目描述: 题目 输入格式 输出格式 数据范围 输入样例: 输出样例: 思路 AC代码: 题目描述: 题目 给定一张 𝑁 个点 𝑀 条边的有向无…