TIFS-2024 细粒度表示和重组在换衣行人重识别中的应用

总体结论

本文提出了一种新的细粒度表示与重构(FIRe2)框架,用于解决布变人重识别问题。通过细粒度特征挖掘和属性重构,FIRe2在不依赖任何辅助信息的情况下,实现了最先进的性能。该方法在多个基准数据集上取得了显著的成果,展示了其在现实世界应用中的潜力。

优点与创新

  1. 提出了一个新的框架FIRe2,用于解决换衣人Re-ID问题,仅需RGB图像作为输入,能够提取身份相关和衣物无关的特征。
  2. 设计了一个细粒度特征挖掘(FFM)模块,通过聚类获取每个人的细粒度伪标签和属性,并引入属性感知分类损失以促进细粒度表示学习。
  3. 提出了一个细粒度属性重构(FAR)模块,通过在潜在空间中重构不同属性的图像特征来有效地丰富特征表示。

不足与反思

  1. 聚类操作可能会在训练过程中带来额外的内存消耗和时间成本,聚类的质量可能会影响最终结果。
  2. 未来将探索更先进的属性聚类和重构方法,以期实现更大的改进。

关键问题及回答

问题1:细粒度特征挖掘(FFM)模块是如何设计的?它在细粒度学习中的作用是什么?

细粒度特征挖掘(FFM)模块通过聚类分别对每个人的图像进行聚类。具体来说,首先构建一个CNN模型来提取图像特征,然后使用DBSCAN算法对这些特征进行聚类。聚类过程中不需要预先指定聚类数目,DBSCAN算法会根据数据本身的相似性自动形成聚类。聚类完成后,每个聚类会被赋予一个细粒度伪标签,这些标签在不同的人之间不共享。通过引入属性感知的分类损失,模型被鼓励学习到与这些伪标签相关的细粒度特征,从而提升身份相关特征的辨别力。

问题2:细粒度属性重构(FAR)模块是如何工作的?它在特征增强方面的效果如何?

细粒度属性重构(FAR)模块通过在潜在空间中重构不同属性的图像特征来增强鲁棒的特征学习。具体操作是,采用实例归一化来解耦输入图像的原始属性,然后在同一批次的图像之间重构不同的属性。例如,对于输入图像的某个部位,先计算其均值和标准差,然后将这些属性替换为来自其他图像的新属性。通过这种方式,模型能够学习到更加丰富和多样的特征表示,从而提高对不同衣物变化的鲁棒性。实验结果表明,FAR模块在布变设置下能够带来2.9%到4.3%的Rank-1准确率和mAP提升。

问题3:FIRe2方法在多个数据集上的表现如何?它是如何验证其有效性的?

FIRe2方法在五个广泛使用的布变人重识别基准上进行了评估,包括PRCC、LTCC、Celeb-reID、DeepChange和LaST。在PRCC数据集上,FIRe2在标准设置和布变设置下分别达到了65.0%和63.1%的Rank-1准确率和mAP。在LTCC数据集上,FIRe2在标准设置和布变设置下分别达到了44.6%和19.1%的Rank-1准确率和mAP。在Celeb-reID数据集上,FIRe2在没有衣物注释的情况下,Rank-1准确率和mAP分别达到了64.0%和18.2%。在DeepChange和LaST数据集上,FIRe2也表现出色,分别超越了ResNet-50基线和ViT-B/16模型,并在LaST数据集上达到了75.0%的Rank-1准确率和32.2%的mAP。通过这些结果,FIRe2展示了其在布变人重识别任务中的有效性。

研究背景

  1. 研究问题:这篇文章要解决的问题是布变人重识别(Re-ID),即在不同的摄像头下识别同一个人的身份。现有的方法主要依赖于辅助信息来促进身份相关特征的学习,但这些信息在现实应用中可能不可用。
  2. 研究难点:该问题的研究难点包括:缺乏具有辨别力的特征和有限的训练样本。现有方法通常利用形状或步态的软生物特征以及额外的衣物标签来辅助学习,但这些信息在现实世界中往往不可用。
  3. 相关工作:该问题的研究相关工作有:传统的短期场景下的人重识别方法、利用生成模型合成不同衣物的图像、利用辅助模态(如关键点、轮廓、步态和3D形状)的方法、以及最近利用轻量级衣物标签信息的方法。

研究方法

这篇论文提出了一种新的细粒度表示与重构(FIRe2)框架,用于解决布变人重识别问题。具体来说,

细粒度特征挖掘(FFM)模块:首先,设计了一个细粒度特征挖掘模块,通过聚类分别对每个人的图像进行聚类。相似细粒度属性(如衣物和视角)的图像被鼓励聚集在一起。引入了一个属性感知的分类损失,基于聚类标签进行细粒度学习,这些标签在不同的人之间不共享,促进了模型学习身份相关的特征。
 

细粒度属性重构(FAR)模块:为了充分利用细粒度属性,提出了一个细粒度属性重构模块,通过在潜在空间中重构不同属性的图像特征来增强鲁棒的特征学习。具体来说,采用实例归一化来解耦输入图像的原始属性,然后在同一批次的图像之间重构不同的属性。此外,分别重构输入图像的上半身和下半身属性,以丰富同一人的各种属性表示。
 

  1. 训练和推理过程:在早期训练阶段,模型倾向于通过区分容易样本学习粗略的粒度和容易的身份信息。提出的FFM和FAR模块鼓励模型学习细粒度的身份特征,因此在模型学习到不错的行人身份表示之前,仅使用基本的身份分类损失进行监督。然后逐渐添加其他项,包括常用的三元组损失、属性感知的分类损失和属性重构特征的交叉熵损失,以共同帮助模型学习鲁棒的细粒度身份特征。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/903797.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

PostgreSQL的前世今生

PostgreSQL的起源可以追溯到1977年的加州大学伯克利分校(UC Berkeley)的Ingres项目。该项目由著名的数据库科学家Michael Stonebraker领导,他是2015年图灵奖的获得者。以下是PostgreSQL起源的详细概述: 一、早期发展 Ingres项目…

DAY43 ||322.零钱兑换 |279.完全平方数 |139.单词拆分

322.零钱兑换 题目:322. 零钱兑换 - 力扣(LeetCode) 给定不同面额的硬币 coins 和一个总金额 amount。编写一个函数来计算可以凑成总金额所需的最少的硬币个数。如果没有任何一种硬币组合能组成总金额,返回 -1。 你可以认为每种硬…

WebGL进阶(五)-可视域

理论基础: 顶点着色器 Vertex Shader 主要是负责处理顶点位置、顶点颜色、顶点向量等顶点的数据;处理一些顶点的变换:例如在进行视图变换和投影变换时MVP矩阵会改变顶点的位置信息。 输入: 顶点着色器输入部分主要是声明&…

gin入门教程(10):实现jwt认证

使用 github.com/golang-jwt/jwt 实现 JWT(JSON Web Token)可以有效地进行用户身份验证,这个功能往往在接口前后端分离的应用中经常用到。以下是一个基本的示例,演示如何在 Gin 框架中实现 JWT 认证。 目录结构 /hello-gin │ ├── cmd/ …

三星瞄准2026年推出400层垂直NAND技术,2030年前剑指1000层NAND闪存

据报道,三星计划在2026年前推出400层的垂直NAND闪存,并且目标是在2030年前实现1000层的NAND技术。随着人工智能(AI)浪潮的到来,高带宽内存(HBM)已经成为存储巨头之间的关键战场,而同…

端口号和ip地址一样吗?区别是什么

在网络通信的世界里,端口号和IP地址是两个不可或缺的概念,它们各自扮演着独特的角色,共同维系着数据在网络中的有序传输。然而,对于许多初学者而言,这两者往往容易被混淆,认为它们是同一事物的不同表述。那…

前端自学资料(笔记八股)分享—CSS(4)

更多详情:爱米的前端小笔记(csdn~xitujuejin~zhiHu~Baidu~小红shu)同步更新,等你来看!都是利用下班时间整理的,整理不易,大家多多👍💛➕🤔哦!你们…

JavaScript字符串不可变性与ES6 新增字符串方法详解

非 VIP 用户可前往公众号“前端基地”进行免费阅读,文章链接如下: JavaScript字符串不可变性与ES6 新增字符串方法详解本文介绍了 JavaScript 中字符串的不可变性以及 ES6 新增的字符串方法。包括判断是否包含、以指定字符串开头或结尾,还有重复指定次数等方法,并结合案例…

鸿蒙开发:arkTS FolderStack容器组件

ArkTS(也称为Ark TypeScript)是鸿蒙生态的应用开发语言,它在TypeScript(简称TS)的基础上进行了优化和定制,以满足鸿蒙系统的开发需求。今天给大家分享arkTS FolderStack容器组件技术知识,如果有所帮助,大家点点关注支持一下&#…

SSL/TLS 密码套件漏洞分析以及修复方法

1. 前言 在当今数字化时代,网络安全至关重要。SSL/TLS 协议作为保障网络通信安全的重要手段,广泛应用于各类网络应用中。然而,如同任何技术一样,SSL/TLS 也并非绝对安全,存在着一些可能被攻击者利用的漏洞。本文将深入…

如何加密电脑磁盘?电脑本地磁盘加密方法介绍

随着信息技术的不断发展,电脑磁盘加密已经成为保护个人隐私和数据安全的重要手段。本文将介绍几种常见的电脑本地磁盘加密方法,帮助用户保护自己的数据安全。 文件夹只读加密专家 文件夹只读加密专家不仅可以加密电脑中的文件夹,还可以加密保…

已解决Navicat 选择Mysql表 报错unkonow internal error: Access violation - no RTTI data

已解决Navicat 选择Mysql表 报错unkonow internal error: Access violation - no RTTI data 报错信息截图: 使用Navicat Premium15 选择sql server表时 出现大量弹窗报错,导致sql文件执行不了,右键数据库执行外部文件也失败了。弹…

【机器学习】揭秘XGboost:高效梯度提升算法的实践与应用

目录 🍔 XGBoost 原理 1.1 目标函数确定和树的复杂度介绍 1.2 XGBoost目标函数的推导 1.3 泰勒公式展开 1.4 化简目标函数 1.5 问题再次转换 1.6 对叶子结点求导 1.7 XGBoost的回归树构建方法 🍔 XGBoost API 2.1 通用参数 2.2 Booster 参数 …

基于vue框架的的高校学习资源共享系统5ym3y(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。

系统程序文件列表 项目功能:学生,学校信息,课程分类,班课信息,班课申请,学习资源,班课评价,班课投诉,投诉学生,教师,班级 开题报告内容 基于Vue框架的高校学习资源共享系统开题报告 一、项目背景与意义 随着信息技术的飞速发展和教育改革的深入推进,…

Hadoop生态圈框架部署(二)- 配置IP地址映射为主机名及免密登录

文章目录 前言一、配置IP地址映射为主机名1. 虚拟机hadoop1配置主机名与 IP 地址的映射关系2. 虚拟机hadoop2配置主机名与 IP 地址的映射关系3. 虚拟机hadoop3配置主机名与 IP 地址的映射关系 二、配置免密登录1. 配置虚拟机hadoop1免密登录到hadoop1、hadoop2和hadoop32. 配置…

基于JSP的篮球系列网上商城系统【附源码】

基于JSP的篮球系列网上商城系统 效果如下: 系统首页界面 商品信息界面 购物车界面 购物车界面 管理员登录界面 管理员功能界面 用户注册界面 我的收藏界面 研究背景 21世纪,我国早在上世纪就已普及互联网信息,互联网对人们生活中带来了无限…

力扣题86~90

题86(中等): python代码 # Definition for singly-linked list. # class ListNode: # def __init__(self, val0, nextNone): # self.val val # self.next next class Solution:def partition(self, head: Optional[Li…

Python小白学习教程从入门到入坑------第十八课 异常模块与包【上】(语法基础)

一、异常 在Python中,异常(Exception)是一种用于处理在程序运行时可能发生的错误情况的机制 异常允许程序在检测到错误时不是简单地崩溃,而是能够优雅地处理这些错误,可能包括记录错误信息、清理资源、或者向用户提…

5G NR:BWP入门

简介 5G NR 系统带宽比4G LTE 大了很多,4G LTE 最大支持带宽为20MHz, 而5G NR 的FR1 最大支持带宽为100MHz, FR2 最大支持带宽为 400MHz。 带宽越大,意味了终端功耗越多。为了减少终端的功耗,5G NR 引入了BWP(Band Wid…

哪款宠物空气净化器能吸毛还低噪?希喂、范罗士真实测评

作为一个养宠清洁博主,这些年为了让家里更干净,让猫在家里更舒服,我也测了不少的清洁家电,其中包括洗地机、吸尘器、空气净化器以及扫地机器人等,其中宠物空气净化器的表现也算十分优异。 它可以快速去除空气中的浮毛…