Reid系列论文学习——无人机场景下基于 Transformer 的轻量化行人重识别

今天介绍的一篇论文是针对无人机场景下的行人重识别,论文题目为:"无人机场景下基于 Transformer 的轻量化行人重识别"。该论文针对无人机场景下行人呈现多角度多尺度的特点、以及传统CNN网络在行人重识别任务中受限于感受野和下采样导致的无法充分提取特征,同时也为了便于算法的部署而提出了一种基于Transformer轻量化Reid网络(Lightweight Transformer-based Person Re-Identification, LTReID)。

注:该论文并未开源任何资源(比如代码和数据集),因此论文的真实性并不清楚,本人这里并不负责复现,只是通过该论文为读者提供一个研究思路。

目录

国内外ReID研究难题

国内外ReID在无人机领域的研究现状

Transformer存在的问题

论文对于算法改进的思路

基于Transformer 的轻量化行人重识别关键技术

面向Transformer 的掩码搜索剪枝算法

损失函数设计 

面向无人机场景的空间信息嵌入

参考文献


国内外ReID研究难题

论文首先介绍了国内外围绕ReID的研究难题,比如人物遮挡问题的重识别、全局和局部特征提取效果差的问题。大多数研究主要从添加注意力机制、引入无监督学习和修改网络结构等多个方面提高网络性能,但这些方法无法避免由于卷积和池化带来的识别度下降的问题,同时部分算法会导致模型参数较大,推理实践慢

对上述部分,这里说一下个人观点供大家参考,首先为什么说卷积和池话带来识别度下降的问题,这是因为卷积获得的特征基本都是局部特征,无法像Transformer一样获取全局特征(或者可以理解为Transformer就是一个特殊的卷积),虽然网络的加深,网络的感受野势必也会受到影响,池化层也影响到周边像素的特征提取,因为这些种种问题会导致识别率低。


国内外ReID在无人机领域的研究现状

然后作者又讨论了国内外Reid在无人机领域的研究,例如,作者指出,近些年元学习迁移学习被引入无人机场景下的行人重识别[1],利用元学习提高特征提取能力,利用迁移学习改进所获得的元知识,用这两种策略解决无人机场景下人物图片差异较大的挑战。还有使用卷积后特征图的子空间池化来表征输入的图像[2],用该方法让网络学习到更具判别性紧凑性的特征表示。还有在模型训练中加入协方差信息提高网络的鲁棒性。但不论怎样,作者指出这只是将一些经典算法应用到无人机场景中,没有专门针对无人机场景下的特点对模型进行改进,比如没有利用最新基于注意力机制的 Transformer 模型对无人机场景下的行人图像进行全局特征的提取(我觉得这里说法有问题,只能说你可能没有找到这类论文,而不能说没有)。


Transformer存在的问题

随后作者又指出了Transformer存在的一些问题,比如参数量大导致推理和部署困难,因此作者想到了剪枝进行轻量化。通常剪枝分为结构化剪枝(通道剪枝)和非剪枝化剪枝(权重剪枝),非结构化剪枝一般是需要特定的硬件或者算法库的支持,所以作者选择了结构化剪枝(也是最为常用的方法)。多数结构化剪枝方法由于剪枝后或者剪枝期间需要进行额外的训练,并且剪枝流程需要引入额外的超参数进行调整,因此在实际中阻碍了结 构化剪枝方法的应用。(这里作者附上了一个参考文献,是说Transformer可以不用在训练中剪枝,而是在推理中进行动态剪枝,这个想法很有意思,后面有时间我会研究下并进行分享[3-4])


论文对于算法改进的思路

针对以上问题,我对作者在论文中的算法改进进行了以下总结:

1. 利用多头多注意力机制获取长距关联,提升网络的特征提取能力。

2.针对无人机场景下特点(多角度,多尺度),用Circle边界样本挖掘损失进行训练。

3.在transformer网络中加入边信息嵌入技术,将空间角度非视觉信息特征嵌入到输入中进行学习。

4.使用快速的掩码搜索剪枝[5]进行Transfomer轻量化,可在不进行重训练情况下的轻量化剪枝。

网络结构图如下所示:

图中的空间角度信息就是作者说的使用边信息嵌入技术,将空间信息嵌入到输入中进行训练学习。

基于Transformer 的轻量化行人重识别关键技术

面向Transformer 的掩码搜索剪枝算法

为了实现在不对模型进行重训练的情况下进行轻量化,通过费雪信息矩阵对Transformer 网络中头部和滤波器进行轻量化剪枝。(这部分也等我后面研究一下这个算法)

首先Transformer 的剪枝问题可以归纳为以下优化方法:

其中L为损失函数,m为掩码向量,C 为对浮点运算或时延等成本限制,为了有效的优化该方法,对损失函数围绕 m = 1 进行二阶泰勒展开,并且假设模型收敛到局部最优,损失函数优化可以表示如下:

其中, l表示 K 维全 1 向量, H 为损失函数对应掩码向量的海森矩阵,海森矩阵 H 是二阶偏导数矩阵,计算过于复杂,因此 H 需要进一步简化为对角矩阵形式的费雪信息矩阵,则简化为:

损失函数设计 

由于无人机多视角多尺度特点,不同行人之间的图像差别度减少,相同行人不同视角和高度的图像差距增加,常用的交叉熵和三元组损失函数很难 满足模型训练要求。因此采用Circle 损失函数和边界样本挖掘损失函数。

L_{c}为 Circle 损失函数 ,在 Circle 损失函数中,相较于一般的交叉熵损失函数,从最小化s_{n}^{j}-s_{p}^{j}为优化目标(n表示的类间相似,也就是负样本,p表示类内)扩展为\alpha _{n}^{j}(s_{n}^{j}-\Delta _{n})-\alpha _{p}^{i}(s_{p}^{i}-\Delta _{p}).

边界样本挖掘损失:

 这种就是在寻找最困难的正样本和最困难的负样本。

面向无人机场景的空间信息嵌入

由于无人机多视角的特点,提出了 面向无人机场景的空间信息嵌入,将空间角度信息等非视觉信息嵌入到输入序列中,以学习相同对象不同空间视角的不变特性。作者指出,空间角度信息可以分为两种:(1)以行人所在地为原点,人脸朝向为 X 轴,设无人机地面投影点和原点的连线 X 轴正方向的顺时针夹角为方向角 φ [0, 2π]。以人身为 Z 轴,设无人机和原点连线与 Z 轴 正 方 向 的 顺 时 针 夹 角 为 仰 角 θ ∈ [0,π/ 2] 。在两个方向上分别等间隔取N个区间

论文引用:

胡海峰,倪宗煜,赵海涛,等. 无人机场景下基于 Transformer 的轻量化行人重识别[ J]. 南京邮电大学学报(自然科学版),2024,44 (3):48 62.

参考文献

[1] XU L L, PENG H F, LU X, et al. Learning to generalize aerial person re-identification using the meta-transfer method[ J]. Concurrency and Computation: Practice and Experience, 2023, 35(12): e7687.

[2] ZHANG S Z, ZHANG Q, YANG Y F, et al. Person reidentification in aerial imagery[ J]. IEEE Transactions on Multimedia, 2021, 23: 281-291.

[3] HOU L, HUANG Z, SHANG L, et al. DynaBERT: dynamic BERT with adaptive width and depth [ J ]. Advances in Neural Information Processing Systems, 2020, 33: 9782-9793.

[4] LIU Z J, LI F R, LI G, et al. EBERT: efficient BERT inference with dynamic structured pruning[C]//Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021. 2021: 4814-4823.

[5] KWON W, KIM S, MAHONEY M W, et al. A fast post-training pruning framework for transformers [ J ]. Advances in Neural Information Processing Systems,2022, 35: 24101-24116.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/770635.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Git 操作总结

1. 安装、Git 环境配置 1.1 安装 Git 官方版本可以在 Git 官方网站下载:打开 https://git-scm.com/download/win,选择相应版本即可。 Git 安装完成后,可以在开始菜单中看到 Git 的三个启动图标(Git Bash、Git CMD、Git GUI&…

关于5G和卫星

手机,已经串联起了我们生活中的一切环节。我们随时随地拿出手机,都能畅快地上网。 这一切是如此地理所当然,以至于我们甚至想不到这样不可思议的问题: 移动通信网络真的无处不在吗? 我们都知道,地球虽叫…

解决在【Tomcat服务器上报错java.lang.ClassNotFoundException: com.mysql.cj.jdbc.Driver】

目录 1. 添加驱动依赖:右键导入为库 2. 重新导入工件,注意看lib下有没有mysql的驱动包,没有的话需要导入。 3. 写代码的时候要注意对null值的处理,比如下面的截图,如果只是简单的获取生成的随机数,很有可…

Linux—KVM虚拟化中使用基本命令管理虚拟机(纯实例)

🏡作者主页:点击! 👨‍💻Linux高级管理专栏:点击! ⏰️创作时间:2024年7月2日11点11分 🀄️文章质量:94分 文章目录 前言 1.查看命令帮助 2.查看KVM 的…

MySQL 如何实现将数据实时同步到 ES ?

引言:在现代应用程序开发中,通常会将数据存储在 MySQL 中,用于事务性处理和数据持久化。而 Elasticsearch(ES)则是一种专门用于全文搜索和分析的强大工具。将这两者结合使用的一个常见需求是实时将 MySQL 中的数据同步…

Houdini 引用领域及20版本五大重点功能

Houdini是一款三维计算机图形软件,由加拿大Side Effects Software Inc.(简称SESI)公司开发,SESI公司由Kim Davidson和Greg Hermanovic创建于1987年。Houdini是在Prisms基础上重新开发而来,可运行于Linux, Windows, Mac…

Echarts折线图 自适应窗口大小

实现效果&#xff1a; 代码&#xff1a; <template><div class"echarts"><div class"select-box"><div v-for"(item,index) in trendList":key"index":class"[period item.id?active:,item]"click&…

从涟漪到波浪:资产代币化的变革力量

原文标题&#xff1a;《From ripples to waves: The transformational power of tokenizing assets》撰文&#xff1a;Anutosh Banerjee&#xff0c;Matt Higginson&#xff0c;Julian Sevillano&#xff0c;Matt Higginson编译&#xff1a;Chris&#xff0c;Techub News本文来…

最近,被“AI”狠狠刷屏了......

最近&#xff0c;被“AI”狠狠刷屏了。 作为时下最热门的话题&#xff0c;AI画图、AI配音、AI写文案、AI做视频......AI在最近两年可谓是火遍全球。ChatGPT、Midjourney和SORA等技术不断涌现&#xff0c;不仅深刻改变着我们的生活方式&#xff0c;也推动了AI技术的飞速发展。 …

Linux文件与日志

目录 1. Linux 文件系统 1.1 inode号 1.2 EXT类型文件恢复 1.3 xfs类型文件备份和恢复 2. 日志分析 2.1 日志类型 2.2日志配置文件 2.3 日志分析的重要性 在Linux系统中&#xff0c;文件和日志是管理和维护系统运行所不可或缺的。理解它们的工作原理和如何有效地管理和…

第三天:LINK3D核心原理讲解【第1部分】

第三天:LINK3D核心原理讲解 LINK3D学习笔记 目标 了解LINK3D velodyne64线激光雷达LINK3D质心点提取效果: 分布在车道与墙体的交界处。 课程内容 LINK3D论文精讲LINK3D聚合关键点提取代码讲解LINK3D描述子匹配代码讲解除了ALOAM的线特征、面特征,还有其他点云特征吗,是…

WSL——忘记root密码(Ubuntu)

1、问题描述 Windows下的WSL&#xff08;Ubuntu&#xff09;忘记了root密码&#xff0c;无法使用管理员权限。 2、解决方法 关闭 Ubuntu 窗口。打开 Windows 的 Powershell 或 cmd&#xff0c; 以 root 默认登陆 WSL。 wsl -u root 修改对应用户密码。 # xxx为要修改密码的用…

MySQL—创建查看删除备份恢复数据库

创建数据库 创建数据库 LLF_DB01CREATE DATABASE LLF_DB01删除数据库DROP DATABASE LLF_DB01创建一个使用utf8字符集的数据库并带校对规则的数据库CREATE DATABASE hsp_db03 CHARACTER SET utf8 COLLATE utf8_bin 查看、删除数据库 显示所有的数据库SHOW DATABASES显示数据库…

车牌号查车辆信息在生活中的作用

车牌号查车辆信息在生活中具有多方面的作用&#xff0c;这些作用涵盖了安全、法律合规、便捷性等多个方面。以下是几个主要的作用&#xff1a; 交通安全与事故处理&#xff1a;在交通事故发生后&#xff0c;警方或保险公司可以通过车牌号快速查询到事故车辆的基本信息&#xf…

搭建论坛和mysql数据库安装和php安装

目录 概念 步骤 安装mysql8.0.30 安装php 安装Discuz 概念 搭建论坛的架构&#xff1a; lnmpDISCUZ l 表示linux操作系统 n 表示nginx前端页面的web服务 m 表示 mysql 数据库 用来保存用户和密码以及论坛的相关内容 p 表示php 动态请求转发的中间件 步骤 &#xff…

晨持绪科技:抖音店铺运营思路

在抖音这个充满活力与创意的平台上&#xff0c;店铺运营不仅仅是一种商业行为&#xff0c;它更是一种艺术的展示。如同画家在画布上勾勒出色彩斑斓的画面&#xff0c;抖音店铺的运营者们也在平台上精心策划着每一个细节&#xff0c;以吸引更多的目光和流量。 内容创作。内容是吸…

Vue.js 案例——商品管理

一.需要做出的效果图&#xff1a; 二.实现的步骤 首先&#xff0c;先建一个项目&#xff0c;命名Table&#xff0c;在Table项目中的components里新建一个MyTable.vue文件。 第二步&#xff0c;在原有的 HelloWorld.vue中写入代码。 HelloWorld.vue代码如下&#xff1a; <…

oracle存储结构-----逻辑存储结构(表空间、段、区、块)

文章目录 oracle存储结构图&#xff08;逻辑存储物理存储&#xff09;oracle逻辑存储结构图逻辑存储结构、表空间、段、区、数据块的关系&#xff1a;1、数据 块&#xff08;block&#xff09;---逻辑存储最小单位2、 数据区&#xff08;extent&#xff09;--存储空间分配和回收…

五、框架实战:SSM整合原理和实战-个人版

五、框架实战&#xff1a;SSM整合原理和实战 文章目录 五、框架实战&#xff1a;SSM整合原理和实战一、SSM整合理解1.1 什么是SSM整合&#xff1f;1.2 SSM整合核心问题明确1.2.1 第一问&#xff1a;SSM整合需要几个IoC容器&#xff1f;1.2.2 第二问&#xff1a;每个IoC容器对应…

数据采集技术:selenium/正则匹配/xpath/beautifulsoup爬虫实例

专栏介绍 1.专栏面向零基础或基础较差的机器学习入门的读者朋友&#xff0c;旨在利用实际代码案例和通俗化文字说明&#xff0c;使读者朋友快速上手机器学习及其相关知识体系。 2.专栏内容上包括数据采集、数据读写、数据预处理、分类\回归\聚类算法、可视化等技术。 3.需要强…