行人重识别综述

Deep Learning for Person Re-identification: A Survey and Outlook

论文地址https://arxiv.org/pdf/2001.04193

1. 摘要

we categorize it into the closed-world and open-world settings.

  • closed-world:学术环境下

  • open-world :实际应用场景下

2. 引言

引言部分主要讨论了跨非重叠摄像头的行人重识别(Re-ID)问题,强调其在智能监控系统中的重要性和挑战。作者提到Re-ID面临的挑战,如视角变化、低分辨率、光照变化等,并指出早期研究主要集中在手工特征构建和距离度量学习上。随着深度学习的发展,虽然在一些标准数据集上取得了显著进展,但实际应用与研究场景之间仍存在较大差距。此外,作者提出了一个新的基线方法AGW和一个新的评估指标mINP,旨在推动未来的Re-ID研究,并讨论了一些未来的研究方向,以期缩小封闭世界和开放世界应用之间的差距。

2.1 构建一个ReID系统需要的五个步骤

  1. 原始数据采集

  2. 生成边界框:框出其中的行人,借助算法:person detection or tracking algorithms

  3. 对训练数据进行标注:标注这些个体在不同摄像头下的相同身份。这意味着,对于给定的个体,需要在不同摄像头捕获的图像中识别出该个体,并为其分配相同的标识符。

  4. 训练模型(核心):

    • feature representation learning

    • distance metric learning

    • their combinations

  5. 检索:给定一个疑犯(查询对象)和一个图库集,我们使用上一阶段学习的Re-ID模型提取特征表示。通过对计算的查询到库的相似性进行排序,获得检索到的排名列表。(Some methods have also investigated the ranking optimization to improve the retrieval performance)

2.2 学术环境与实际应用场景对比

学术环境实际应用场景
数据all the persons are represented by images/videos captured by single-modality visible cameras in the closed-world settingprocess heterogeneous data, which are infrared images [21], [60], sketches [61], depth images [62], or even text descriptions
人物框选generated bounding boxes ——已经框选好的require end-to-end person search from the raw images or videos ——端到端也就是要自己处理
标注大量且已经标注好少量或没有标注
标注正确性assume that all the annotations are correct, with clean labelsannotation noise
query是否在galleryassume that the query must occur in the gallery set by calculating the CMC [68] and mAPquery person may not appear in the gallery set [69], [70], or we need to perform the verification rather than retrieval [26]. This brings us to the open-set person Re-ID

3. CLOSED-WORLD PERSON RE-IDENTIFICATION

假设条件

  • 单一模态捕捉的图像或视频

  • 人物已经被框选,大多数是同一人

  • 有足够的标注

  • 标注正确

  • query person肯定在

  • gallery set.

standard closed-world Re-ID system 三个主要组件:

  • Feature Representation Learning ——focuses on developing the feature construction strategies

  • Deep Metric Learning——which aims at designing the training objectives with different loss functions or sampling strategies

  • Ranking Optimization ——concentrates on optimizing the retrieved ranking list.

2.1 Feature Representation Learning

four main categories
  1. Global Feature ——global feature representation vector for each person image without additional annotation cues

  2. Local Feature (§ 2.1.2), it aggregates part-level local features to formulate a combined representation for each person image

  3. Auxiliary Feature (§ 2.1.3), it improves the feature representation learning using auxiliary information, e.g., attributes [71], [72], [78], GAN generated images [42], etc

  4. Video Feature (§ 2.1.4), it learns video representation for video-based Re-ID [7] using multiple image frames and temporal information [73], [74

2.1.1 Global Feature Representation Learning
  • joint learning framework consisting of a singleimage representation (SIR) and cross-image representation (CIR) training process as a multi-class classification problem by treating each identity as a distinct class.

  • Attention Information.

  • Attention information in person re-identification refers to techniques used to enhance feature learning by focusing on specific parts of the data. It includes pixel-level attention which emphasizes individual pixels, part-level attention which focuses on different regions of a person's image, and spatial or background suppression to reduce noise from irrelevant areas. It also includes context-aware attention for handling multiple person images, which improves the feature learning by considering the relationships between different images or sequences. These attention mechanisms contribute to more accurate identification by highlighting relevant features and suppressing irrelevant ones.

Global Feature Representation Learning in person re-identification primarily focuses on extracting a comprehensive feature vector for the entire person image. It utilizes networks originally designed for image classification and applies them to re-ID, leveraging fine-grained cues for learning distinctive features.

2.1.2 Local Feature Representation Learning

Local Feature Representation Learning aims to be robust against issues such as misalignment of person images. It divides the body into parts or regions and extracts features from these specific areas. This method helps in accurately matching body parts across different images and is especially useful in dealing with variations in pose or when parts of the body are occluded.

2.1.3 Auxiliary Feature Representation Learning

usually requires additional annotated information (e.g., semantic attributes [71]) or generated/augmented training samples to reinforce the feature representation

  1. Semantic Attributes: These are descriptive characteristics such as "male," "short hair," "wearing a red hat," etc., which can be used to provide additional context and improve the accuracy of feature representation. The learning models may use these semantic attributes to distinguish between individuals more effectively, especially in semi-supervised learning settings where not all data may be labeled.语义属性:这些是描述性特征,例如“男性”、“短发”、“戴红帽子”等,可用于提供额外的上下文并提高特征表示的准确性。学习模型可以使用这些语义属性来更有效地区分个体,尤其是在并非所有数据都可以标记的半监督学习环境中。

  2. Viewpoint Information: This takes into account the angle from which the person is captured across different cameras. By considering the viewpoint, models can learn to recognize the same individual from various angles, which is crucial for robust Re-ID across multiple cameras.视点信息:这考虑了在不同摄像机上捕捉人物的角度。通过考虑视点,模型可以学会从不同角度识别同一个人,这对于跨多个摄像头进行强大的 Re-ID 至关重要。

  3. Domain Information: Treating images from different cameras as distinct domains, this approach aims to extract a globally optimal feature set that accounts for cross-camera variations. This could involve aligning features across these domains to ensure consistent identification.域信息:将来自不同相机的图像视为不同的域,此方法旨在提取考虑跨相机变化的全局最优特征集。这可能涉及对这些域的要素进行对齐,以确保一致的标识。

  4. GAN Generation: The use of Generative Adversarial Networks (GANs) to create synthetic images helps in addressing cross-camera variations and enhances the robustness of the model. These generated images can provide additional data points for training, particularly useful when actual images are scarce or when trying to model different environmental conditions.GAN生成:使用生成对抗网络(GAN)创建合成图像有助于解决跨相机变化问题,并增强模型的鲁棒性。这些生成的图像可以为训练提供额外的数据点,当实际图像稀缺或尝试对不同的环境条件进行建模时,特别有用。

  5. Data Augmentation: Custom data augmentation methods such as random resizing, cropping, and flipping are used to artificially expand the dataset, making the trained model more generalizable and less prone to overfitting. More sophisticated techniques might include generating occluded samples or applying random erasing strategies to simulate a wider variety of real-world conditions that the Re-ID system may encounter.数据增强:使用随机调整大小、裁剪和翻转等自定义数据增强方法,人为地扩展数据集,使训练后的模型更具泛化性,不易出现过度拟合。更复杂的技术可能包括生成遮挡样本或应用随机擦除策略来模拟 Re-ID 系统可能遇到的更多实际情况。

2.1.4 Video Feature Representation Learning

additional challenges

  1. accurately capture the temporal information.

  2. unavoidable outlier tracking frames within the videos

  3. handle the varying lengths of video sequences

2.1.5 Architecture Design

设计不同架构来解决

2.2 Deep Metric Learning

2.2.1 Loss Function Design

identity loss, verification loss and triplet loss

Re-ID领域中常用的四种损失函数及其作用:

  1. Identity Loss(身份损失):

    • 将人员Re-ID的训练过程视为一个图像分类问题,其中每个身份被视为一个独立的类别。

    • 在测试阶段,使用池化层或嵌入层的输出作为特征提取器。

    • 使用softmax函数计算输入图像被正确识别为其类别的概率,并通过交叉熵计算身份损失。

    • 身份损失在训练过程中自动挖掘难样本,简单易训练,且通常与标签平滑等策略结合使用以提高模型的泛化能力。

  2. Verification Loss(验证损失):

    • 优化成对关系,使用对比损失或二元验证损失来改善相对成对距离的比较。

    • 对比损失关注于增强样本对之间的欧氏距离比较,通过最大化同一身份内样本的相似性和不同身份样本的差异性。

    • 二元验证损失区分图像对的正负,关注于识别输入图像对是否属于同一身份。

  3. Triplet Loss(三元组损失):

    • 将Re-ID模型训练过程视为一个检索排序问题,确保同一身份的样本对距离小于不同身份样本对的距离。

    • 三元组包含一个锚点样本、一个正样本(与锚点同一身份)和一个负样本(不同身份),通过预定义的边际参数优化这三者之间的距离。

    • 为了提高训练的效果,采用了各种信息三元组挖掘方法,以选择更具信息量的三元组进行训练。

  4. OIM Loss(在线实例匹配损失):

    • 设计了一个包含存储实例特征的内存库,通过内存库优化在线实例匹配。

    • OIM损失通过比较输入特征与内存库中存储的特征之间的相似度,处理大量非目标身份的实例。

    • 这种方法在无监督领域自适应Re-ID中也得到了应用,通过控制相似度空间的温度参数优化实例匹配分数。

2.2.2 Training strategy

训练策略(Training strategy)是机器学习和深度学习中一组用于指导模型训练过程的方法和技术。它包括各种技巧和方法,旨在提高模型的学习效率、性能和泛化能力。

  1. 批量采样策略的挑战

    • 由于每个身份标注的训练图像数量差异很大,以及正负样本对之间严重不平衡,设计有效的训练策略变得具有挑战性。

  2. 身份采样

    • 处理样本不平衡问题的最常见策略是身份采样。在这种策略下,每个训练批次会随机选取一定数量的身份,然后从每个选定的身份中采样几张图像。这种批量采样策略保证了有效的正负样本挖掘。

  3. 适应性采样

    • 为了处理正负样本之间的不平衡问题,流行的方法是适应性采样,通过调整正负样本的贡献来应对不平衡,例如采样率学习(SRL)和课程采样等。

  4. 样本重权

    • 另一种方法是样本重权,通过使用样本分布或相似性差异来调整样本权重。这有助于平衡训练过程中样本的影响,提高模型对不同样本的区分能力。

  5. 高效的参考约束

    • 设计了高效的参考约束来将成对/三元组相似性转化为样本到参考的相似性,这不仅解决了不平衡问题,而且增强了区分性,并且对异常值具有鲁棒性。

  6. 多损失动态训练策略

    • 通过适应性地重新加权身份损失和三元组损失,动态组合多个损失函数,可以提取它们之间的共享组件。这种多损失训练策略导致了一致的性能提升。

2.3 Ranking Optimization

2.3.1 Re-ranking

通过不同的技术和方法(如重排、查询适应性和人机交互)来实现更准确的排名顺序。这些方法能够根据不同的情境和需求,灵活地优化排名结果,从而提高检索的准确性和效率。

2.3.2 Rank Fusion

在实际应用中,不同的检索或识别算法可能对同一数据集有不同的理解和表现,某些算法在特定情境下表现良好,而在其他情境下表现可能较差。排名融合通过合理地结合这些算法产生的结果,旨在充分利用每种方法的优势,从而提供一个综合考虑了多种视角和信息的更准确、更可靠的排名结果。

2.4 Datasets and Evaluation

数据集

GitHub - NEU-Gou/awesome-reid-dataset: Collection of public available person re-identification datasets

评估指标

  1. 累积匹配特性(CMC):

    • CMC曲线或CMC-k指标(又称Rank-k匹配准确率)反映了在前k个检索结果中找到正确匹配的概率。当每个查询仅对应一个正确结果时,CMC提供了一个准确的评估。然而,在包含多个正确匹配项的大型摄像头网络中,CMC可能无法完全反映模型跨多个摄像头的区分能力。

  2. 平均平均精确度(mAP):

    • mAP衡量的是在有多个正确匹配项时的平均检索性能,它在图像检索领域被广泛使用。对于Re-ID评估,mAP可以解决两个系统在查找第一个正确匹配(可能是容易的匹配)时表现相同,但在检索其他难度较大的匹配项时能力不同的问题。

  3. FLOPs(浮点操作次数每秒):

    • FLOPs是衡量模型复杂度和运算效率的指标,特别是在计算资源受限的训练/测试设备上,FLOPs成为了一个重要的考量因素。它反映了执行某个操作或运行模型一次所需的浮点运算次数。

  4. 网络参数大小:

    • 网络参数大小指的是构成模型的参数总量,这直接影响模型的存储需求和计算复杂度。在资源受限的环境中,参数越少的模型越受欢迎,因为它们占用的内存少,运行速度可能更快。

一些代表性方法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/397607.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AI专题:AI巨轮滚滚向前

今天分享的是电子系列深度研究报告:《AI专题:AI巨轮滚滚向前》。 (报告出品方:方正证券) 报告共计:65页 来源:人工智能学派 Gemini 1.5 Pro 性能显著增强,长上下文理解取得突破 …

SpringBoot自动注入源码分析

Spring Boot何时注入Autowired标注的属性? 是在Bean实例化后,填充Bean的时候注入Autowired标注的属性 如果注入类型的Bean存在多个,Spring Boot是如何处理的? 如果存在多个类型的Bean,会根据primary—>javax.ann…

我的NPI项目之Android USB 系列(一) - USB第一面

和USB应该是老朋友了,从2011年接触Android开发开始,就天天和USB打交道了。那时候还有不 对称扁头的usb/方口的usb,直到如今使用广泛的防反插USB3.0 type-C。 但是,一直有一个不是很清楚的问题萦绕在心头,那就是。先有…

天洑AIFEM软件将助力竞技机器人国际冠军战队再攀高峰

2023年底,烈鹏战队作为中国顶尖机器人队伍代表出征国际赛事Battle of Robots,经过与全球战队激烈竞争,取得国际赛场上5连胜的优秀战绩斩获国际冠军。 天洑智能结构仿真软件AIFEM与玄智科技的技术方案联合,基于烈鹏战队的冠军机器人…

基于shp数据制作3DTiles建筑白膜

经纬管网建模系统MagicPipe3D,本地离线参数化构建地下管网、建筑三维模型,输出标准3DTiles服务、Obj模型等格式,支持Cesium、Unreal、Unity、Osg等引擎加载进行三维可视化、语义查询、专题分析。欢迎下载试用:http://www.magic3d.…

P1824 进击的奶牛题解

题目 Farmer John 建造了一个有N(2≤N≤105) 个隔间的牛棚,这些隔间分布在一条直线上,坐标是(0≤​≤)。 他的C(2≤C≤N)头牛不满于隔间的位置分布,它们为牛棚里其他的牛的存在而愤…

“比特币突破5.2万美元”,一枚币可换一斤半黄金?黄金比特币之争再次甚嚣尘上!

自今年1月美国SEC批准比特币现货ETF登陆美股市场之后,只用了短短的30个交易日,比特币ETF就从零膨胀到了近400亿美元的规模,超过白银ETF约100多亿美元的规模,和规模约为900多亿美元的黄金ETF暂时形成了“三七开”的格局。比特币现货…

毕业设计:基于知识图谱的《红楼梦》人物关系可视化

文章目录 项目介绍部署步骤项目运行 项目介绍 github地址:https://github.com/chizhu/KGQA_HLM?tabreadme-ov-file 基于知识图谱的《红楼梦》人物关系可视化:应该是重庆邮电大学林智敏同学的毕业设计,在学习知识图谱的过程中参考使用。 文…

ESP8266 烧录 MQTT固件

~~ 文章约定 ~~ 约定1:本篇所述固件,已测试可用于阿里云连接,其它云,未测试。 约定2:本烧录方法,以魔女开发板的板载ESP8266作示范。 约定3:如果使用独立的CH340、独立的ESP8266,请…

Puresuit 轨迹跟踪

在网上看过了很多Puresuit的轨迹跟踪算法,看起来都写的差不多,用起来不会用。 套用一份demo,在C转C语言的时候又深入理解了一些,在此整理成文档,供大家参考。输入 1.输入量是什么; 要知道车的长度,车的后轮位置以及下…

Redis(03)——发布订阅

基础命令 基于频道 publish channel message:将信号发送到指定的频道pubsub subcommand [argument [argyment]]:查看订阅或发布系统状态subscribe channel [channel]:订阅一个或多个频道的信息unsubscribe [channel [channel]]:退…

Leetcode 1089.复写零

目录 题目 思路 代码 题目 给你一个长度固定的整数数组 arr ,请你将该数组中出现的每个零都复写一遍,并将其余的元素向右平移。 注意:请不要在超过该数组长度的位置写入元素。请对输入的数组 就地 进行上述修改,不要从函数返回…

javascript选择器大全

目录 1.getElementsByTagName 2.getElementsByName 3.getElementById 4.getElementsByClassName 5.querySelector 6.querySelectorAll 1.getElementsByTagName 俗称标签选择器&#xff0c;可以根据标签名查找匹配到页面的元素对象&#xff0c;返回为一个数组。 <div&…

google邮箱开启两步验证

我开发的chatgpt网站&#xff1a; https://chat.xutongbao.top/

美国Mercari煤炉注册教程,还不快来Get!

想要掘金全球电商市场&#xff0c;美国的Mercari平台绝对值得关注。Mercari&#xff0c;也被称作煤炉&#xff0c;类似于我们国内的闲鱼二手交易平台&#xff0c;它同时拥有美国和日本两个市场。其中&#xff0c;美国市场的消费需求稳定且持续增长&#xff0c;成为了许多跨境电…

Gradle8之下载安装与环境变量配置及国内下资源设置

Gradle8之下载安装与环境变量配置及国内下资源设置 文章目录 Gradle8之下载安装与环境变量配置及国内下资源设置1. Gradle1. 官网2. 关于Gradle1. 构建任何内容2. 自动化一切3. 更快地交付 2. 下载与安装1. 下载2. 环境变量3.本地存储路径4. 查看Gradle版本 3. 配置国内下资源1…

GZ036 区块链技术应用赛项赛题第8套

2023年全国职业院校技能大赛 高职组 “区块链技术应用” 赛项赛卷&#xff08;8卷&#xff09; 任 务 书 参赛队编号&#xff1a; 背景描述 现实中患者私密信息泄露情况时有发生&#xff0c;医疗部门的柜式存储和纸质记录已不再是最优选择。在2015-2016年间&…

爬虫知识--01

爬虫介绍 # 爬虫的概念&#xff1a; 通过编程技术(python:request,selenium)&#xff0c;获取互联网中的数据(app&#xff0c;小程序&#xff0c;网站)&#xff0c;数据清洗(xpaht&#xff0c;lxml)后存到库中(mysql&#xff0c;redis&#xff0c;文件&#xff0c;excel&#x…

探索未来-Sora

AI如何将静态图像转化为动态、逼真的视频&#xff1f; OpenAI 的 Sora 通过时空片段&#xff08;以下统称片段&#xff09;的创新使用给出了答案。 Sora 展示与探讨 在快速发展的生成模型领域&#xff0c;OpenAI 的 Sora成为一个重要的里程碑&#xff0c;有望重塑我们对视频生…

uniapp离线打包(使用Android studio打包)

一、准备工作 安装HbuilderX&#xff0c;记住版本号下载对应HbuilderX版本的Android离线SDK&#xff0c;如我使用3.6.18版本打包&#xff0c;则对应应下载3.6.18版本的SDK&#xff08;官网不提供旧版本的SDK&#xff0c;有些需要自己找&#xff09;官网下载地址&#xff1a;ht…