深度学习论文:Local Feature Matching Using Deep Learning: A Survey

深度学习论文: Local Feature Matching Using Deep Learning: A Survey
Local Feature Matching Using Deep Learning: A Survey
PDF: https://arxiv.org/pdf/2401.17592

1 概述

近年来,深度学习模型的引入引发了对局部特征匹配技术的广泛探索。本文旨在全面概述局部特征匹配方法。这些方法根据是否使用检测器分为两大类。基于检测器的方法包括“先检测后描述”、联合检测与描述、“先描述后检测”以及基于图的技术。相比之下,无检测器的方法则包括基于CNN、基于Transformer和基于Patch的方法。

下图展示了局部特征匹配方法的代表性时间线
在这里插入图片描述
本文对局部特征匹配方法的划分
在这里插入图片描述

2 Detector-based Models

各种基于检测器的、用于可训练局部特征匹配的显著方法的比较。
在这里插入图片描述

2-1 Detect-then-Describe

在特征匹配中,稀疏到稀疏的匹配方法很常见。它遵循“先检测后描述”的步骤,先检测关键点位置,再提取特征描述符。这些描述符通过度量学习方法训练,使相似点在特征空间中接近,不相似点远离。为提高效率,检测器常关注图像小区域,强调低层次结构。而描述符则捕捉更大区域内更高级别的信息,为匹配提供详尽特征。

2-1-1 Fully-Supervised

局部特征匹配领域经历了显著变革,主要得益于标注数据集和深度学习技术的结合。这一变革使得从手工特征方法转向更多依赖数据的方法,改变了特征匹配的格局。卷积神经网络(CNNs)在描述符学习过程中起到了革命性作用,允许从原始局部补丁直接进行端到端学习,构建局部特征的层次结构。

  • L2Net[80]:引入了渐进式采样策略,强调描述符之间的相对距离,对中间特征图施加额外监督,推动了鲁棒描述符的发展。
  • OriNet[81]:使用CNNs为图像中的特征点分配规范方向,采用孪生网络训练方法,提出GHH激活函数,提升了特征描述符的性能。
  • HardNet[83]:简化学习过程,专注于度量学习,无需辅助损失项。
  • DOAP[84]:采用学习排序公式,优化局部特征描述符以进行最近邻匹配。
  • KSP[85]:引入子空间池化方法,利用CNNs学习不变和有区别性的描述符。
  • DeepBit[86]:提供无监督框架学习紧凑二进制描述符。
  • Bingan[87]:使用GANs学习紧凑二进制图像描述符。
  • GLAD[88]:针对个人重新识别任务,结合局部和全局人体线索。
  • Geodesc[89]:整合SfM算法的几何约束,使用几何相似性损失函数,提高3D重建任务中的描述符效果。
  • GIFT[90] 和 COLD[91]:分别利用组卷积和多级特征蒸馏网络架构,提取鲁棒的局部描述符。
  • SOSNet[92]:在HardNet基础上引入二阶相似性正则化项,提升描述符学习的性能。
  • Ebel等人[93]:基于对数极坐标采样方案,实现尺度不变性。
  • HyNet[94]:引入混合相似性度量和正则化项,优化损失函数。
  • CNDesc[95]:探索L2归一化,使用交叉归一化技术。
  • Key.Net[96]:结合手工和学习的特征,使用尺度空间表示提取关键点。
  • ALIKE[97]:提供可微关键点检测模块,优化关键点位置。
  • ZippyPoint[98]:基于KP2D,引入加速提取和匹配技术。
  • ContextDesc[100] 和 MTLDesc[101]:引入上下文感知,改进局部特征描述符。
  • AWDesc[102]:从大型复杂模型转移知识到小型简单模型,平衡准确性和速度。
  • RIFT[104] 和 SRIFT[106]:基于频域的特征描述符,改善跨模态图像匹配。
  • SemLA[107]:在图像融合任务中使用语义引导的特征匹配。

这些方法展示了局部特征匹配领域从传统手工特征到数据驱动方法的转变,以及深度学习技术如何推动这一领域的创新和发展。

2-1-2 Weakly Supervised and Others

弱监督学习为模型提供了学习鲁棒特征的机会,而无需依赖密集标注的标签,这为训练深度学习模型中最大的挑战之一提供了解决方案。已经出现了几种利用从相机姿态轻松获取的几何信息的弱监督局部特征学习方法。

  • AffNet [108] 是弱监督局部特征学习的关键进步,专注于学习局部特征的仿射形状。这种方法挑战了对几何重复性的常规强调,表明这不足以进行可靠的特征匹配,并强调了基于描述符的学习的重要性。AffNet引入了一个硬负常数损失函数,以提高仿射区域的匹配性和几何精度。这已被证明在增强仿射共变检测器的性能方面非常有效,特别是在宽基线匹配和图像检索方面。该方法强调了在开发更有效的局部特征检测器时,需要同时考虑描述符的匹配性和重复性。
  • GLAMpoints [109] 提出了一种半监督关键点检测方法,创造性地从强化学习的损失公式中汲取洞见。在这里,奖励被用来根据最终对齐的质量计算检测关键点的重要性。这种方法已被注意到对最终图像的匹配和配准质量有显著影响。
  • CAPS [110] 引入了一个弱监督学习框架,该框架利用成对图像之间的相对相机姿态来学习特征描述符。通过使用极线几何约束作为监督信号,他们设计了可微匹配层和粗到细架构,从而生成了密集描述符。
  • DISK [111] 最大化了强化学习将弱监督学习整合到端到端基于检测器的流水线中的潜力,使用策略梯度。这种将弱监督与强化学习整合的方法可以提供更鲁棒的学习信号并实现有效的优化。
  • [112] 提出了一种群组对齐方法,利用群组等变CNN的强大功能。这些CNN在提取具有辨别性的旋转不变局部描述符方面非常高效。作者使用自监督损失以获得更好的方向估计和高效的局部描述符提取。

2-2 Joint Detection and Description

联合检测与描述方法旨在解决稀疏局部特征匹配在极端环境变化下性能下降的问题,这通常受限于关键点检测器和局部描述符的局限性。传统关键点检测依赖低级信息,易受光照、天气影响。即便单独优化检测器或描述符,集成到匹配流程中也可能导致信息不一致。为此,联合方法整合了检测与描述任务,通过CNN实现深层特征映射,从而融合两任务信息,提升性能。这种方法允许检测与描述过程受图像高级特征影响,增强匹配的准确性和鲁棒性。

基于图像的描述符方法取得了显著进展,这些方法将整个图像作为输入,并利用全卷积神经网络生成密集描述符。这些方法通常将检测和描述过程结合起来,从而在两个任务中都提高了性能。

  • SuperPoint[61]:采用自监督方法同时确定关键点位置和它们的描述符。模型首先在合成形状和图像上进行训练,然后使用真实图像进行自注释过程,以提高模型对现实世界图像的相关性。
  • LF-Net[117]:受Q-learning启发,使用现有的SfM模型预测匹配图像对之间的几何关系,如相对深度和相机姿态。
  • RF-Net[118]:引入基于感受野的关键点检测器,并设计了一个通用的损失函数项,称为“邻居掩码”,以促进补丁选择的训练。
  • Reinforced SP[119]:采用强化学习原理处理关键点选择和描述匹配中的离散性。
  • R2D2[63]:结合网格峰值检测和描述符的可靠性预测,使用L2-Net架构的密集版本。
  • D2Net[62]:采用联合检测和描述方法进行稀疏特征提取,与SuperPoint不同,它在检测和描述过程中共享所有参数。
  • RoRD[120]:提出了一个双头D2Net模型,结合普通和旋转鲁棒特征对应,以解决极端视点变化。
  • HDD-Net[121]:设计了一个可交互学习的特征检测器和描述符融合网络,独立处理检测器和描述符组件,并关注学习过程中的相互作用。
  • MLIFeat[122]:设计了两个轻量级模块,用于关键点检测和描述符生成,利用多级信息融合联合检测关键点和提取描述符。
  • LLF[123]:提出使用低级特征监督关键点检测,并将其与描述符共同学习以最大化描述符匹配。
  • FeatureBooster[124]:在传统特征匹配流程中引入描述符增强阶段,建立了一个通用轻量级描述符增强框架。
  • ASLFeat[126]:使用多级特征图上的通道和空间峰值改进D2Net,引入精确检测器和不变描述符。
  • 密集预测框架:采用可变形卷积网络(DCN)减轻由低分辨率特征图提取关键点引起的限制。
  • SeLF[127]:基于ASLFeat架构,利用预训练的语义分割网络中的语义信息,学习语义感知特征映射。
  • SFD2[128]:提出从全局区域提取可靠特征,同时通过隐式嵌入高级语义来抑制不可靠区域。

这些技术展示了在不同成像条件下,通过统一模型整合检测和描述任务,如何实现更高效的学习和局部特征提取的卓越性能。

2-3 Describe-then-Detect

局部特征提取的一种常见方法是“先描述再检测”(Describe-then-Detect)流程,首先使用特征描述符描述局部图像区域,然后基于这些描述符检测关键点。

  • D2D[129] 提出了一个名为“描述到检测”(Describe-to-Detect,D2D)的关键点检测新框架,强调了特征描述阶段固有的丰富信息。该框架涉及生成大量密集特征描述符的集合,然后从这个数据集中选择关键点。D2D引入了局部深度特征图的相对和绝对显著性测量来定义关键点。
  • PoSFeat[130] 针对弱监督局部特征学习,提出了一种特别设计的解耦训练方法,用于“先描述再检测”流程。这种方法将描述网络与检测网络分开,利用相机姿态信息进行描述符学习,从而提高性能。通过一种新颖的搜索策略,描述符学习过程更加熟练地利用相机姿态信息。
  • ReDFeat[131] 使用一种相互加权策略,结合多模态特征学习的检测和描述方面。
  • SCFeat[132] 提出了一种用于弱监督局部特征学习的共享耦合桥接策略。通过共享耦合桥和交叉归一化层,框架确保了描述网络和检测网络的独立、最优训练。这种分离增强了描述符的鲁棒性和整体性能。

这些方法展示了在局部特征提取中,如何通过不同的策略和框架来提高关键点检测和描述符学习的效率和准确性。

2-4 Graph Based

在传统的特征匹配流程中,通过特征描述符的最近邻(NN)搜索建立对应关系,并根据匹配分数或相互NN验证来消除异常值。最近,基于注意力的图神经网络(GNNs)已成为获取局部特征匹配的有效手段。这些方法创建以关键点为节点的GNN,并利用自注意力层和来自Transformer的交叉注意力层在节点间交换全局视觉和几何信息。这种交换克服了仅使用局部化特征描述符所带来的挑战。最终结果是根据软分配矩阵生成匹配。
在这里插入图片描述

  • SuperGlue[69] 采用注意力图神经网络和最优传输方法来解决部分分配问题。它处理两组兴趣点及其描述符作为输入,并利用自注意力和交叉注意力在两组描述符之间交换消息。这种方法的复杂性随着关键点数量的增加而呈二次方增长,这促使后续工作进行进一步探索。
  • SGMNet[70] 在SuperGlue的基础上增加了一个种子模块,该模块仅处理一小部分匹配点作为种子。放弃了全连接图,转而使用稀疏连接图。然后设计了一个带有注意力机制的种子图神经网络来聚合信息。关键点通常只与少数几个点表现出强相关性,因此大多数关键点的邻接矩阵连接稀疏。
  • ClusterGNN[71] 利用图节点聚类算法将图中的节点划分为多个簇。这种策略应用了带有聚类的注意力GNN层来学习两组关键点及其相关描述符之间的特征匹配,从而训练子图以减少冗余信息传播。
  • MaKeGNN[134] 在稀疏注意力GNN架构中引入了双边上下文感知采样和关键点辅助上下文聚合。
  • GlueStick[135] 受SuperGlue启发,将点和线描述符纳入一个联合框架进行联合匹配,并利用点对点关系将匹配图像中的线连接起来。
  • LightGlue[136] 为了使SuperGlue适应计算复杂性,提出了根据每对图像之间的匹配难度动态改变网络深度和宽度的方法。它设计了一个轻量级置信度分类器来预测和完善状态分配。
  • DenseGAP[137] 设计了一个利用锚点作为图像间和图像内上下文的稀疏但可靠的先验的图结构。它通过有向边将这些信息传播到所有图像点。
  • HTMatch[138] 和 Paraformer[139] 研究了注意力在交互混合中的应用,并探索了在效率和效果之间取得平衡的架构。
  • ResMatch[140] 提出了特征匹配中残差注意力学习的思想,将自注意力和交叉注意力重新表述为相对位置参考和描述符相似性的学习残差函数。它旨在通过经验手段弥合可解释匹配和过滤流程与基于注意力的特征匹配网络之间的鸿沟,后者天生具有不确定性。

这些方法展示了如何通过注意力机制和图神经网络来提高局部特征匹配的效率和准确性,尤其是在处理具有挑战性的视觉匹配任务时。

3 Detector-free Models

尽管特征检测能够缩小匹配的搜索范围,但在处理极端情况(如大量视点变化或涉及无纹理区域的图像对)时,基于检测的方法仍面临挑战,即便有出色的描述符和匹配技术。与之相对,无检测器方法避免了特征检测器的使用,直接在图像的密集网格上提取视觉描述符,实现密集匹配。因此,与基于检测的方法相比,这些技术更能捕捉图像对中可重复的关键点。

3-1 CNN Based

在早期阶段,无检测匹配方法常常依赖于使用相关性或代价体来识别潜在的邻域一致性的CNN。
在这里插入图片描述

  • NCNet[64]:分析图像对应点的四维空间邻域一致性,无需全球几何模型。
  • Sparse-NCNet[65]:使用稀疏相关张量上的4D CNN,减少内存和时间消耗。
  • DualRC-Net[66]:以粗到细的方式建立图像间的密集像素级对应关系。
  • GLU-Net[67]:适用于几何匹配、语义匹配和光流的全局-局部通用网络。
  • GOCor[142]:完全可微的密集匹配模块,预测深度特征图间的全局优化匹配置信度。
  • PDCNet[68]:概率深度网络,估计图像间对应关系及其置信度。

3-2 Transformer Based

CNN的密集特征接收场在处理低纹理区域或区分具有相似特征表示的关键点时可能存在局限性。相比之下,人类在这些区域匹配时倾向于同时考虑局部和全局信息。鉴于Transformer在计算机视觉任务中的成功,研究人员已经探索将Transformer的全局接收场和长期依赖性融入局部特征匹配。出现了各种将Transformer集成到局部特征匹配的特征提取网络的方法。

  • COTR[154]:结合稀疏匹配和密集匹配的优势,使用自注意力联合学习两幅图像。
  • ECO-TR[155]:端到端模型,加速COTR,智能连接多个Transformer块。
  • LoFTR[72]:创建GNN,使用自注意力和互注意力层获取特征描述符,生成低纹理区域的密集匹配。
  • Aspanformer[73]:基于流预测的概率建模,自适应变化局部注意力范围。
  • SE2-LoFTR[156]:改进LoFTR模型,使其对平移和旋转具有等变性。

3-3 Patch Based

基于补丁的匹配方法通过匹配局部图像区域来增强点对应关系。它将图像划分为补丁,提取每个补丁的描述符向量,然后匹配这些向量以建立对应关系。该技术适应大范围位移,并在各种计算机视觉应用中很有价值。
在这里插入图片描述

  • Patch2Pix[169]:弱监督方法,学习与极端几何变换一致的对应关系。
  • AdaMatcher[170]:解决补丁级匹配中的几何不一致问题,自适应分配匹配并估计图像间比例。
  • PATS[171]:自监督学习比例差异,处理多对多关系。
  • SGAM[172]:分层特征匹配框架,先进行区域匹配,再通过几何一致性细化为点匹配。

下图展示了多个流行的深度学习模型在局部图像匹配任务中的性能表现。
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/582313.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

go语言实现简单ngnix样例

目录 1、代码实现样例: 2、postman调用ngnix,转发: 1、代码实现样例: package mainimport ("bytes""encoding/json""io""log""net/http""net/http/httputil""…

防止核心研发数据流失:管理者跳槽怎么办?

在高速发展的科技行业中,核心研发数据是企业最宝贵的资产之一。然而,当高层管理人员或核心技术人员因跳槽等原因离开公司时,他们可能会无意中或有意地携带走企业的核心研发数据,这对于任何企业来说都是一个巨大的风险。为了有效地…

Vue---组件

Vue—组件 目录 Vue---组件定义组件全局组件局部组件 组件通讯***重点***父子通信之父传子(props)父子通信之子传父($emit)ref属性($refs) 动态组件插槽命名插槽 定义组件 全局组件 vue2中template只能传…

ArcGIS小技巧—基于点数据的密度分析(含练习数据)

关于空间点数据的密度分析,Arcgis Map中提供了基础的点密度分析和核密度分析。核密度分析可以通过手动设置搜索半径,调整密度分布的合理性。 但有时由于实际工作的需要,我们需要对研究范围做特定划分,比如根据格网规则划分做密度…

Flask框架进阶-Flask流式输出和受访配置--纯净详解版

Flask流式输出🚀 在工作的项目当中遇到了一种情况,当前端页面需要对某个展示信息进行批量更新,如果直接将全部的数据算完之后,再返回更新,则会导致,前端点击刷新之后等待时间过长,开始考虑到用进…

电脑录制视频快捷键,一键开启录屏新时代(干货)

“最近尝试录制一些电脑上的操作视频,用来制作教学教程。不过,每次录制都要通过菜单或搜索来打开录屏软件,实在是有些繁琐。有没有人知道哪些电脑录制视频的快捷键呀?或者有没有通用的快捷键设置方法?” 在当今数字时…

CMake+qt+Visual Studio

#使用qt Creator 创建Cmake 项目,使用Cmake Gui 生成sln 工程,使用Visual Studio 开发 ##使用qt Creator 创建CMake项目 和创建pro工程的步骤一致,只是在选择构建系统的步骤上选择CMake,接下来步骤完全相同 工程新建完成之后,构建cmake 项…

PE文件(三)节表作业

本次作业以notepad进行演示,如下是其在硬盘上的内存 1.手动解析节表 由标准pe头可知,一共由7个节也就是7个节表,可选pe头的大小是0X00F0,即240字节大小 根据上述我们所获取的信息,找到节表的首地址为0x01F8 .text …

微服务:Nacos注册中心

个人简介:Java领域新星创作者;阿里云技术博主、星级博主、专家博主;正在Java学习的路上摸爬滚打,记录学习的过程~ 个人主页:.29.的博客 学习社区:进去逛一逛~ Nacos注册中心 一、服务注册与发现1.启动Nacos…

Vite proxy-rewrite 属性详解

在前端开发中,为了避免跨域问题,我们会在vite.config.ts 中配置如下问题 rewrite: 由于不了解Nginx的知识,这个属性一直困扰着我,这个重写有啥用,加和不加有啥影响 server: {host: 0.0.0.0,proxy: {/api: {target: ht…

手机通讯录删除了怎么恢复?这里几个方法超快找回!

当我们不小心删除了手机通讯录中的联系人,或者手机丢失导致通讯录信息丢失,恢复通讯录就变得非常重要了。手机通讯录删除了怎么恢复?我们该如何快速找回这些重要的联系人信息呢?下面我们将介绍2种简单易行的方法,帮助您…

Spark核心名词解释与编程

Spark核心概念 名词解释 1)ClusterManager:在Standalone(上述安装的模式,也就是依托于spark集群本身)模式中即为Master(主节点),控制整个集群,监控Worker。在YARN模式中为资源管理器ResourceManager(国内…

树莓集团整合行业资源 优化数字产业生态圈

树莓集团,作为国际数字影像产业园的运营方以及链主企业,自创立以来,一直致力于整合行业优质资源,为数字科技领域的优秀企业提供一片肥沃的创新土壤。随着信息技术的迅猛发展和数字经济的深入推进,树莓集团深知自身的责…

七彩虹(Colorful)隐星P16 2023款笔记本电脑原装出厂Win11系统镜像下载 带建Recovery一键还原功能

七彩虹原厂Windows预装OEM专用系统,恢复出厂开箱状态一模一样 适用型号:隐星P16 23 链接:https://pan.baidu.com/s/1Ig5MQMiC8k4VSuCOZRQHUw?pwdak5l 提取码:ak5l 原厂W11系统自带所有驱动、出厂时自带的主题与专用壁纸、系…

机器学习在医疗行业的应用:颠覆传统诊疗模式,开启智慧医疗新时代

文章目录 一、精准诊断的突破二、药物研发的革新三、患者管理的智能化四、智能辅助决策系统五、机器学习在医疗行业的前景 随着科技的飞速发展,机器学习作为人工智能的核心技术,正逐渐渗透到各个行业中,其中在医疗行业的应用尤为引人瞩目。机…

Strassen矩阵乘法——C++

【题目描述】 根据课本“Strassen矩阵乘法”的基本原理,设计并实现一个矩阵快速乘法的工具。并演示至少10000维的矩阵快速乘法对比样例。 【功能要求】 实现普通矩阵乘法算法和“Strassen矩阵乘法”算法对相同的矩阵,分别用普通矩阵乘法算法&#xff…

电机控制系列模块解析(11)—— 电流采样

一、电流采样分类 由下图可知,采样电阻的位置不同,电流采样分为输出电流采样、下桥电流采样、母线电流采样。 输出电流采样 定义:输出电流采样是指对电机定子绕组或转子绕组(对于内转子永磁同步电机)输出的电流进行测…

什么是区块链?智能合约有什么用?

一、什么是区块链? 区块链是一种去中心化的分布式账本技术,通过加密和共识机制确保数据的安全和透明。它将交易数据按照时间顺序记录在区块中,并通过链式链接保证了数据的不可篡改性。 二、什么是智能合约? 智能合约是运行在区…

如何修改php版本

我使用的Hostease的Windows虚拟主机产品,由于网站程序需要支持高版本的PHP,程序已经上传到主机,但是没有找到切换PHP以及查看PHP有哪些版本的位置,因此咨询了Hostease的技术支持,寻求帮助了解到可以实现在Plesk面板上找到此切换PHP版本的按钮…