论文阅读之基于Syn2Real域的侧扫声纳类水雷目标探测

摘要

由于现实世界数据的稀缺性,基于深度学习的水下水雷探测受到了限制。这种稀缺性导致过拟合,即模型在训练数据上表现良好,但在未见数据上表现不佳。本文提出了一种使用扩散模型的Syn2Real (Synthetic to Real)域泛化方法来解决这一挑战。我们证明了由DDPM和DDIM模型产生的带有噪声的合成数据,即使不是完全真实的,也可以有效地增加真实世界的样本用于训练。最终采样图像中的残余噪声提高了模型对具有固有噪声和高变化的真实世界数据的泛化能力。基线Mask-RCNN模型在合成和原始训练数据集的组合上训练时,与仅在原始训练数据上训练相比,平均精度(AP)提高了约60%。这一重大改进突出了Syn2Real域泛化在水下水雷探测任务中的潜力。

引言

近年来,海洋机器人技术,特别是配备先进侧扫声纳(SSS)系统的自主水下航行器(AUVs),为大规模海洋探测任务(如制图、目标检测和环境监测)开辟了新天地 [1],[2]。虽然这些SSS图像为海床研究提供了宝贵的信息,但从数据中手动识别水下雷区(MLOs)是一个耗时的过程 [3]。为了应对这一挑战并提高探索效率,采用了基于深度学习的自动目标识别(ATR)技术。然而,使用深度学习进行水下雷区检测面临一个独特的障碍:现实数据的稀缺性。与鱼类检测等样本丰富的任务不同,水下雷区较为罕见,这就造成了稀疏检测问题。这种有限的数据可能导致过拟合,即模型在特定训练的SSS图像上表现良好,但无法泛化,可能在实际探索中错过真实的雷区 [4],[5]。

近年来,关于MLO检测和分割的研究主要依赖于基于纹理、几何和光谱特征的单一或组合方法 [4]。RPFNet是一种递归金字塔频率特征融合网络,在 [6] 中提出,解决了检测问题,但未能解决数据稀缺问题。在 [7] 中,利用深度神经网络(DNN)进行MLO检测,研究了深度、记忆和训练数据的影响。为应对数据稀缺问题,广泛研究了零-shot学习和合成数据生成两种策略。零-shot学习使得模型能够在没有针对特定训练的情况下对新实例进行分类 [8]。在 [9] 中,Xu 等人提出了MFSANet,一种使用深度神经网络(DNN)解决零-shot学习挑战的方法。MFSANet利用光学-声学图像对生成伪SSS图像。领域泛化旨在通过最小化合成数据与真实世界数据之间的领域差距,训练模型在合成数据上进行推理并在真实图像上进行推断 [10],[11]。合成数据生成通过创建与真实数据相似的人工数据来解决数据稀缺问题 [12],从而有助于实现领域泛化的目标 [13]。Li 等人 [14] 采用风格迁移将光学目标图像转换为来自侧扫声纳的背景图像,从而生成模拟图像。该方法取得了超过75%的目标分类准确率。

在解决侧扫声纳应用中的数据稀缺问题时,已探索了多种方法。最初,通过合成生成方法增强数据的努力因效果有限而受到阻碍,导致深度学习模型的过拟合问题持续存在 [15]。为此,开发了生成对抗网络(GAN) [16],旨在通过生成合成声纳数据来增强泛化能力,尽管这需要大量的计算资源。进一步的进展出现在 [17] 中,其中提出了一种用于多任务场景的少样本水下物体增强方法。通过利用扩散模型和迁移学习,他们为SSS样本微调了光学预训练模型,并取得了74.08%的有意义mIoU结果。

在本文中,我们研究了生成合成图像的不同方法,以创建一个专门用于水下感知的数据集,重点关注雷区物体(MLOs)进行领域泛化。我们的贡献是多方面的。首先,尽管扩散模型已被广泛研究,我们展示了其在生成MLOs的SSS图像中的新应用,并通过超参数微调取得了显著的改进。此外,我们还对Mask RCNN框架进行了调整,以更好地处理合成SSS数据的独特特性,增强了水雷检测任务中语义建模的有效性。我们还提供了不同合成数据生成技术的比较分析,并评估了它们在Mask RCNN中作为实例分割任务的表现。为了弥补现有数据集的不足,我们生成了一个定制的SSS数据集,重点关注MLOs。我们的研究突出了在SSS图像中实现领域泛化的有效合成数据模型,在有限的标注数据情况下提高了模型性能。

问题描述

本研究的目的有两个。第一个目标是修改和调优合成数据生成模型,用于侧扫声纳图像第二个目标是评估合成数据生成模型在从合成数据到真实数据的领域泛化能力,使用分割模型进行评估

为了实现这些目标,收集了一组侧扫声纳图像数据集,包含两种类型的水雷:圆锥形水雷和圆柱形水雷,如II-A节所述。这些图像(原始侧扫声纳图像)用于训练合成数据生成模型。此外,还使用了一个包含光学水下图像的数据集,用于训练合成数据生成模型,目的是仅仅对比这两种数据源在任务中的表现。使用所有的合成数据和原始数据,结合来自不同来源的数据生成了多个数据集,并基于这些数据集训练了一个语义分割模型,并对其进行了评估。

A. 数据集

尽管SSS图像是本研究的主要焦点,但我们也尝试了使用光学水下数据集生成的合成图像。我们使用了水下图像语义分割(SUIM)数据集 [18],该数据集包含超过1500张像素级标注的光学图像,使用光学相机拍摄,覆盖八种不同的物体类别:海床、人类潜水员、无脊椎动物珊瑚礁、水生植物、沉船/遗迹和脊椎鱼类。图像的分辨率为1906 × 1080。

由于缺乏开源的SSS数据,我们创建了一个包含MLOs(类似水雷物体)的新数据集。数据采集使用了Starfish454 OEM设备,频率为450KHz,安装在ROV上,以及Sea Scan ARC Scout MkII设备,频率为600 KHz和1200 KHz,安装在AUV上。这些侧扫声纳图像是通过在封闭水域和港口部署圆柱形和截锥形的类水雷物体获得的。图像是在不同动态条件下捕获的,如不同的深度、距离和方位。共捕获了461张图像,其中包括269张圆柱形水雷图像和192张圆锥形水雷图像

III. 方法论

本节首先讨论了合成数据生成模型和所使用的超参数。接着,解释了语义分割模型和所使用的训练数据。图4展示了带有Mask RCNN的扩散模型的架构概述。绿色框表示工作流中的可训练部分,蓝色框表示用于训练的数据集。“原始数据集”指的是真实的SSS图像数据集。“合成数据集”表示通过扩散模型生成的图像。

比较的合成数据生成模型包括DCGAN和使用不同噪声调度器(DDPM和DDIM)的扩散模型。DCGAN [19] 是一种主要用于图像生成的模型。它在生成器和判别器中都使用深度卷积神经网络。在我们的实验中,我们使用了传统的DCGAN损失函数,如[19]中所给出。

扩散模型 [20] 在生成高质量图像方面与GANs竞争,通过从初始分布中重构数据。其核心是前向加噪过程和反向去噪过程之间的精彩互动 [21]。在[22]中,提出了一种算法来建模概率分布,允许精确的采样和概率评估。该算法专注于估计马尔可夫扩散链的逆过程,将数据映射到噪声分布。
在这里插入图片描述
在这里插入图片描述
献中有两种流行的扩散模型方法:去噪扩散概率模型(DDPM)[21] 和去噪扩散隐式模型(DDIM)[23]。DDPM在生成高质量图像方面表现优异,不需要对抗性训练,但由于其马尔可夫链模拟的计算开销较大,需要1000步才能获得高质量的结果。为了解决这一问题,DDIM引入了非马尔可夫扩散,使得采样更快(50-100步),同时保持竞争力的图像质量。然而,这种效率的提升以稳定性和灵活性为代价,因为DDIM需要调节参数,并且图像质量可能比DDPM低。相比之下,DDPM确保了更好的图像质量和稳定性,尽管采样较慢。

经过几轮超参数调优,获得了稳定的结果,所使用的超参数如下:训练时使用了来自每种矿山类型的100张原始数据集图像。扩散模型(DDPM和DDIM)训练了200个epoch。beta的起始值和结束值分别设置为0.0001和0.02,beta调度器设置为线性模型。DCGAN模型训练了50个epoch(直到收敛)。所有模型的批次大小为16。
在这里插入图片描述
一旦使用合成模型创建了数据集,就在这些数据集上训练了一个语义分割模型,即Mask RCNN [24]。Mask RCNN具有用于特征提取的骨干网络、用于边界框提议的区域提议网络(RPN),以及用于像素级分割的Mask Head。骨干网络捕捉分层特征,而RPN生成候选物体提议。此次实验仅使用了圆锥形矿和侧扫声纳图像。由于在IV-B中解释的原因,DCGAN生成的数据没有进一步使用。总共使用了600张图像,其中200张来自DDIM和DDPM模型生成的图像,200张来自原始数据集(经过增强)的图像,这些图像经过标注后,用于训练语义模型。所有标注均为手动提供。通过DDIM、DDPM和原始图像的组合创建了七个数据集,即:原始、DDPM、DDIM、DDPM+DDIM、DDPM+原始、DDIM+原始、DDPM+DDIM+原始为了验证,使用了一组新的100张原始圆锥形矿图像。SSS语义分割模型训练了50个epoch,批次大小为4,使用二元交叉熵+焦点损失(BCE + Focal)。初始模型权重来自在MS-COCO数据集上预训练的模型。

IV. 结果与讨论

在本节中,我们对生成方法GAN和扩散模型(DDPM和DDIM)进行了详细的定性和定量比较,涵盖了光学图像和侧扫声纳图像(SSS)。生成图像的质量通过启发式指标进行评估,如Frechet Inception Distance(FID)、Kernel Inception Distance(KID)、Inception Scores(IS)和Object Reconstruction Rate(ORR)。进一步地,呈现了DDPM和DDIM的定性评估。接着,对它们在语义分割领域泛化性能的评估也进行了介绍。使用的指标包括不同IOU下的平均精度(AP)和精度与IOU阈值曲线下的面积(AUPC)得分。

A. 评估指标

如前所述,我们采用启发式标准来评估生成模型的性能。FID的计算如公式4所示:
在这里插入图片描述

其中,µ表示特征向量的均值,Σ表示图像的协方差矩阵。

KID的计算如公式5所示:
在这里插入图片描述

其中,xi和yi分别是实际(经验)特征表示和一般特征表示。核函数k的选择可以有所不同,但常用的是高斯(RBF)核,如公式6所示。

在这里插入图片描述

对于ORR,我们通过计数具有清晰边界和阴影的独特地雷图像来定性评估图像质量。为了评估图像中的噪声量及其对语义分割模型的影响,我们计算图像中像素的标准差和信噪比(SNR)值。然后,信噪比(SNR)由以下公式给出:
在这里插入图片描述

其中,Ps表示信号,通过计算所有像素值的均值来得出,Pn表示噪声,通过计算所有像素值的标准差来得出。这个公式通常以分贝(dB)表示,以便为SNR值提供更易读的尺度。

最后,使用标注数据训练的语义模型进行下游分析的测试。使用不同IOU下的平均精度(AP)和精度与IOU阈值曲线下的面积(AUPC)得分来分析性能。相关公式如公式8所示。TP表示真正例,FP表示假正例。
在这里插入图片描述

B. 结果

我们首先比较了应用于光学图像与侧扫声纳(SSS)图像的模型性能。由于缺乏公开的包含地雷类物体(MLOs)的光学数据集,我们的重点是评估模型生成合成数据的能力及其在这些数据集上的表现。我们的定量分析显示,基于光学图像训练的模型比基于SSS图像训练的模型表现差。定性结果也表明,光学图像由于容易捕捉到过多的背景特征,常常遮挡了MLO的关键细节,使得它们更难以被清晰区分和表示。

光学图像虽然在生成合成图像时较为方便,但相比于SSS图像,其FID得分更高,表明重建的准确性较低。这个问题可能源于光学图像在低光、尘土和水面干扰的挑战性环境中的清晰度较差,而SSS图像则更能应对这些问题。SSS图像的优越性能进一步证明了它们在MLO检测中的适用性。

从表I中的结果可以看出,DDPM在数据生成方面的表现优于DDIM,这从较低的FID和KID得分中可以看出。然而,我们也看到推理时间几乎相差10倍,DDIM表现得更好。dcGAN在所有3个指标上一直表现较差,但具有最低的推理时间。

在这里插入图片描述

对生成图像的视觉评估也进行了;图3中展示了部分采样图像的例子。具体来说,DDPM在渲染地雷及其阴影方面表现出色,这从ORR得分中可见一斑。特别地,DDIM生成的图像显示出明显的噪声,如图3(a)和(d)所示。相比之下,DDPM生成的图像(见图3(b)和(e))呈现出明确的边界和最小的噪声。表II中的结果支持了这些结论。此外,DCGAN模型生成的图像准确地重建了背景,如图3(c)和(f)所示。表I中的ORR值进一步表明,这些合成图像难以捕捉到像地雷和阴影这样的关键细节。因此,由于ORR值极低,DCGAN生成的图像不适合用于分割任务。
在这里插入图片描述
我们还评估了扩散模型对噪声的鲁棒性。与DDPM生成的图像相比,DDIM生成的图像表现出更高的噪声水平。表II说明了这一点;与DDPM相比,DDIM的噪声水平大约高出10%,并且SNR降低了3%。
在这里插入图片描述

语义模型的结果呈现出有趣的结果,如表III所示,结果揭示了性能趋势的逆转。尽管DDPM在图像生成质量上表现明显更好,但DDIM生成的图像数据集在从合成到真实的领域泛化上表现优于DDPM。观察结果发现,结合所有三种数据集会获得最有利的结果。然而,在所有使用的指标中,当模型仅在DDIM数据集上训练时,其表现始终优于基于DDPM的同类数据集。仅使用合成图像训练时,性能几乎提高了2倍,而在原始+合成图像的组合上训练时,性能提高了大约14%。最佳结果出现在DDPM+DDIM+Original组合数据集上,AUPC为0.264,紧随其后的是DDIM+Original组合,AUPC为0.257。这表明将DDPM图像添加到数据集中并未产生太大影响。最低的结果是仅使用DDPM时,AUPC为0.096。
在这里插入图片描述
在这里插入图片描述

DDIM模型向采样图像中注入噪声,部分解释了观察到的结果变异性。以前的研究(包括[25]、[26])表明,添加噪声并增加变化可以增强语义分割模型的泛化能力,尽管这种噪声可能会导致更高的FID和KID得分。结果表明,噪声的添加有助于阻止由正则化引起的过拟合([26])。

V. 结论

本文探讨了生成侧扫声纳(SSS)图像的方法,特别是针对Syn2Real(从合成到真实)领域泛化。我们的目标是弥合在合成数据上训练与在真实世界SSS数据上取得良好表现之间的差距。

我们研究了两种生成模型:GAN和扩散模型。虽然这两种模型都在光学图像和SSS图像中进行了探索,但GAN生成的图像和光学图像的局限性使我们将重点放在SSS数据和扩散模型上。我们在下游任务中取得了显著的性能提升。将合成数据与原始数据集结合,使用Mask R-CNN进行语义分割时,分别获得了83.3%的AP和0.264的AUPC得分。通过在训练中同时使用合成图像和原始图像,我们可以看到性能比仅在原始图像上训练的模型提高了约60%。这表明,扩散模型可以生成多样化的合成数据,显著提高领域泛化能力和水下矿山检测的整体性能。

我们的分析表明,DDIM采样方法生成的合成SSS图像在领域泛化上最为有效。这是因为DDIM最终生成的图像包含更高程度的噪声,从而导致数据集更加多样化且具有更强的泛化能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/979793.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

如何使用Docker搭建哪吒监控面板程序

哪吒监控(Nezha Monitoring)是一款自托管、轻量级的服务器和网站监控及运维工具,旨在为用户提供实时性能监控、故障告警及自动化运维能力。 文档地址:https://nezha.wiki/ 本章教程,使用Docker方式安装哪吒监控面板,在此之前,你需要提前安装好Docker. 我当前使用的操作系…

微服务学习(1):RabbitMQ的安装与简单应用

目录 RabbitMQ是什么 为什么要使用RabbitMQ RabbitMQ的安装 RabbitMQ架构及其对应概念 队列的主要作用 交换机的主要作用 RabbitMQ的应用 通过控制面板操作(实现收发消息) RabbitMQ是什么 RabbitMQ是一个开源的消息队列软件(消息代理…

综合实验处理表格

新建excel表格,输入信息,另存为csv文件。 利用notepad打开csv文件,可以观察格式 目标:通过编程处理文件,实现对数据的处理,成绩求和以及评价 对数据逐行处理,读一行,处理一行&#…

【leetcode hot 100 560】和为K的子数组

解法一&#xff1a;用左右指针寻找字串&#xff0c;如果和>k&#xff0c;则减少一个数&#xff08;left&#xff09;&#xff1b;如果和<k&#xff0c;则加上一个数&#xff08;right&#xff09;。 class Solution {public int subarraySum(int[] nums, int k) {int nu…

STM32CubeMx DRV8833驱动

一、DRV8833驱动原理 ​ STBY口接单片机的IO口&#xff0c;STBY置0电机全部停止&#xff0c;置1才能工作。STBY置1后通过AIN1、AIN2、BIN1、BIN2 来控制正反转。 AIN1AIN2电机状态00停止1speed反转speed1正转11停止 其中A端&#xff08;AIN1与AIN2&#xff09;只能控制AO1与…

Android 图片压缩详解

在 Android 开发中,图片压缩是一个重要的优化手段,旨在提升用户体验、减少网络传输量以及降低存储空间占用。以下是几种主流的图片压缩方法,结合原理、使用场景和优缺点进行详细解析。 效果演示 直接先给大家对比几种图片压缩的效果 质量压缩 质量压缩:根据传递进去的质…

JavaWeb后端基础(3)

原打算把Mysql操作数据库的一些知识写进去&#xff0c;但是感觉没必要&#xff0c;要是现在会的都是简单的增删改查&#xff0c;所以&#xff0c;这一篇&#xff0c;我直接从java操作数据库开始写&#xff0c;所以这一篇大致就是记一下JDBC、MyBatis、以及SpringBoot的配置文件…

ArcGIS Pro技巧实战:高效矢量化天地图地表覆盖图

在地理信息系统&#xff08;GIS&#xff09;领域&#xff0c;地表覆盖图的矢量化是一项至关重要的任务。天地图作为中国国家级的地理信息服务平台&#xff0c;提供了丰富且详尽的地表覆盖数据。然而&#xff0c;这些数据通常以栅格格式存在&#xff0c;不利于进行空间分析和数据…

TP-LINK路由器如何设置网段、网关和DHCP服务

目标 ①将路由器的网段由192.168.1.XXX改为192.168.5.XXX ②确认DHCP是启用的&#xff0c;并将DHCP的IP池的范围设置为排除自己要手动指定的IP地址&#xff0c;避免IP冲突。 01-复位路由器 路由器按住复位键10秒以上进行重置操作 02-进入路由器管理界面 电脑连接到路由器&…

基于Spring Boot的供应商管理系统设计与实现(LW+源码+讲解)

专注于大学生项目实战开发,讲解,毕业答疑辅导&#xff0c;欢迎高校老师/同行前辈交流合作✌。 技术范围&#xff1a;SpringBoot、Vue、SSM、HLMT、小程序、Jsp、PHP、Nodejs、Python、爬虫、数据可视化、安卓app、大数据、物联网、机器学习等设计与开发。 主要内容&#xff1a;…

大模型WebUI:Gradio全解12——LangChain原理、架构和组件(3)

大模型WebUI:Gradio全解12——LangChain原理、架构和组件(3) 前言本篇摘要12. LangChain原理及agents构建Gradio UI12.3 LangChain架构12.3.1 LangChain12.3.2 Integration Packages1. 概念2. 示例12.3.3 LangGraph1. 概念2. 示例12.3.4 LangGraph Platform1. 概览2. 优势分…

通过 PromptTemplate 生成干净的 SQL 查询语句并执行SQL查询语句

问题描述 在使用 LangChain 和 Llama 模型生成 SQL 查询时&#xff0c;遇到了 sqlite3.OperationalError 错误。错误信息如下&#xff1a; OperationalError: (sqlite3.OperationalError) near "sql SELECT Name FROM MediaType LIMIT 5; ": syntax error [SQL: …

【每天认识一个漏洞】url重定向

&#x1f31d;博客主页&#xff1a;菜鸟小羊 &#x1f496;专栏&#xff1a;Linux探索之旅 | 网络安全的神秘世界 | 专接本 | 每天学会一个渗透测试工具 常见应用场景 主要是业务逻辑中需要进行跳转的地方。比如登录处、注册处、访问用户信息、订单信息、加入购物车、分享、收…

SQL命令详解之数据的查询操作

目录 1 简介 2 基础查询 2.1 基础查询语法 2.2 基础查询练习 3 条件查询 3.1 条件查询语法 3.2 条件查询练习 4 排序查询 4.1 排序查询语法 4.2 排序查询练习 5 聚合函数 5.1 一般语法&#xff1a; 5.2 聚合函数练习 6 分组查询 6.1 分组查询语法 6.2 分组查询…

IDEA集成DeepSeek,通过离线安装解决无法安装Proxy AI插件问题

文章目录 引言一、安装Proxy AI1.1 在线安装Proxy AI1.2 离线安装Proxy AI 二、Proxy AI中配置DeepSeek2.1 配置本地部署的DeepSeek&#xff08;Ollama方式&#xff09;2.2 通过第三方服务商提供的API进行配置 三、效果测试 引言 许多开发者尝试通过安装Proxy AI等插件将AI能力…

Spring Boot3+Vue3极速整合: 10分钟搭建DeepSeek AI对话系统(进阶)

Spring Boot3Vue3极速整合: 10分钟搭建DeepSeek AI对话系统(进阶) 前言 在上次实战指南《Spring Boot3Vue2极速整合: 10分钟搭建DeepSeek AI对话系统》引发读者热议后&#xff0c;我通过200真实用户反馈锁定了几个问题进行优化进阶处理&#xff1a; 每次对话都需重复上下文背…

【Qt-信号与槽】connect函数的用法

&#x1f3e0;个人主页&#xff1a;Yui_ &#x1f351;操作环境&#xff1a;Qt Creator &#x1f680;所属专栏&#xff1a;Qt 文章目录 1.信号和槽的概念1.1 信号的本质1.2 槽的本质1.3 补充说明2. 信号和槽的使用2.1 connect函数介绍2.2 connect函数的简单使用2.2.1 图形化方…

服务器IPMI用户名、密码批量检查

背景 大规模服务器部署的时候&#xff0c;少不了较多的网管和监测平台&#xff0c;这些平台会去监控服务器的性能、硬件等指标参数&#xff0c;为了便于管理和控制&#xff0c;则需要给服务器IPMI带外管理添加较多的用户&#xff0c;这就需要对较多的服务器检查所对应的IPMI用…

数字内容体验平台核心技术八大对比评测

数字内容体验技术解析 在数字化浪潮中&#xff0c;数字内容体验的底层技术架构已成为企业提升用户粘性与运营效率的核心驱动力。当前行业主流的数据分析引擎通过实时采集用户交互数据&#xff0c;结合机器学习模型进行深度挖掘&#xff0c;可精准识别内容偏好与行为模式&#…

《动手学习深度学习》的笔记

1.什么是机器学习? 机器学习是:换句话说,我们用数据训练(train)模型。 数据不断的训练出比较好的模型。 1.2 机器学习的关键零件 1.学习的数据。 2. 如何转换数据的模型。 3.一个目标函数。 4.调整模型参数以优化目标函数的算法。 1,数据有什么组成? 数据=样本+…