计算机视觉——DiffYOLO 改进YOLO与扩散模型的抗噪声目标检测

概述

物体检测技术在图像处理和计算机视觉中发挥着重要作用。其中,YOLO 系列等型号因其高性能和高效率而备受关注。然而,在现实生活中,并非所有数据都是高质量的。在低质量数据集中,更难准确检测物体。为了解决这个问题,人们正在探索新的方法。例如,本文提出了一个名为 DiffYOLO 的框架。这可以提高低质量数据集上物体检测的准确性。

介绍

近年来,YOLO 被广泛应用于自动驾驶和医学图像处理等多个领域的物体检测任务中。例如,Alice Freudevaux 等人从卫星图像中检测车辆,Sudipto Paul 等人在核磁共振图像上识别脑肿瘤,Ethan Gruby 等人自动检测面部地标。然而,包括 YOLO 在内的物体检测模型仍然难以准确检测嘈杂图像中的物体。在高质量数据上训练出来的模型在噪声测试集上可能表现不佳。因此,本文提出了一个名为 DiffYOLO 的框架,旨在改进在高质量数据上训练的现有模型,提高它们在噪声测试集上的性能。该框架从预先训练好的扩散模型中提取特征,并将其纳入现有的目标检测模型,以提高它们对噪声的免疫力。实验结果表明,所提出的方法提高了在噪声图像中的性能。该方法有望以更少的资源实现更高的准确率,而无需自行训练模型。

相关研究

物体检测

物体检测是计算机视觉的基本任务之一,目前已经有许多方法可供参考。例如,有两步法(如 R-CNN 和快速 RCNN),也有一步法(如 YOLO);自 YOLOv1 以来,YOLO 更好、更快的模型不断涌现,如 YOLOx 和 PP-YOLOE。本文使用 YOLOv5 来提高噪声环境下的性能。

扩散模型

扩散模型旨在清除数据中的随机噪音。与以往的模型不同,扩散模型采用逐步实现目标的方法,每一步都使用深度学习来去除噪声。研究表明,扩散模型可以使其他模型更能抵御噪声。

抗噪

预先训练的模型很容易获得,但实际的目标检测需要清晰的图像。例如,在发送工业现场的图像时,传输过程中的问题、雾和阴暗天气都会造成噪音。因此,NoisyNet 和 IA-YOLO 模型等方法可以处理噪声。

建议方法

普通 YOLO 模型(YOLOv5)发现,图像噪声会影响物体检测。例如,很难检测到雨雾中的物体。因此,我们提出了一种新思路,以便在噪声环境中准确检测物体。

第一步是解释如何去除噪点。添加噪点前有一个准备过程,去除噪点后有一个后处理过程。这是一种清洁图像的方法,包括添加噪点的过程和去除噪点的过程。

接下来,利用(Dhariwal 和 Nichol,2021 年)提出的想法,提取图像特征。这包括找到图像的重要部分。这样就能生成具有特殊抗噪能力的图像。

最后,具有这种特殊能力的图像被用来训练普通的 YOLO 模型。这样,即使在嘈杂的图像中,普通模型也能准确检测到物体。使用这种方法,模型无需再次训练。这不仅节省了时间,还能在更多情况下使用。

试验

尝试并测试查找 PCB(印刷电路板)缺陷的方法,并将其与常规方法进行比较。

数据集

数据集 DeepPCB 包含 1500 张实际照片。其中包含印刷电路板中的常见故障(如断线、金属触点)。在本实验中,高质量照片被用来训练模型,并用不同类型的噪声进行测试。

实验结果

在实践中,为了有效地训练模型,某些特征被禁用。本文采用的方法不是生成特征,而是预先存储这些特征,并根据需要将其加载到模型中。

下表列出了检测结果。(a) Yolov5 模型的检测结果 (b) DiffYolo 模型的检测结果。

表 1:高质量数据集的检测结果

下表比较了两种模型在高质量数据集上的性能。

表 2:加西亚噪声下的检测结果

高斯噪声是随机添加到图像中的噪声,即从均值为 0 的高斯分布中随机添加到像素值中。这会导致整个图像出现轻微的模糊和细微的颜色变化。

表 3:使用椒盐噪声的检测结果

椒盐噪点是由图像中随机像素突然添加白色或黑色值造成的。这会导致亮点或暗点散布在图像中,从而降低图像的整体质量。

表 4:正噪声下的检测结果

在光线不足的条件下拍摄的图像中经常会出现 “占有噪声”。这种噪点是由遵循泊松分布的光强随机变化造成的。图像亮度的随机变化会降低图像质量。

每个表格都显示了模型在不同类型噪声和高质量数据集中的表现,通过比较结果,我们可以了解每个模型在不同情况下的表现。我们发现,当添加噪声时,模型的性能会下降,但 DiffYOLO 的性能优于基线。换句话说,某些方法可以使模型更能抵抗噪声。这种方法不仅能发现故障,还能提高模型本身的性能。

结论

本文提出了一种新方法来提高物体检测的准确性。实验结果表明,利用从这一特定模型中学到的信息,可以获得比通常更好的性能。这样就可以利用在高质量图像上训练的模型,在噪声环境中准确检测出物体。不过,人们也注意到,当使用模型的计算资源不足或数据容易变化时,这种方法就会受到限制。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/557543.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

axios 请求中断和请求重试

请求中断​ 请求已经发出去了,如何取消掉这个已经发出去的请求? 微信扫码体验一下 (说不定哪天你就用得上) 用途: 比如取消正在下载中的文件点击不同的下拉框选项,向服务器发送新请求但携带不同的参数&…

解决系统报错:此应用无法在你的电脑上运行

在开发过程中不知从何时起,使用电脑时过程中不断的都显示“此应用无法在你的电脑上运行”,让人非常恶心,一直以为是系统误操作了什么或误安了软件 百度的答案就是让你找到报错的软件用兼容模式运行。而我连报错的软件都不知道,让人…

盲人盲杖:科技革新,助力视障人士独立出行

在我们的社会中,盲人朋友们以其坚韧的精神风貌,生动诠释着生活的多样与可能。然而,当我们聚焦于他们的日常出行,那些普通人视为寻常的街道、路口,却成为他们必须面对的严峻挑战。如何切实提升盲人盲杖的功能&#xff0…

怎么检查3d模型里的垃圾文件---模大狮模型网

在处理3D模型时,经常会遇到一些不必要的垃圾文件,它们可能占据硬盘空间,增加文件大小,甚至影响模型的性能和质量。因此,及时检查和清理这些垃圾文件对于优化工作流程和提高效率非常重要。在本文中,我们将介…

利用Python进行大规模数据处理【第173篇—数据处理】

👽发现宝藏 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。 利用Python进行大规模数据处理:Hadoop与Spark的对比 随着数据量的不断增长&…

CSS中position属性总结

CSS中position属性的总结 如果我的文章看不懂,不要犹豫,请直接看阮一峰大佬写的文章 https://www.ruanyifeng.com/blog/2019/11/css-position.html 1 干嘛用的 用来定位HTML元素位置的,通过top、bottom、right、left定位元素 分别有这些值&a…

【DM8】ODBC

官网下载ODBC https://www.unixodbc.org/ 上传到linux系统中 /mnt下 [rootstudy ~]#cd /mnt [rootstudy mnt]# tar -zxvf unixODBC-2.3.12.tar.gz [rootstudy mnt]# cd unixODBC-2.3.12/ [rootstudy unixODBC-2.3.12]# ./configure 注意:若是报以上错 则是gcc未安…

双向链表(带头双向循环链表)的实现

前言:前面实现的单向链表,全称是不带头单向不循环链表。这里实现带头双向不循环链表,比单向链表好实现一点。 目录 链表的分类 单向链表与双向链表的比较: 双向链表的节点的定义: 多文件实现: List.h来…

B007-二维数组方法

目录 二维数组一维数组回顾二维数组定义与创建二维数组的遍历二维数组堆栈图特殊的char数组 方法main方法认识自定义方法调用同类中方法调用不同类中方法方法的参数方法的返回值方法签名方法重载 二维数组 一维数组回顾 二维数组定义与创建 二维数组的遍历 /*** 二维数组:* …

230元的通配符证书是最便宜的吗

随着互联网的发展,越来越多的人认为需要保护用户在网站中传输的数据,因此各个数字证书颁发机构颁发各种数字证书来为网站传输信息进行加密。其中通配符SSL证书是比较受欢迎的一款域名数字证书,这款SSL证书可以用一张证书保护主域名以及主域名…

为什么选择TikTok直播专线而不是节点?

TikTok直播已成为许多商家的重要营销手段,而网络质量作为营销直播效果的关键因素,使得商家们开始应用TikTok直播专线。虽然与节点相比,专线的价格稍高,但更多商家都倾向于选择TikTok直播专线。那么,为什么TikTok直播更…

Nginx内存池相关源码剖析(一)总览

剖析nginx的内存池源码,讲解原理实现以及该内存池设计的应用场景 介绍 Nginx内存池是Nginx为了优化内存管理而引入的一种机制。在Nginx中,每个层级(如模板、TCP连接、HTTP请求等)都会创建一个内存池进行内存管理。当这些层级的…

5款开源、美观、强大的WPF UI组件库

前言 经常看到有小伙伴在DotNetGuide技术社区微信交流群里提问:WPF有什么好用或者好看的UI组件库?,今天大姚给大家分享5款开源、美观、强大、简单易用的WPF UI组件库。 WPF介绍 WPF 是一个强大的桌面应用程序框架,用于构建具有丰富用户界面…

mysql 5.7分组报错问题 Expression #1 of ORDER BY clause is not in GROUP BY clause

解决方案: select version(), sql_mode;SET sql_mode(SELECT REPLACE(sql_mode,ONLY_FULL_GROUP_BY,)); 完美的解决方案是: 1 show variables like "sql_mode"; 2 3 set sql_mode; 4 set sql_modeNO_ENGINE_SUBSTITUTION,STRICT_TRANS_TABL…

编程新手必看,Python3中数据结构知识点及语法学习总结(21)

介绍:在Python3中,数据结构是组织和存储数据的有效方式,它们对于编写高效且可维护的代码至关重要。以下是对Python中常见内置数据结构的介绍: 字典(Dictionaries): 字典在Python中是一个非常核…

跟TED演讲学英文:How AI can save our humanity by Kai-Fu Lee

How AI can save our humanity Link: https://www.ted.com/talks/kai_fu_lee_how_ai_can_save_our_humanity Speaker: Kai-Fu Lee Date: April 2018 文章目录 How AI can save our humanityIntroductionVocabularyTranscriptSummary后记 Introduction AI is massively trans…

抖音爆火的产品都具备哪些特点,该如何选品?

抖音的崛起给许多创业者带来了商机,很多人选择在抖音开设小店。 对于拥有自己的小店的商家来说,如何提升商品曝光率是非常重要的。 而抖音选品广场就是一个非常好的平台。 抖音选品广场是抖音的一个分区,专门展示各种有特色的商品&#xf…

【若依前后端分离】仪表盘绘制

示例&#xff1a; 代码&#xff1a; InstrumentPanel.vue组件 <template><div><!-- 在这里放置你的图表组件 --><div ref"echarts" style"width: 100%; height: 400px;"></div></div> </template><script&g…

2024中国国际中医药健康服务博览会(7月深圳中医药展)

聚焦中医国粹&#xff0c;助力健康中国 2024第五届中国国际中医药健康服务&#xff08;深圳&#xff09;博览会 暨粤港澳大湾区中医药高质量发展大会 邀请函 时间&#xff1a;2024年7月31日-8月2日 地址:深圳会展中心&#xff08;福田&#xff09; 支持单位&#xff…

(2022级)成都工业学院数据库原理及应用实验四: SQL简单查询

写在前面 1、基于2022级软件工程/计算机科学与技术实验指导书 2、成品仅提供参考 3、如果成品不满足你的要求&#xff0c;请寻求其他的途径 运行环境 window11家庭版 Navicat Premium 16 Mysql 8.0.36 实验要求 在实验三的基础上完成下列查询&#xff1a; 1、查询所有…