【超音速 专利 CN117710683A】基于分类模型的轻量级工业图像关键点检测方法

申请号CN202311601629.7
公开号(公开)CN117710683A
申请日2023.11.27
申请人(公开)超音速人工智能科技股份有限公司
发明人(公开)张俊峰(总); 杨培文(总); 沈俊羽; 张小村

技术领域

本发明涉及图像关键点检测技术领域,具体讲的是一种基于分类模型的轻量级工业图像关键点检测方法。

背景技术

工业关键点检测是指从工业场景中的图像或视频中自动识别出工业产品中的关键点位置,如机器人的末端执行器、零件的定位点等。传统的工业关键点检测算法需要大量的计算资源,并且往往需要训练大规模的数据集,因此在实际应用中存在着一定的局限性。因此迫切需要轻量级的工业关键点检测算法,使在计算资源有限的情况下也能够实现较好的关键点检测效果。
基于热图表示的模型需要多个开销较高的反卷积产生热图,因此速度慢,开销高。由于热图比原图小几倍,因此基于热图的方法会存在理论误差下界。而基于回归的方法受到噪声和随机性影响较大,导致结果不稳定。基于分类的模型不会产生热图,且分类的维度可以是原图尺寸,有更高的精度。分类模型受噪声和随机性影响较小,训练过程更稳定,模型更易收敛。

我的理解

一,将待检测图像输入特征提取网络,通过特征提取网络提取关键点的图像特征。
二,将图像特征输入网络输出头中,通过网络输出头输出关键点的预测横坐标、预测纵坐标和预测可见性。
三,在待检测图像上标注关键点,并将关键点映射到横坐标轴和纵坐标轴上,计算关键点的横坐标与预测横坐标的第一损失值、纵坐标与预测纵坐标的第二损失值以及真实可见性信息与预测可见性的第三损失值,根据第一损失值、第二损失值和第三损失值总损失值,并判断总损失值能否通过阈值,若不能则筛选掉该关键点。
四,所述特征提取网络包括步长为1的卷积和MobileNetV3small中的一层倒残差结构。
五,所述网络输出头包括纵坐标分类头、横坐标分类头和可见性分类头,所述纵坐标分类头预测关键点的纵坐标,所述横坐标分类头预测关键点的横坐标,所述可见性分类头预测关键点的可见性。
六,所述纵坐标分类头预测关键点的纵坐标包括以下步骤:
七,将图像特征经过横坐标方向步长为2、纵坐标方向步长为1的二维卷积和ReLU激活函数后,得到图像特征y1;
八,将特征y1经过横坐标方向步长为2、纵坐标方向步长为1的二维卷积和ReLU激活函数后,得到图像特征y2;
九,将特征y2横坐标方向的特征进行全局池化后,得到特征y3;
十,将特征y3经过一维反卷积后,得到特征y4;
十一,将特征y4经过一维反卷积和ReLU激活函数后,得到关键点的预测纵坐标。
十二,进一步的,所述横坐标分类头预测关键点的横坐标包括以下步骤:
a,将图像特征经过横坐标方向步长为1、纵坐标方向步长为2的二维卷积和ReLU激活函数后,得到图像特征x1;
b,将特征x1经过横坐标方向步长为1、纵坐标方向步长为2的二维卷积和ReLU激活函数后,得到图像特征x2;
c,将特征x2纵坐标方向的特征进行全局池化后,得到特征x3;
d,将特征x3经过一维反卷积后,得到特征x4;
e,将特征x4经过一维反卷积和ReLU激活函数后,得到关键点的预测横坐标。
十三,进一步的,所述可见性分类头预测关键点的可见性包括以下步骤:
将图像特征经过两次横坐标方向和纵坐标方向均为4的卷积,使图像特征的长宽变为原来的1/64,再将卷积后的图像特征进行全局化和全连接操作后,得到关键点的预测可见性。
十四,计算关键点的横坐标与预测横坐标的第一损失值和纵坐标与预测纵坐标的第二损失值,包括以下步骤:
将关键点映射到横坐标轴和纵坐标轴后,形成横坐标方向上的one-hot编码和纵坐标方向上的one-hot编码,再用交叉熵损失函数计算横坐标方向上的one-hot编码与横坐标预测的第一损失值,和纵坐标方向上的one-hot编码与纵坐标预测的第二损失值。
十五,计算关键点真实可见性信息与预测可见性的第三损失值的方法包括:
用二值交叉熵损失函数计算关键点真实可见性信息和预测可见性的第三损失值。
十六,总损失值为第一损失值、第二损失值和第三损失值的加权和,第一损失值、第二损失值和第三损失值的权重分别根据横坐标、纵坐标和可见性的预测难度确定,预测难度与权重成正比。


如果有不明白的,请加文末QQ群。

扩展阅读

视频课程

先学简单的课程,请移步CSDN学院,听白银讲师(也就是鄙人)的讲解。
https://edu.csdn.net/course/detail/38771

如何你想快速形成战斗了,为老板分忧,请学习C#入职培训、C++入职培训等课程
https://edu.csdn.net/lecturer/6176

相关推荐

我想对大家说的话
《喜缺全书算法册》以原理、正确性证明、总结为主。
按类别查阅鄙人的算法文章,请点击《算法与数据汇总》。
有效学习:明确的目标 及时的反馈 拉伸区(难度合适) 专注
闻缺陷则喜(喜缺)是一个美好的愿望,早发现问题,早修改问题,给老板节约钱。
子墨子言之:事无终始,无务多业。也就是我们常说的专业的人做专业的事。
如果程序是一条龙,那算法就是他的是睛

测试环境

操作系统:win7 开发环境: VS2019 C++17
或者 操作系统:win10 开发环境: VS2022 C++17
如无特殊说明,本算法用**C++**实现。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/796594.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

python制作甘特图的基本知识(附Demo)

目录 前言1. matplotlib2. plotly 前言 甘特图是一种常见的项目管理工具,用于表示项目任务的时间进度 直观地看到项目的各个任务在时间上的分布和进度 常用的绘制甘特图的工具是 matplotlib 和 plotly 主要以Demo的形式展示 1. matplotlib 功能强大的绘图库&a…

【网络安全】APDCL:IDOR + 账户接管

未经许可,不得转载。 文章目录 正文漏洞1:IDOR漏洞2:账户接管 正文 APDCL ,即印度阿萨姆邦电力分销公司(Assam Power Distribution Company Limited),是印度阿萨姆邦政府控制的公共部门企业&am…

亚马逊IP关联是什么?要怎么解决呢?

亚马逊不仅提供了广泛的商品和服务,也是许多企业和个人选择的电子商务平台。然而,与亚马逊相关的IP关联问题,特别是在网络安全和运营管理方面,经常成为使用亚马逊服务的用户和商家关注的焦点。通过了解亚马逊IP关联的含义、可能的…

AURORA仿真

AURORA 仿真验证 定义:AURORA是一种高速串行通信协议,通常用于在数字信号处理系统和其他电子设备之间传输数据。它提供了一种高效的方式来传输大量数据,通常用于需要高带宽和低延迟的应用中。AURORA协议通常由Xilinx公司的FPGA器件支持&#…

ctfshow-web入门-php特性(web96-web99)

目录 1、web96 2、web97 3、web98 4、web99 1、web96 试了下通配、转义、拼接、大小写都不行 这里使用绝对路径或者当前路径绕过: ?u./flag.php ?u/var/www/html/flag.php 还可以使用 php 伪协议: ?uphp://filter/resourceflag.php 2、web97 关…

102.qt qml-最全Table交互之多列固定、行列拖拽、自定义委托、标题交互使用教程

自定义实现的Table控件,支持跨qt版本,兼容qt5,qt6! 截图如下所示: 黑色风格如下所示: 视频演示入口:Qt QML QianWindowV2.5(新增曲线综合示例、QML最全Table交互示例、支持qt5/qt6)_哔哩哔哩_bilibili 1.示例页面入口…

【低照度图像增强系列(8)】URetinex-Net算法详解与代码实现(2022|CVPR)

前言 ☀️ 在低照度场景下进行目标检测任务,常存在图像RGB特征信息少、提取特征困难、目标识别和定位精度低等问题,给检测带来一定的难度。 🌻使用图像增强模块对原始图像进行画质提升,恢复各类图像信息,再使用目标检…

中创算力公益行 | 夏日炎炎送清凉,温暖童心筑梦行

这是一个关于爱与关怀的故事,也是一段关于成长与责任的旅程。在这个炎炎夏日,喧嚣与热浪交织,有些孩子,他们生活在偏远的乡村,用稚嫩的双肩承载着生活的重担,在这个本应享受无忧无虑童年的年纪,…

SpringBoot3.3.0升级方案

本文介绍了由SpringBoot2升级到SpringBoot3.3.0升级方案,新版本的升级可以解决旧版本存在的部分漏洞问题。 一、jdk17下载安装 1、下载 官网下载地址 Java Archive Downloads - Java SE 17 Jdk17下载后,可不设置系统变量java_home,仅在id…

【python】PyQt5事件传递,鼠标动作捕获,键盘按键捕获原理与应用实战

✨✨ 欢迎大家来到景天科技苑✨✨ 🎈🎈 养成好习惯,先赞后看哦~🎈🎈 🏆 作者简介:景天科技苑 🏆《头衔》:大厂架构师,华为云开发者社区专家博主,…

深度学习论文: MobileSAMv2: Faster Segment Anything to Everything

深度学习论文: MobileSAMv2: Faster Segment Anything to Everything MobileSAMv2: Faster Segment Anything to Everything PDF:https://arxiv.org/pdf/2312.09579 PyTorch: https://github.com/shanglianlm0525/PyTorch-Networks 1 概述 SAM模型应对两大分割任务的挑战&…

数字数据编码为数字信号/编码模式

~~~~~~~~~~~~~ 1 非归零编码【NRZ】 2 曼彻斯特编码 3 差分曼彻斯特编码 ~~~&#xff…

『C++成长记』vector模拟实现

🔥博客主页:小王又困了 📚系列专栏:C 🌟人之为学,不日近则日退 ❤️感谢大家点赞👍收藏⭐评论✍️ 目录 一、存储结构 二、默认成员函数 📒2.1构造函数 📒2.2拷贝…

Unity实现安卓App预览图片、Pdf文件和视频的一种解决方案

一、问题背景 最近在开发app项目,其中有个需求就是需要在app软件内显示图片、pdf和视频,一开始想的解决方案是分开实现,也就是用Image组件显示图片,找一个加载pdf的插件和播放视频的插件,转念一想觉得太麻烦了&#x…

集成excel工具:自定义导入监听器、自定义类型转换器、web中的读

文章目录 I 封装导入导出1.1 定义工具类1.2 自定义读监听器: 回调业务层处理导入数据1.3 定义文件导入上下文1.4 定义回调协议II 自定义转换器2.1 自定义枚举转换器2.2 日期转换器2.3 时间、日期、月份之间的互转2.4 LongConverterIII web中的读IV 其他注意事项应用场景:导入…

Canvas:实现在线动态时钟效果

想象一下,用几行代码就能创造出如此逼真的图像和动画,仿佛将艺术与科技完美融合,前端开发的Canvas技术正是这个数字化时代中最具魔力的一环,它不仅仅是网页的一部分,更是一个无限创意的画布,一个让你的想象…

万界星空科技MES系统:食品加工安全的实时监控与智能管理

万界星空科技MES系统通过集成多种技术和功能,能够实时监控食品加工过程中各环节的安全风险。以下是对该系统如何实现实时监控的详细分析: 一、集成传感器和数据分析技术 万界星空科技MES系统利用集成的传感器和数据分析技术,实时监控生产过程…

c++ - 多态

文章目录 一、多态的概念二、多态使用三、多态的原理 一、多态的概念 1、概念: 多态就是具有多种形态,可以理解为同一个行为不同对象去完成表现出不同的状态,如: 二、多态使用 1、构成多态的条件 (1)派…

硬件开发笔记(二十五):AD21导入电解电容原理图库、封装库和3D模型

若该文为原创文章,转载请注明原文出处 本文章博客地址:https://hpzwl.blog.csdn.net/article/details/140344547 长沙红胖子Qt(长沙创微智科)博文大全:开发技术集合(包含Qt实用技术、树莓派、三维、OpenCV…

[DiT] Scalable Diffusion Models with Transformers

1、目的 用transformer来替代U-Net backbone,提升生成效果 2、方法 Diffusion Transformers (DiTs) 1)结构 Latent Diffusion Models (LDMs) -> Transformer (Vision Transformer, ViT) based DDPM -> off-the-shelf convolutional VAE 2&#xf…