2024/3/10周报

文章目录

  • 摘要
  • Abstract
  • 文献阅读
    • 题目
    • 问题
    • 创新点
    • 方法
      • Section1:运动员检测
      • Section2:行为识别
        • 输入层
        • 隐藏层
        • 输出层
    • 实验
      • 实验数据
      • 评估指标
      • 模型设置
      • 实验结果
  • 深度学习
    • 模糊逻辑系统
      • 概念
      • 模糊化
      • 模糊规则
      • 解模糊
  • 总结

摘要

本周阅读了一篇关于基于YOLO和深度模糊LSTM网络的篮球动作识别的论文,文章中作者使用YOLO模型检测球员动作,使用LSTM和模糊层的组合用于执行最终分类,该模型的优越性在SpaceJam和Basketball-51数据集上进行了验证。此外,还对模糊逻辑系统进行进一步的补充学习。

Abstract

This week, a paper about basketball action recognition based on YOLO and deep fuzzy LSTM network is readed. In this paper, the author uses YOLO model to detect players’ actions, and uses the combination of LSTM and fuzzy layer to perform the final classification. The superiority of this model is verified on SpaceJam and Basketball-51 data sets. In addition, the fuzzy logic system is further supplemented and studied.

文献阅读

题目

Basketball action recognition based on the combination of YOLO and a deep fuzzy LSTM network

问题

在体育领域,由于复杂的背景、运动员受阻的动作和照明条件不一致等因素,检测识别篮球运动员的动作仍然是一项艰巨的任务。
篮球手势识别主要有两种方法:基于惯性传感器的识别和基于图像采集的识别。基于惯性传感器的方法要求运动员佩戴传感器,该传感器收集发送到处理终端进行分析的数据。这种方法涉及很多设备,并不广泛适用。

创新点

1) 为了提高从含噪视频图像中提取篮球运动的能力,采用中值滤波作为预处理步骤来抑制噪声干扰。
2) 使用YOLO V4更好地从篮球视频图像中提取信息丰富的特征信息。
3) 使用包括LSTM单元和Type-2模糊逻辑的网络来执行分类。

将LSTM与Type-2模糊逻辑相结合可以通过允许更灵活的隶属函数和推理机制来进一步增强对噪声的鲁棒性。这导致通过去除对识别视频图像中的篮球动作没有贡献的特征信息来提高篮球姿势识别的准确性。

方法

Section1:运动员检测

首先进行数据预处理步骤,处理篮球图像中的噪声。然后使用YOLO v4模型检测运动员。YOLO v4是一个一级网络,包括the backbone, neck, head三个部分。主干用作特征提取网络,并从输入图像生成特征图,可以使用卷积神经网络(如VGG16或CSPDarkNet53)进行预训练。颈部用于连接主干和头部,并且由空间金字塔池化(SPP)模块和路径聚合网络(PAN)组成。颈部将来自骨干网络各层的特征图组合起来,并将它们作为输入发送到头部。头部然后处理合并的特征并预测边界框。
在这里插入图片描述
在这里插入图片描述

作者提出的模型中,CSPDarkNet-53被用作从输入图像中提取特征的主干。主干包括五个残差块模块,并且来自这些模块的特征图输出在网络的颈部合并。在颈部,SPP模块将低分辨率特征映射的最大池化输出与大小为1 × 1、5 × 5、9 × 9和13 × 13的内核连接起来,步长值为1。通过连接SPP模块的特征图,主干特征的感受野被扩大,提高了网络检测小物体的能力。这些连接的特征图然后使用PAN与高分辨率特征图合并。PAN创建自下而上和自上而下的路径以连接低级和高级特征,生成用于预测的若干组合特征图。YOLO v4网络包括三个检测头,每个检测头都是负责计算边界框的YOLO v3网络。

Section2:行为识别

使用LSTM和type-2 Fuzzy logic的组合来进行行为识别,通过使用2型模糊逻辑作为LSTM模型之上的附加层,该层将LSTM输出作为输入,并应用模糊推理对数据中的不确定性和不精确性进行建模。

该部分包括输入层、隐藏层和输出层,输入层接收来自YOLO v4的原始数据。此输入层的输出为隐藏层提供信息。隐藏层包括LSTM和Type-2模糊推理模型。采用的LSTM网络和模糊系统的结构如下图所示:
在这里插入图片描述
在这里插入图片描述

输入层

fuzzy logic模糊逻辑可以在输入和推理层面和神经网络集成,通过使用模糊集,输入可以不再是具体清晰的值或二进制信号,允许输入为不确定的、模糊的数据。模糊推理系统可以和深度学习模型一起训练。

在输入层,输入被模糊化以映射离散时间的非线性函数,输入结构描述如下:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

隐藏层

该层基于2型模糊推理引擎,通过从前一层获得的整个输入序列来创建时间向量,包括K节点,表示当前规则的强度。模糊隶属函数(MF)用于定义2型模糊集,其中给定集合中元素的隶属度表示为[0,1]范围内的模糊集。假设模型有N个内存单元,在表示当前时间的每个时间步t,网络维护使用以下等式计算的向量的集合:
在这里插入图片描述在这里插入图片描述

该结构可以根据时间序列数据集的维度进行调整、再次训练和修改。
存储单元的中点是一个简单的线性元件,具有自回归连接,将0和1之间的权重分配给模糊值。当没有其他输入时,此链接保持单元的当前状态。
另外,单元从输入单元和其它门接收输入,描述了模糊部分和用于模糊范围[0,1]中的所有门的sigmoid函数:
在这里插入图片描述

以下等式用于测量单元的输入(netc):
在这里插入图片描述

单元输入传递非线性函数g(x),它是一个逻辑函数,其标度模糊值在[− 3,3]范围内:
在这里插入图片描述

为了定义前因MF,使用考虑不确定收入的高斯分布来建立每个前因的主要MF。这可以用下面的公式表示:
在这里插入图片描述
在这里插入图片描述

输出层

模糊信息在该层进行解码。将模糊信息转换为1型模糊集,并最终转换为清晰值。这个转换过程是由模糊推理系统进行的,该系统从体系结构的最后一部分接收输入。当所有的值都变为非模糊时,它们就被转换成一个二维数组。为了实现类型归约过程,使用Karnik-Mendel算法:
在这里插入图片描述

整个算法流程如下:
在这里插入图片描述

实验

实验数据

为了证明所提出的模型的鲁棒性和通用性,作者在两个数据集上实现所提出的模型,即Basketball-51和SpaceJam 数据集。
SpaceJam数据集:
大约32560个示例,可以作为训练和测试阶段的基础。数据集中的每个视频包括15帧,帧速率为每秒10帧,分辨率为128 × 176像素。
包括篮球运动员的动作,分为两个部分。第一部分被称为关节数据集和特征样本,描述了单人姿势的关节位置。第二部分称为剪辑数据集,包括每个动作的RGB通道中的所有帧。
Basketball-51数据集:
包含51场NBA篮球比赛中录制的10,311个视频片段。这些片段被分类为八个类别标签:两分未命中、两分命中、三分未命中、三分命中、罚球未命中、罚球命中、中距离投篮未命中和中距离投篮命中。基于不同标签的数据集的数据分布如图所示:
在这里插入图片描述
在这里插入图片描述

评估指标

使用10-Fold交叉验证来验证结果,将数据随机分为K(10)个大小相等的部分,去掉一个部分(K),将该方法拟合到剩余的K-1个部分(联合),然后获得对被去掉的第K个部分的预测。采用了四个标准的指标,准确率,精度,召回率和F-措施,评估所提出的模型的有效性。此外还纳入了该领域常用的AUC(ROC曲线下面积)指标。这些度量可以基于以下等式来计算。

在这里插入图片描述
在这里插入图片描述

模型设置

下表是实验中使用的超参数值,在随机训练和验证集上使用随机梯度下降方法进行训练:
在这里插入图片描述

实验结果

Case Study 1: SpaceJam Dataset
该数据集包含10个不同的标记动作。基于该数据集的所有评价指标的实验结果见下表:
在这里插入图片描述

Case Study 2: Basketball‑51 Dataset
下表表示在Basketball-15数据集上获得的结果:
在这里插入图片描述

与其他网络(如Two-stream 3D network,3D ConvNet,ResC 3D,Yolo v4,EfficientNet-B 0,ShuffleNetV和JointFC)相比,作者提出的方法在识别准确性方面取得了显着提高,证实了使用YOLO v4与LSTM和模糊块的组合显着提高了识别准确性,并且能够最大限度地减少过拟合,提高网络训练的效率。

深度学习

模糊逻辑系统

概念

在这里插入图片描述

模糊是相较于传统的逻辑系统而言的。在传统逻辑中,非黑即白,就是0或者1,不是0,就是1,不存在其他的情况。而模糊逻辑,可以存在0到1之间的其他情况即灰色地带。

在模糊逻辑的眼中,大雨,小雨,和中雨之间是没有严格的界限的,也就是说某一种雨量的大小并不完全归属于某一个类,而是以隶属度来衡量的。比如对于10mm降雨,隶属于小雨的隶属度为0.5, 中雨的隶属度为0.4,大雨的隶属度为0.1;对于100mm降雨,小雨的隶属度为0, 中雨的隶属度为0.3,大雨的隶属度为0.7。

模糊流程由三个基本步骤组成,包括模糊化、模糊规则+推理方法、去模糊化。
其计算流程大致如下:
输入(采集明确数据)→ 模糊化(根据隶属度函数,如分段函数、分布函数,再从具体的输入,得到隶属度模糊集合(特征数据)) → 模糊规则库 + 推理方法 → 模糊结论 → 去模糊化

模糊化

将逻辑的输入数值(降雨量)转化成各个集合(小雨,中雨,大雨)的隶属度的过程就叫做Fuzzification,也是模糊逻辑的第一步。

模糊系统的输入是明确的数字。在模糊化的过程中,我们要将这些明确的值,根据隶属函数,对应到模糊集中的隶属度。隶属函数(或归属函数),就是把输入变量对应到模糊集合中某个介于0和1之间的值,求出隶属度。如果在给定集合中的隶属度是1,我们就说该输入数据对集合而言是绝对真。如果隶属度是0,则我们说对该集合而言为绝对假。如果隶属度介于0和1之间,则为某种范围的真,即某种程度为真。(例:有点高,即某种程度的高)
在这里插入图片描述

常见的隶属度函数包括:高斯隶属函数、广义钟型隶属函数、三角形隶属函数、梯形隶属函数、Z型隶属函数等。
在这里插入图片描述

模糊规则

将明确的输入都模糊化后,接着要做的是构建一组规则,以某种逻辑方式结合输入数据,生成某些输出结果。和传统逻辑运算一样,我们引入模糊逻辑运算符交集(AND)、联集(OR)以及补集(NOT)。对于模糊变量来说,OR逻辑运算符被定义为操作数中的最大值,AND逻辑运算符被定义成操作数中的最小值,NOT运算符则是1减去操作数的隶属度。在传统逻辑的布尔系统中,每条规则会逐一运算,直到有条规则为真为止,然后就开始运行此结论。在模糊逻辑的系统中,所有的规则都会同时进行运算,每条规则都会运行(因为每条规则都是部分真),然而,运行的强度或程度则各不相同。每条规则的前提的逻辑运算结果,会产生该规则结论的强度。换句话说,每条规则的强度代表的是输出的模糊集合中的隶属程度。

经过模糊逻辑运算后,我们可以得到多维真值表,根据每个维度的模糊结果来选择行动或者打分。我们以一个简单例子为例,是关于空战的例子,根据我机指向对手角度的好坏、距离对手相对距离大小,给出“方位/距离态势”评分,得分越高态势越有利,所以模糊逻辑建模如下图所示。
在这里插入图片描述

左边是两个模糊集合,分别是距离和指向角度,右边是模糊规则,表中的数字表示方位/距离态势评分,得分越高态势越有利。比如,如果经过输入数据模糊化,得到相对距离很近以及指向角度很正的模糊结果,我们就会查表得3分,即认为态势非常有利。

解模糊

当想用精确数值作为模糊系统的输出数据时,就需要解模糊的过程。在前面我们说过,每条规则都会得到某个输出模糊集合中的隶属程度。在推理得到的模糊集合中取一个最能代表这个模糊集合的单值的过程称作解模糊。常用的方法有最大隶属度法、最大平均法、面积均分法和重心法。
应用

  1. 利用神经网络,来学习、演化模糊规则库。类似数据挖掘的过程,模糊竞争学习算法,利用神经网络来增强的模糊计算系统。
  2. 利用模糊控制方法,不断改善神经网络的性能,如模糊BP算法:利用模糊计算增强的神经网络。

总结

人工神经网络具有较强的自学习和联想功能能力,人工干预少,精度较高,对专家知识的利用也较好;而模糊计算的特点有推理过程容易理解、专家知识利用较好、对样本的要求较低等。二者结合,有时能得到意想不到的好处。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/444232.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

131.分割回文串

// 定义一个名为Solution的类 class Solution {// 声明一个成员变量&#xff0c;用于存储所有满足条件的字符串子序列划分结果List<List<String>> lists new ArrayList<>(); // 声明一个成员变量&#xff0c;使用LinkedList实现的双端队列&#xff0c;用于临…

【Objective -- C】—— 自引用计数

【Objective -- C】—— 自引用计数 一. 内存管理/自引用计数1.自引用计数2.内存管理的思考方式自己生成的对象&#xff0c;自己持有非自己生成的对象&#xff0c;自己也能持有不再需要自己持有的对象时释放无法释放非自己持有的对象 3.alloc/retain/release/dealloc实现4. aut…

力扣--滑动窗口438.找到字符串中所有字母异位词

思路分析&#xff1a; 使用两个数组snum和pnum分别记录字符串s和p中各字符出现的次数。遍历字符串p&#xff0c;统计其中各字符的出现次数&#xff0c;存储在pnum数组中。初始化snum数组&#xff0c;统计s的前m-1个字符的出现次数。从第m个字符开始遍历s&#xff0c;通过滑动窗…

《YOLO5Face: Why Reinventing a Face Detector》为什么要重塑人脸检测器论文阅读

正好周末的时间天气也不错出去走走精神不错&#xff0c;回来读一篇论文这个论文之前查资料的时候看到的但是没有完整看下&#xff0c;今天正好花点时间整体看一下&#xff0c;下面是我自己阅读过程中使用翻译软件结合自己理解的阅读记录&#xff0c;感兴趣的话可以看下&#xf…

知识图谱 | 2023年图书馆学、情报学CSSCI期刊论文主题透视

数据来源 检索平台来源期刊年份有效数据中国知网大学图书馆学报国家图书馆学刊情报科学情报理论与实践情报学报情报杂志情报资料工作数据分析与知识发现图书馆建设图书馆论坛图书馆学研究图书馆杂志图书情报工作图书情报知识图书与情报现代情报信息资源管理学报中国图书馆学报2…

性能测试高阶内容:了解TPS和RT之间关系

引言 在开始今天的内容讲解之前&#xff0c;我们应该回顾一下&#xff0c;在我的全链路压测专栏中的第一篇&#xff0c;我就已经介绍了当前的性能测试在互联网企业中的重要性&#xff0c;已经性能在互联网行业中的占比是多少。 这个时候是不是会有同学问我&#xff0c; 你已经…

JVM-1

目录 1.基础知识 1.栈 2.本地方法栈 3.程序计数器 4.堆 5.方法区 6.JVM内存可见性 2.虚拟机类加载机制 1.加载 2.验证 3.准备 4.解析 5.初始化 6.使用 7.卸载 1.基础知识 JVM内存模型&#xff08;5种&#xff09;&#xff1a;栈&#xff0c;本地方法栈&#xff…

Java项目:44 ssm003在线医疗服务系统+jsp(含文档)

作者主页&#xff1a;舒克日记 简介&#xff1a;Java领域优质创作者、Java项目、学习资料、技术互助 文中获取源码 项目介绍 主要功能 前台登录&#xff1a; 注册用户&#xff1a;用户名、密码、姓名、联系电话 注册医生&#xff1a;医生工号、密码、医生姓名、职称、联系电话…

【Python】专栏文章索引

为了方便 快速定位 和 便于文章间的相互引用等 作为一个快速准确的导航工具 Python 目录&#xff1a; &#xff08;一&#xff09;装饰器函数 &#xff08;二&#xff09;牛客网—软件开发-Python专项练习 &#xff08;三&#xff09;time模块

数据结构与算法第三套试卷

1.删除链表节点 **分析&#xff1a;**首先用指针变量q指向结点A的后继结点B&#xff0c;然后将结点B的值复制到结点A中&#xff0c;最后删除结点B。 2.时间复杂度的计算 **分析&#xff1a;**当涉及嵌套循环的时候&#xff0c;我们可以直接分析内层循环即可&#xff0c;看内…

猫头虎分享已解决Bug || 批处理错误:BatchJobFailure, ProcessingDelay

博主猫头虎的技术世界 &#x1f31f; 欢迎来到猫头虎的博客 — 探索技术的无限可能&#xff01; 专栏链接&#xff1a; &#x1f517; 精选专栏&#xff1a; 《面试题大全》 — 面试准备的宝典&#xff01;《IDEA开发秘籍》 — 提升你的IDEA技能&#xff01;《100天精通鸿蒙》 …

太阳辐射环境模拟系统系统

太阳辐射环境模拟系统是一种高度专业化的设备&#xff0c;用于模拟太阳光的全谱段辐射&#xff0c;包括紫外线、可见光和红外线。这种系统的核心功能是在实验室条件下复制太阳的辐射条件&#xff0c;以评估材料、产品或设备在实际太阳辐射影响下的性能和耐久性。 应用领域&…

“比特币深夜冲破7万美元”!华尔街押注比特币:究竟是牛市墙头草,还是加密真信徒?

比特币ETF&#xff0c;使此次加密牛市与以往的繁荣、萧条周期截然不同。以往的周期往往由热衷风险的投机者以及最终崩盘的加密项目所驱动&#xff0c;例如无实物资产支持的加密货币借贷&#xff0c;以及一地鸡毛的ICO热潮。而现在&#xff0c;传统金融已经与加密世界联姻&#…

前端手册-实现挂坠灯笼效果

Unity3D特效百例案例项目实战源码Android-Unity实战问题汇总游戏脚本-辅助自动化Android控件全解手册再战Android系列Scratch编程案例软考全系列Unity3D学习专栏蓝桥系列ChatGPT和AIGC &#x1f449;关于作者 专注于Android/Unity和各种游戏开发技巧&#xff0c;以及各种资源分…

专题一 - 双指针 - leetcode 202. 快乐数 | 简单难度

leetcode 202. 快乐数 leetcode 202. 快乐数 | 简单难度1. 题目详情1. 原题链接2. 基础框架 2. 解题思路1. 题目分析2. 算法原理3. 时间复杂度 3. 代码实现4. 知识与收获 leetcode 202. 快乐数 | 简单难度 1. 题目详情 编写一个算法来判断一个数 n 是不是快乐数。 「快乐数」…

linux守护程序

概述 周末还要加班写代码&#xff0c;偷个懒发个刚刚写的守护进程&#xff0c;有一个小bug懒得处理&#xff0c;急着要用&#xff0c;发出来记录一下成果。 守护程序 网上很多介绍的&#xff0c;大家有兴趣自己去查查 上酸菜 #include <stdio.h> #include <stdli…

代码随想录刷题笔记-Day32

1. 最大子序和 53. 最大子数组和https://leetcode.cn/problems/maximum-subarray/ 给你一个整数数组 nums &#xff0c;请你找出一个具有最大和的连续子数组&#xff08;子数组最少包含一个元素&#xff09;&#xff0c;返回其最大和。 子数组&#xff1a;是数组中的一个连续…

Java学习笔记NO.18

T1.理工超市 &#xff08;1&#xff09;题目描述 编写一个程序&#xff0c;设计理工超市功能菜单并完成注册和登录功能的实现。显示完菜单后&#xff0c;提示用户输入菜单项序号。当用户输入<注册>和<登录>菜单序号时模拟完成注册和登录功能&#xff0c;最后提示…

多态的原理

通过监视可以发现&#xff0c;基类和子类的虚表指针指向的是不同的虚表&#xff08;监视窗口可以证实&#xff09;&#xff0c;而且虚表里面的函数地址也是不一样的。这就符合我们的预期了&#xff0c;因为多态的调用的时候&#xff0c;就是通过虚表指针去找到对应虚表里面的虚…

蓝桥杯练习系统(算法训练)ALGO-981 过河马

资源限制 内存限制&#xff1a;256.0MB C/C时间限制&#xff1a;1.0s Java时间限制&#xff1a;3.0s Python时间限制&#xff1a;5.0s 问题描述 在那个过河卒逃过了马的控制以超级超级多的走法走到了终点之后&#xff0c;这匹马表示它不开心了……   于是&#xff0c…