一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法与流程

一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法与流程

本发明涉及模式识别与计算机视觉领域,尤其涉及一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法。



背景技术:

视觉一直是人类获取外界信息的最重要、最直观的途径,据有关统计,人类获取信息的80%都是通过视觉。随着摄像头等图像传感器的质量不断上升,同时价格的不断下降,图像传感器得到大规模的部署和应用,每天都会因此产生海量的信息。单纯地依靠眼睛去获取所需要的信息已经不能满足人们对与新信息、新知识的要求。另外,随着计算机运算速度的提高、计算能力的进一步增强,以及图像处理算法的不断发展,计算机视觉技术应运而生。计算机视觉技术依托计算机或者其他嵌入式平台,利用图像处理、机器学习和深度学习等技术,对图像进行特定目标检测识别、图像切割和图像理解等处理,实现对图像中的视觉信息自动分析和智能处理,提取我们所感兴趣的信息。近年来,计算机视觉技术得到越来越多研究人员的青睐,是当前最活跃和最重要的一个方向。基于视频的人体行为识别作为计算机视觉的一个热门研究领域,旨在研究和理解视频中人的行为动作,包括人的单体行为动作、人与人之间的交互行为、人与环境的交互关系等,自动识别视频或者图片序列中的行为动作。

人体行为识别方法主要分为传统的机器学习和深度学习两大类方法。传统的机器学习主要算法流程为特征提取、特征编码、行为分类这三个步骤。深度学习主要有双流卷积网络(two-streamconvolutionalnetworks)及其衍生网络、3d卷积神经网络(3dconvolutionalneuralnetworks,3d卷积)和长短期记忆网络(long-shorttermmemory,lstm)等等。

当前安防场景下人体动作识别的困难之处包括:

(1)在安防场景下异常动作发生频率很低、数据收集和标注困难等问题,即无论是常规动作还是异常动作都存在多样且复杂的特点,进而导致类别内的多样性较高。

(2)传统的骨架建模方法通常依赖于手工制作的部件或遍历规则,导致表达能力有限与难以推广。

时间信息是视频动作识别的关键因素,在视频动作识别中,探索研究一种有效的运动表示方法是非常重要的。传统如3dhog、运动向量、密集轨迹等运动描述方法存在效率低下、准确率偏低等问题。



技术实现要素:

针对上述问题,本发明提供一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法,解决安防场景下异常动作发生频率很低、数据收集和标注困难;传统的骨架建模方法通常依赖于手工制作的部件或遍历规则,导致表达能力有限与难以推广;传统如3dhog、运动向量、密集轨迹等运动描述方法存在效率低下、准确率偏低等问题。

其首先对获取的安防场景下的人体动作分析数据集进行随机划分,分为为训练集和验证集;其次对训练集和验证集视频数据进行数据增强处理;接着对获取的和增强的数据集利用注意力机制进行关键帧筛选;然后对筛选出来的关键帧视频利用人体姿态估计模型框架进行转码和标注,为训练人体动作检测与识别模型做好准备;最后构建时空骨骼图卷积神经网络模型,并使用训练集进行训练并利用随机梯度下降进行优化网络参数权重,使用验证集进行神经网络模型的准确率预测。

本发明具体包括以下方案:

一种安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法,其特征在于,包括以下步骤:

步骤s1:对获取的安防场景下的人体动作分析数据集进行随机划分,分为为训练集和验证集;

步骤s2:对训练集和验证集中的安防视频数据进行数据增强处理;

步骤s3:对增强后的人体动作分析数据集利用注意力机制进行关键帧筛选;

步骤s4:对筛选出来的关键帧视频利用人体姿态估计模型框架进行转码和标注;

步骤s5:构建时空骨骼图卷积神经网络模型,使用训练集进行训练并利用随机梯度下降进行优化网络参数权重;

步骤s6:使用验证集进行融合注意力机制和时空骨骼图卷积神经网络模型的准确率预测。

优选地,步骤s1具体包括以下步骤:

步骤s11:获取安防视频数据构建人体动作分析数据集,对获得的安防视频数据进行标准化处理,将视频分辨率和帧率统一;

步骤s12:将所述人体动作分析数据集按照100:1的比例随机分为训练集和验证集。

优选地,步骤s2具体包括以下步骤:

步骤s21:对所述安防视频数据进行自适应随机遮挡增强;

步骤s22:对所述安防视频数据进行旋转变换增强;

步骤s23:对所述安防视频数据进行随机剪裁增强;

步骤s24:对所述安防视频数据进行对比度变换增强;

步骤s25:对所述安防视频数据进行长或宽拉伸增强;

步骤s26:对所述安防视频数据进行随机加噪增强;

步骤s27:对所述安防视频数据进行去噪增强。

优选地,步骤s3具体包括以下步骤:

步骤s31:从一个安防视频数据序列中选择n个视频帧构成一个视频帧集合;

步骤s32:将所述视频帧集合中的每张图片经过预训练的resnet50处理后得到n*2048*8*4的特征图;

步骤s33:将所述特征图送入多区域空间注意力模块得到多个关注不同行人的特征集;

步骤s34:将不同视频帧同一个行人的特征经过时域注意力模块进行处理;

步骤s35:在时域上进行聚合得到一个行人的一个向量表示,多个行人得到的多个向量连接后经过一个全连接降维后作为视频序列的特征,训练阶段使用oimloss训练,获得一个视频序列的关键帧。

优选地,步骤s4具体包括以下步骤:

步骤s41:对筛选出来的关键帧视频输入到openpose姿态估计系统中,并使用coco模型提取18个关键点坐标信息和概率;

步骤s42:将关键帧视频数据表示为(3,t,18,2)的张量,其中t为视频数据的帧数,并将每个关键帧视频通过重复填充到300帧,使一个特征对应一个json数据文件;

步骤s43:将提取完特征的全部所述json数据文件,转化并打包为一个关键帧视频文件对应一个json数据文件的格式;

步骤s44:对打包完的json数据文件进行人工标注,把关键帧视频对应的动作类型用标签进行标明。

优选地,在步骤s41当中,多人场景下,只选取置信度(所有关键点置信度均值)最高的两个人的关键点信息。

优选地,步骤s5具体包括以下步骤:

步骤s51:构造时空骨骼图卷积神经网络模型,采用图像卷积核公式:其中x表示位置,k表示内核大小,h表示卷积核高度偏移的坐标,ω表示卷积核纵向偏移的坐标,fin表示输入特征函数,fout(x)表示x处的输出特征函数,p表示抽样函数,w表示权重函数;

步骤s52:将给定的某帧内的节点按照人体结构进行连接,然后将此帧,按帧内每个节点和下一帧中对应节点进行连接;

步骤s53:使用所述训练集进行训练并利用随机梯度下降对网络参数权重进行优化,损失函数为:其中,j(θ)是损失函数,m代表每次取多少样本进行训练,i代表从1到m的循环参数,采用随机梯度下降进行训练,每次随机取一组样本,m=1,θ是参数,h(θ)为待拟合的函数,x是样本值,y是预测目标。

优选地,步骤s6具体包括以下步骤:

步骤s61:将所述验证集进行数据增强;

步骤s62:采用步骤s3和s4的方法对验证集使用注意力机制进行关键帧筛选并转码和标注,得到视频中关键帧的信息;

步骤s63:将步骤s62得到的视频中关键帧的信息传入所述融合注意力机制和时空骨骼图卷积神经网络模型,得到一个类别,将此类别与标注的结果进行比较,计算准确率。

与现有技术相比,本发明及其优选方案具有以下主要有益效果:(1)不仅可以扩大原始动作数据量,还可以增强模型的鲁棒性,进而提升最终的动作识别准确率。(2)较大程度地提升了骨架建模能力。不仅具有较强的表达能力,而且具有较强的泛化能力。

附图说明

下面结合附图和具体实施方式对本发明进一步详细的说明:

图1是本发明实施例整体流程示意图。

具体实施方式

为让本专利的特征和优点能更明显易懂,下文特举实施例,并配合附图,作详细说明如下:

如图1所示,本实施例整体流程包括以下步骤:

步骤s1:对获取的安防场景下的人体动作分析数据集进行随机划分,分为为训练集和验证集;

在本实施例中,所述步骤s1具体包括:

步骤s11:采取自建或者下载公用的安防领域数据集;对获得的视频数据统一进行处理,将大小缩放为340*256,帧数率调整为30帧/秒;

步骤s12:将数据集按照100:1的比例随机分为训练集和验证集。

步骤s2:对训练集和验证集视频数据进行数据增强处理;

在本实施例中,所述步骤s2具体包括:

步骤s21:对视频数据进行自适应随机遮挡增强;

步骤s22:对视频数据进行旋转变换增强;

步骤s23:对视频数据进行随机剪裁增强;

步骤s24:对视频数据进行对比度变换增强;

步骤s25:对视频数据进行长或宽拉伸增强;

步骤s26:对视频数据进行随机加噪增强;

步骤s27:对视频数据进行去噪增强;

步骤s3:对获取的和增强的数据集利用注意力机制进行关键帧筛选;

在本实施例中,所述步骤s3具体包括:

步骤s31:从一个安防视频数据序列中选择n个视频帧构成一个视频帧集合;

步骤s32:将所述视频帧集合中的每张图片经过预训练的resnet50处理后得到n*2048*8*4的特征图;

步骤s33:将所述特征图送入多区域空间注意力模块得到多个关注不同行人的特征集;

该多区域空间注意力模块的具体实现方式为:对于每张图,看作有32个2048维的空间特征,对于每个空间注意力模块,将2048*32的空间特征图经过d个神经元的全连接和relu降维得到dx32,然后再经过一个神经元的全连接得到一张图32个空间向量分数,经过softmax得到32个空间向量的权重,然后根据l个权重对l个空间特征进行加权求和,得到第n帧、第k个空间注意力模块的特征;

步骤s34:将不同视频帧同一个行人的特征经过时域注意力模块进行处理;时域注意力模块是为了关注到更多细粒度的信息,采用了n*k个权重、每帧视频的每个空间感受野一个单独权重的时域注意力方法。该模块具体实现为:将特征图经过一个神经元的全连接得到一个分数,然后经时域上的softmax得到时域权重;

步骤s35:在时域上进行聚合得到一个行人的一个向量表示,多个行人得到的多个向量连接后经过一个全连接降维后作为视频序列的特征,训练阶段使用oimloss训练,获得一个视频序列的关键帧。

步骤s4:对筛选出来的关键帧视频利用人体姿态估计模型框架进行转码和标注,为训练人体动作检测与识别模型做好准备;

在本实施例中,所述步骤s4具体包括:

步骤s41:对筛选出来的关键帧视频输入到openpose姿态估计系统中,并使用coco模型提取18个关键点坐标信息和概率;多人场景下,只选取置信度最高(所有关键点置信度均值)的两个人的关键点信息;

步骤s42:将视频数据表示为(3,t,18,2)的张量,其中t为视频数据的帧数,为方便起见,将每个视频通过重复填充到300帧,此时是一个特征一个json数据文件,即一个视频文件有多个特征数据。

步骤s43:将提取完特征的全部json格式文件,转化并打包为一个视频文件对应一个json文件的格式。

步骤s44:对打包完的json视频数据进行人工标注,把视频文件对应的动作类型用标签进行标明。为训练人体动作检测与识别模型做好准备。

步骤s5:构建时空骨骼图卷积神经网络模型,并使用训练集进行训练并利用随机梯度下降进行优化网络参数权重;

在本实施例中,所述步骤s5具体包括:

步骤s51:构造时空骨骼图卷积神经网络模型,采用图像卷积核公式:其中x表示位置,k表示内核大小,h表示卷积核高度偏移的坐标,ω表示卷积核纵向偏移的坐标,fin表示输入特征函数,fout(x)表示x处的输出特征函数,p表示抽样函数,w表示权重函数;

步骤s52:将给定的某帧内的节点按照人体结构进行连接,然后将此帧,按帧内每个节点和下一帧中对应节点进行连接,这样构造可使模型应用于具有不同节点数和节点连接关系的不同数据集;

步骤s53:使用训练集进行训练并利用随机梯度下降进行优化网络参数权重,损失函数为:其中,j(θ)是损失函数,m代表每次取多少样本进行训练,i代表从1到m的循环参数,采用随机梯度下降进行训练,每次随机取一组样本,m=1,θ是参数,h(θ)为待拟合的函数,x是样本值,y是预测目标。

步骤s6:使用验证集进行融合注意力机制和时空骨骼图卷积神经网络模型的准确率预测。

在本实施例中,所述步骤s6具体包括:

步骤s61:将验证集进行数据增强;

步骤s62:采用步骤s3和s4的方法对验证集使用注意力机制进行关键帧筛选并转码和标注,得到视频中关键帧的信息;

步骤s63:将步骤s62得到的视频中关键帧的信息传入所述融合注意力机制和时空骨骼图卷积神经网络模型,得到一个类别,将此类别与标注的结果进行比较,计算准确率。

本专利不局限于上述最佳实施方式,任何人在本专利的启示下都可以得出其它各种形式的安防场景下融合注意力机制和时空图卷积神经网络的人体动作识别方法,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本专利的涵盖范围。

完整全部详细技术资料下载
当前第1页1 2 
  • 该技术已申请专利。仅供学习研究,如用于商业用途,请联系技术所有人。
  • 技术研发人员:柯逍;柯力
  • 技术所有人:福州大学
  • 我是此专利的发明人
  • 上一篇:一种基于深度残差网络的文字透底现象去除方法与流程
  • 上一篇:一种用于瘦小型船尾船舶的节能水翼的制作方法

  • 该领域下的技术专家
  • 如您需求助技术专家,请点此查看客服电话进行咨询。
  • 1、李老师:1.计算力学 2.无损检测
  • 2、毕老师:机构动力学与控制
  • 3、袁老师:1.计算机视觉 2.无线网络及物联网
  • 4、王老师:1.计算机网络安全 2.计算机仿真技术
  • 5、王老师:1.网络安全;物联网安全 、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
  • 如您是高校老师,可以点此联系我们加入专家库。
相关技术
  • 基于深度学习先验的人脸表情识...
  • 基于视觉关系检测的煤矿综采工...
  • 虚拟形象控制方法、虚拟形象控...
  • 内指纹提取方法、装置、系统及...
  • 用于确定对象状态的方法、装置...
  • 一种基于Kinect装置的步...
  • 基于波形特征差异的电流互感器...
  • 一种基于特征融合和机器学习的...
  • 一种图片处理方法、装置及计算...
  • 一种基于改进VGG-16模型...
网友询问留言已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/285520.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

2024-01-01 力扣高频SQL50题目 练习笔记

1. 1661求机器平均运行时间 在做这道题的时候,我遇到了4个问题 # 求平均的问题 如何找到个数? -> 相减对应列值后,直接average 就行。因为avg就是自动确定要除的个数(当然要联合正确的group by 分组) # 怎么根据machine_id和process_id…

主流大语言模型集体曝出训练数据泄露漏洞

内容概要: 安全研究人员发现,黑客可利用新的数据提取攻击方法从当今主流的大语言模型(包括开源和封闭,对齐和未对齐模型)中大规模提取训练数据。当前绝大多数大语言模型的记忆(训练数据)可被恢…

004、变量与可变性

1. 变量与可变性 在Rust中,变量默认是不可变的,这一设计是为了让你安全方便地写出复杂、甚至是并行的代码。 当然,Rust也提供了可使用的可变变量的方法,这个待会讨论。 当一个变量是不可变时,一旦它被绑定到某个值上面…

【Python动漫系列】HelloKitty(完整代码)

文章目录 HelloKitty环境需求完整代码HelloKitty Hello Kitty是一个非常受欢迎的卡通人物,以其可爱的形象和广泛的产品系列而闻名于世。Hello Kitty的形象是一个没有嘴巴的小白猫,穿着蓝色连衣裙和红色蝴蝶结。她有一对大大的眼睛和一个小小的鼻子,看起来非常可爱。 Hello…

Linux基础知识点(五-信号)

一、信号的基本概念 1.1 信号的概念 信号(signal),又称为软中断信号,用于通知进程发生了异步事件,它是Linux系统响应某些条件而产生的一个事件,它是在软件层次上对中断机制的一种模拟,是一种异…

创新美食体验:从零开始的同城上门做饭APP开发指南

同城上门做饭APP为用户提供了一种全新的用餐方式。本文将带领读者从零开始,探索同城上门做饭APP的开发过程,深入了解技术细节和创新要点。 1.了解用户需求 在着手开发同城上门做饭APP之前,首要任务是深入了解目标用户的需求。调查用户对于美…

直接形式1(三阶)补偿器

直接形式1(三阶)补偿器 直接形式1(DF1)结构是一种常见类型的离散时间控制结构,用于实现被指定为极点零点集或z(传递函数)中的有理多项式的控制律。 请注意,系数已被调整以标准化分母中 z 的最高幂。 一般…

【漏洞复现】冰峰VPN存在敏感信息泄露漏洞

漏洞描述 冰峰VPN log/system.log模块日志信息泄露漏洞 免责声明 技术文章仅供参考,任何个人和组织使用网络应当遵守宪法法律,遵守公共秩序,尊重社会公德,不得利用网络从事危害国家安全、荣誉和利益,未经授权请勿利…

TinyEngine 服务端正式开源啦!!!

背景介绍 TinyEngine 低代码引擎介绍 随着企业对于低代码开发平台的需求日益增长,急需一个通用的解决方案来满足各种低代码平台的开发需求。正是在这种情况下,低代码引擎应运而生。它是一种通用的开发框架,通过对低代码平台系统常用的功能进…

yolov5简单手势识别

实验目的 实验要求只需要识别五个简单的手势即可,分别对应的一下五个动作 动作对应标签名点赞goodOKok单手比心love数字 5five数字8eight 使用yolov5实现目标检测功能,有一下几个主要步骤 环境配置(包括conda、labelimg、yolov5的下载&am…

2023海内外零知识证明学习资料汇总(二)(深入理解零知识证明篇)

工欲善其事,必先利其器 Web3开发中,各种工具、教程、社区、语言框架.。。。 种类繁多,是否有一个包罗万象的工具专注与Web3开发和相关资讯能毕其功于一役? 参见另一篇博文👉 2024最全面且有知识深度的web3开发工具、web3学习项目…

PACC:数据中心网络的主动 CNP 生成方案

PACC:数据中心网络的主动 CNP 生成方案 文章目录 PACC:数据中心网络的主动 CNP 生成方案PACC算法CNP数据结构PACC参数仿真结果参考文献 PACC算法 CNP数据结构 PACC参数 仿真结果 PACC Hadoop Load0.2 的情况: PACC Hadoop Load0.4 的情况&a…

旅游平台网页前后端

功能清单 游客功能 用户注册、登录登录权限拦截按名称搜索房间支付流程查看订单信息和状态评论预定过的房间,并自动修改订单状态查看统计剩余房间数量,数量为0时不可预定 管理员功能 房间分类管理 类型的删除、修改、查询(准备添加增添功能…

vivo 数据库备份恢复系统演化

作者:vivo 互联网数据库团队 - Han Chaobing 介绍 vivo 数据库备份恢复功能的演化,以及对备份文件的功能扩展。 一、概述 vivo互联网领域拥有的数据库组件分别为 MySQL、MongoDB、TiDB 等,其中MySQL集群占比绝大部分, MongoDB …

轻松提升软件性能:快速学习和使用Memcached

目录 1、前言 2、Memcached的简介 3、Memcached的安装与配置 4、Memcached的数据结构 5、Memcached的常用命令 6、Memcached的高级特性 7、Memcached在系统中如何使用 8、结语 1、前言 Memcached是一个广泛用于提升软件性能的开源内存缓存系统。它可以有效地减少对数据…

iOS问题记录 - iOS 17通过NSUserDefaults设置UserAgent无效(续)

文章目录 前言开发环境问题描述问题分析1. 准备源码2. 定位源码3. 对比源码4. 分析总结 解决方案补充内容1. UserAgent的组成2. UserAgent的设置优先级 最后 前言 在上篇文章中对该问题做了一些判断和猜测,并给出了解决方案。不过,美中不足的是没有进一…

JAVA开发中几个常用的lambda表达式!记得收藏起来哦~

😄 19年之后由于某些原因断更了三年,23年重新扬帆起航,推出更多优质博文,希望大家多多支持~ 🌷 古之立大事者,不惟有超世之才,亦必有坚忍不拔之志 🎐 个人CSND主页——Mi…

[蓝桥杯知识学习] 树链

DFS序 什么是DFS序 怎么求DFS序 进入操作,将有计数 出:可以理解为,没有孩子可以去了(不能,向下行动:对应于程序里的入栈),所以回到父结点(向上行动,对应于程…

关于解决引用第三方依赖突然失效的问题解决办法

目录 背景回顾解决办法结果 背景 出现该问题的背景是这样的。在项目中需要支持加载pdf文档的功能。所以采取了使用第三方PDF库的方法来实现加载pdf文档。集成完后,功能是正常的。后来过了一段时间,发现加载pdf的功能不能正常使用了,加载不出…

聊一下JVM调优

闲聊一下: 这个JVM 相信大家都了解过 但是很少用这个东西 但是面试 一些高级架构师又是必问的一些问题 之前一直不了解这个东西 感觉就是面试造火箭 实际拧螺丝 用于筛选人才 毕业这么多年 也是很少接触这些 就大学的时候学过 简单了解过一些底层 ,找工…