BigGait: Learning Gait Representation You Want by Large Vision Models阅读笔记

于老师团队又有新作!!

0 Abstract

  • 现有的步态识别任务严重依赖上游任务所使用的多种显示步态表征(剪影图、姿态图、点云…),会导致严高额标注成本以及累计错误;
  • 文章提出了BigGait框架:
    • 挖掘基于多用途知识(all-purpose knowledge)的高效步态表征;
    • GRE(Gait Representation Extractor)将步态序列图通过无监督方式转化为隐式步态特征;
    • 在大部分的self-domain和cross-domain任务上取得sota。
      [图片]

1 Introduction

  • 目前,多数步态识别的方法有以下流程:
    • 首先使用上游模型对RGB的人体步态序列进行过滤,目的是去除无关背景等的影响;
    • 其次使用一些归纳偏置对步态表征进行精炼,例如size alignment、coordinate normalization;
  • 与以往的方式不同,文章基于Large Vision Models产生的task-agnostic knowledge隐式地构建步态表征,这受启发于:
    • LVM产生的多用途特征具有强大的判别性和泛化性;
    • LVM的自监督预训练避免了对特定任务的上游模型对使用,从而需不要昂贵的数据标注成本;
    • LVM的预训练式来自于web-scale data(任务无关),避免了上游任务的错误累积。
  • 文章提出的BigGait框架主要包括以下组成部分:
    • 以DINOv2作为任务无关的上游模型;
    • 以GaitBase作为下游模型;
    • 为了链接上下游模型,将多用途特征转化为有效的步态特征,提出了GRE作为链接:
      • Mask Branch:自主推断前景信息(人体步态),过滤背景信息的影响;
      • Appearance Branch:该分支直接来自于DINOv2的特征,其会引入纹理相关的特征,这对于步态识别来说是一种噪声;
      • Denoising Branch:沿空间维度引入平滑度约束(soft constraints),以减少高频纹理特征,更好保留步态特征。
        [图片]

2 Related Work

3 Method

3.1 Overview

[图片]

  • Input:使用pad and resize将帧序列每一帧图像的大小转化为224 * 448;
  • Upstream Model:DINOv2中的冻结ViT,使用ViT-S/14 (21M) 和 ViT-L/14 (300M);
  • Central Model:GRE module将all-purpose features转化为useful gait representations;
  • Downstream Model:对GaitBase进行小改进以接受双流输入;
    在这里插入图片描述

3.2 Gait Representation Extractor

  • Mask Branch:不仅去除背景的影响,同时让前景信息足够diverse和discriminative

    • m是一个双通道特征,模型选择激活更多位于图像中心的通道作为前景遮罩;
    • 采用二值化和闭操作减少潜在的空腔和断点(前景遮罩的质量更好);
      [图片]
  • Appearance Branch:步态模型倾向于强调明显不变的步态无关线索,而不是微妙的步态模式

    • Eap:通道卷积操作
    • fap保留了外观特征,对于步态识别用处不大,因此需要去噪
  • Denoising Branch:过滤无关特征,捕捉相关特征

    • smooth-loss,索贝尔算子,用于消除明显的高频信息,例如服饰图案和明显的条纹信息:
      [图片]

    • 单纯依靠索贝尔算子会造成像素特征过于相似从而失去多样性,为解决这个问题引入了基于信息熵的额外多样性损失(信息熵减少,维持通道特征多样性):
      [图片]

3.3 Visualization of Intermediate Representation

  • gait represen- tation based on soft geometrical constraints还需要更多的物理解释
    [图片]

4 Experiments

  • self-domain:训练测试集统一
    [图片]

  • cross-domain:训练测试集不统一(步态识别数据集的跨域问题比较严重,因此模型大部分泛化性能不强)
    [图片]

  • Attention map:BigGait只关注身体,特别fde关注运动部位,且在cross-domain体现出良好的泛化性
    [图片]

  • 消融实验:

    • 不同分支的影响
      [图片]

    • 去噪分支
      [图片]

    • 更换上游模型
      [图片]

5 Challenges and Limitations

  • 挑战:
    • 可解释性:本文方法与由清晰直观的物理属性定义的传统步态表示相比可解释性不足;
    • 纯度:在直接将RGB视频作为输入的步态方法中,反复出现的挑战涉及在步行序列中有效减少与步态无关的噪音。当试图在没有明确监督的情况下在基于LVM的步态识别中保持步态特征的纯度时(即没有mask或者本文介绍的约束进行辅助的时候),这项任务变得更加艰巨。
  • 本文局限性:
    • 不同的上游LVM对BigGait的影响只是初步探讨。这个问题值得持续研究;
    • GRE模块缺乏时空设计。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/456405.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

同态滤波算法详解

同态滤波是一种用于增强图像的方法,特别适用于去除图像中的照明不均和阴影。该算法基于照射反射模型,将图像分解为两个分量:照射分量(illumination component)和反射分量(reflection component)…

Visual Basic6.0零基础教学(3)—焦点概念和深入学习属性

焦点概念和深入学习属性 文章目录 焦点概念和深入学习属性前言一、什么是焦点(Focus)?焦点的特点 二、窗体属性一、窗体的结构二、窗体的属性三、事件四、方法 一.控件属性一. 标签 Label二.文本框 TextBox2.常用事件 三.命令按钮事件 总结 前言 今天我们来继续学习VB中的属性…

基于单片机的指纹采集识别系统设计

目 录 摘 要 I Abstract II 引 言 3 1 硬件选择与设计 5 1.1 总体设计及方案选择 5 1.1.1主控单片机选择 5 1.1.2传感器模块选择 6 1.1.3显示器模块选择 6 1.2 系统总体设计 7 2 系统硬件电路设计 8 2.1 系统主电路设计 8 2.1.1 主体电路设计 8 2.1.2 单片机最小系统设计 8 2.…

精品基于Uniapp+ssm停车场预约缴费微信小程序的设计与实现

《[含文档PPT源码等]精品微信小程序基于Uniappssm停车场微信小程序的设计与实现》该项目含有源码、文档、PPT、配套开发软件、软件安装教程、项目发布教程! 软件开发环境及开发工具: 开发语言:Java 后台框架:ssm 安卓框架&…

服务器将动态IP设置成静态IP(内部网络)

话不多说,直接上干货 打开终端,输入命令行:ifconfig,查看你的网卡配置,此次设置的第一个,如下: 打开配置文件,一般在/etc/sysconfig/network-scripts/文件夹下: 编辑配置文件:vi ifcfg-eno1 修改IP地址分配方式: (1&a…

阿里云国际配置DDoS高防(非中国内地)安全加速

DDoS高防(非中国内地)支持安全加速线路,可以实现中国内地地区用户对非中国内地业务加速访问的同时,提供大流量DDoS攻击防护能力。安全加速提供的清洗能力大于2 Tbps,可以有效保障业务访问速度和稳定性。 前提条件 您…

微前端框架 qiankun 配置使用【基于 vue/react脚手架创建项目 】

qiankun官方文档:qiankun - qiankun 一、创建主应用: 这里以 vue 为主应用,vue版本:2.x // 全局安装vue脚手架 npm install -g vue/clivue create main-app 省略 vue 创建项目过程,若不会可以自行百度查阅教程 …

【python】centos 8新装python3.10.0

1.python源码包准备 2.gcc环境安装 如果系统已具备,可以略过。 有的已经自带了gcc,但是如果编译时启动优化的话,如果gcc版本过老就必须要升级。 3.make环境安装 如果系统已具备,可以略过。 4.更新openssl版本(很重…

如何打开EDI文件?

使用EDI系统传输文件的过程中,用户可能会遇到这样的问题:如何打开EDI文件?电脑不在身边如何查看EDI文件?EDI文件未按照标准格式呈现如何梳理?为了解决上述问题,方便用户查看文件,知行之桥EDI系统…

Java Web程序的部署

写在前:要想将我们写好的项目让其他人可以访问,仅仅完成代码是不能直接运行的。这就需要在Linux系统上搭建Java web程序的运行环境。这里以我所做的博客系统为例,进行搭建。 1. 准备依赖 (1)JVM(JDK&#…

在unity中生成一个随机数

1.首先建立一个画布和空对象 2.创建脚本并将代码复制进去 using System.Collections; using System.Collections.Generic; using TMPro; using UnityEngine; public class suijishu : MonoBehaviour {public TextMeshProUGUI sjs;void Update(){if (Input.GetKeyDown(KeyCode.…

300m的视频如何制作二维码?扫码点击播放视频的在线技巧

如何快速将几十M或者几百M的视频文件做成二维码呢?用二维码来展示视频是现在很流行的一种方式,比如产品说明、自拍录像、企业介绍、使用教程等方面的内容,都可以通过这种方式来完成视频内容的传递。 其实视频生成二维码的方法没有想象中的那…

YOLOv9算法原理——使用可编程梯度信息学习想要学习的内容

前言 2023年1月发布YOLOv8正式版后,经过一年多的等待,YOLOv9终于面世了!YOLO是一种利用图像全局信息进行目标检测的系统。自从2015年Joseph Redmon、Ali Farhadi等人提出了第一代模型以来,该领域的研究者们已经对YOLO进行了多次更…

微信小程序问题定位——sourcemap文件

使用sourceMap在微信小程序中进行线上问题定位,主要可以通过以下步骤实现: 下载微信开发者工具首先,确保已经安装了微信开发者工具,这是进行小程序开发和调试的基础。登录微信公众平台并下载sourceMap文件:登录微信小…

【Redis】Redis常用命令一

1.keys:返回所有满足条件的key,比如: KEYS pattern时间复杂度:O(N),返回值:匹配pattern的所有key。 • h?llo 匹配 hello , hallo 和 hxllo • h*llo 匹配 hllo 和 heeeello • h[ae]llo 匹配 hello 和 …

java kafka客户端何时设置的kafka消费者默认值

kafka为什么有些属性没有配置却能正常工作,那是因为kafka-clients对有些消费者设置了默认值,具体看下ConsumerConfig类的静态模块,具体如下所示: kafka为什么有些属性没有配置却能正常工作,那是因为kafka-clients对有…

多线程(volatile)

volatile的功能 保证内存可见性禁止指令重排序 内存可见性 简单的理解 两(多)个线程同时针对一个变量进行操作, 一个线程读, 一个线程修改, 此时读到的值不一定是修改过后的值 即读线程没有感知到变量的变化 (其实是 编译器/JVM 对于代码在多线程情况下的优化进行了误判) 从 J…

景联文科技:提供行业垂直大模型训练数据

近年来,以大模型为代表的人工智能技术已成为国家科技实力竞争的焦点。其中垂直大模型作为重要方向,在相关政策引导及市场需求的驱动下,已展现出较强的发展活力。 行业垂直大模型是针对特定行业的需求和场景进行深度定制的。这意味着模型在训练…

【面试精讲】深克隆和浅克隆的实现方式?深克隆和浅克隆有什么区别?

【面试精讲】深克隆和浅克隆的实现方式?深克隆和浅克隆有什么区别? 目录 本文导读 一、浅克隆(Shallow Clone) 二、深克隆(Deep Clone) 1、递归使用clone()方法实现深克隆 2、使用序列化实现深克隆 …

深入解析HashMap:结构与哈希函数揭秘一

文章目录 一、HashMap的基本结构1.数组与链表的结构1.1 数组1.2 链表 2.红黑树的简单介绍3.Node节点的组成 二、HashMap的哈希函数1.hashCode()方法的作用2.位运算与哈希值的计算3.扰动函数的作用 思考:为什么HashMap源码中使用位运算 在Java编程语言中,…