(论文阅读31/100)Stacked hourglass networks for human pose estimation

31.文献阅读笔记

简介

题目

Stacked hourglass networks for human pose estimation

作者

Alejandro Newell, Kaiyu Yang, and Jia Deng, ECCV, 2016.

原文链接

https://arxiv.org/pdf/1603.06937.pdf

关键词

Human Pose Estimation

研究问题

CNN运用于Human Pose Estimation,

重复自底向上、自顶向下推理。

早期的工作:使用稳健的图像特征(局部解释)和复杂的结构化预测(推断全局一致的姿态)来解决这些困难。

现在:普遍采用卷积神经网络作为其主要构建模块,很大程度上取代了手工制作的特征和图形模型。

任务:从RGB图像中对单个人的姿态进行关键点定位。

研究方法

“stacked hourglass” network:

该网络在图像的所有尺度上捕获和整合信息,基于可视化的池化和后续上采样的步骤来得到网络的最终输出。

不同于以前的设计,主要是在其更对称的拓扑结构。

连续地将多个沙漏模块端到端地放在一起,在单个沙漏上进行扩展。这允许跨尺度自下而上、自上而下的重复推断。结合中间监督的使用,重复的双向推理对网络的最终性能至关重要。

有些方法通过使用单独的管道来解决这个问题,即在多个分辨率下独立处理图像,然后在网络中合并特征。

作者选择使用skip layers的单一管道,以保留每个分辨率下的空间信息。

网络的输出是一组热图,对于给定的热图,网络会预测每个像素上出现关节的概率。

以 256x256 的全输入分辨率运行需要大量 GPU 内存,因此沙漏的最高分辨率(也就是最终输出分辨率)为 64x64。这并不影响网络生成精确联合预测的能力。整个网络从一个步长为 2 的 7x7 卷积层开始,然后是一个残差模块和一轮最大池化,将分辨率从 256 降到 64。

在图 3 所示的沙漏之前有两个残差模块。在整个沙漏过程中,所有残差模块都会输出 256 个特征。

使用 1x1 卷积来减少步骤是有价值的,使用连续的较小滤波器来捕捉更大的空间背景也是有好处的。例如,可以用两个独立的 3x3 滤波器代替 5x5 滤波器。

将一个沙漏的输出作为下一个沙漏的输入。

通过额外的 1x1 卷积将中间预测映射到更多通道,从而将中间预测重新整合到特征空间中。这些特征与前一个沙漏阶段输出的特征一起被添加回沙漏的中间特征中(如图 4 所示)。由此产生的输出可直接作为下一个沙漏模块的输入,从而生成另一组预测结果。在最终的网络设计中,使用了八个沙漏。值得注意的是,沙漏模块之间并不共享权重,而且所有沙漏的预测结果都使用相同的ground truth,因此会产生损失。

网络在确定哪个人值得注释时,无法获得足够的信息。为此,我们对网络进行了训练,使其只对位于正中心的人进行注释。

研究结论

在MPII上,所有关节的平均精度都有超过2 %的提高,对于更困难的关节,如膝盖和脚踝,平均精度提高了4 - 5 %

创新不足

当图像中有多个人物时,一致性问题就变得尤为重要。网络必须决定对谁进行注释,唯一信号就是目标人物的居中和缩放,相信输入会足够清晰,便于解析。遗憾的是,当人物距离很近甚至重叠时,这偶尔会导致模糊不清的情况,

额外知识

图像处理:

自下而上:高分辨率到低分辨率

自上而下:低分辨率到高分辨率

上:低分辨率 提供更多语义信息,具有更大的视野

下:高分辨率 有更多像素,提供更多细节信息

全卷积网络和整体嵌套架构,自下而上处理能力都很强(即提取语义信息),但是自上而下处理能力都很弱,只能对多尺度预测进行合并。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/143189.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【反编译系列】二、反编译 .pyc 文件(uncompyle6)

文章目录 【反编译系列】二、反编译 .pyc 文件(uncompyle6)1. 介绍2. 反编译Reference 【反编译系列】二、反编译 .pyc 文件(uncompyle6) 1. 介绍 .pyc 文件是 Python 将 .py 源代码编译后生成的字节码文件,主要有以下几个特点和…

火山引擎DataTester上线「集成工作台」功能,助力企业打造专属AB平台

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群 AB测试不仅是做增长的“利器”,也是企业优化效率、增加决策精确度的有效工具。随着国内企业服务市场需求的多元,企业对AB测试平台的“个性化…

如何实现可视化大屏——基于VChart

引言 在大屏产品中,可视化扮演着信息展示和传达、用户体验和互动、数据分析和决策支持、品牌展示和差异化、故事叙述和信息呈现等至关重要的角色。作为可视化图表的重要载体之一,大屏与智能BI产品不管是在产品设计,还是可视化设计的侧重点都…

YOLOv8-seg 分割代码详解(二)Train

前言 本文主要以源码注释为主,可以了解到从模型的输出到损失计算这个过程每个步骤的具体实现方法。 流程梳理 一、选取有效 anchor   以 640x640 的输入为例,模型最终有8400个 anchor,每个 anchor 都有其对应的检测输出(4n&am…

管理类联考——数学——汇总篇——知识点突破——代数——函数、方程——记忆——一元二次方程

——一元二次方程——【核心为“根”:求根,根的多少/判别式,根与系数,根的正负,根的范围/区间】 一元二次方程:只含一个未知数,且未知数的最高次数是2的方程,“元”是指方程中所含未…

出入库管理系统vue2前端开发服务器地址配置

【精选】vue.config.js 的完整配置(超详细)_vue.config.js配置_web学生网页设计的博客-CSDN博客 本项目需要修改两处: 1、vue开发服务器地址:config\index.js use strict // Template version: 1.3.1 // see http://vuejs-templa…

2012年08月16日 Go生态洞察:优雅的代码组织之道

🌷🍁 博主猫头虎(🐅🐾)带您 Go to New World✨🍁 🦄 博客首页——🐅🐾猫头虎的博客🎐 🐳 《面试题大全专栏》 🦕 文章图文…

开源会议通知H5页面邀请函制作源码系统+自动翻页 带完整的搭建教程

现如今,线上活动越来越频繁,而会议邀请函也成为了活动组织者不可或缺的工具。然而,传统的邮件、短信等方式发送邀请函已经无法满足现代人的需求。因此,开发一款现代化的、功能丰富的会议邀请函系统势在必行。下面源码小编将来给大…

全网最全synchronized锁升级过程

一、前言 在面试题中经常会有这么一道面试题,谈一下synchronized锁升级过程? 之前背了一些,很多文章也说了,到底怎么什么条件才会触发升级,一直不太明白。 实践是检验真理的唯一标准,今天就和大家一起实…

kafka+ubuntu20.04+docker配置

记录一次配置过程 安装docker 参加下面链接的第一部分 Ubuntu20.04使用docker安装kafka服务-CSDN博客 安装zookeeper docker run -d --name zookeeper -p 2181:2181 -v /etc/localtime:/etc/localtime wurstmeister/zookeeper安装kafka服务 docker run -d --name kafka …

react路由安装配置react-router-dom/‘Switch‘ is not defined报错解决

1.安装 npm install --save react-router-dom安装完成 新建两个页面并导出 app.js import Nav from ./components/Nav import Home from ./components/Home import { Link, Route, Switch } from react-router-domfunction App() {return (<div><div><p>&…

【2021集创赛】Arm杯一等奖作品—基于 Cortex-M3 内核 SOC 的动目标检测与跟踪系统

本作品介绍参与极术社区的有奖征集|秀出你的集创赛作品风采,免费电子产品等你拿~ 团队介绍 参赛单位&#xff1a;北京理工大学 队伍名称&#xff1a;飞虎队 指导老师&#xff1a;李彬 参赛杯赛&#xff1a;Arm杯 参赛人员&#xff1a;余裕鑫 胡涵谦 刘鹏昀 获奖情况&#xff1…

使用责任链模式实现登录风险控制

责任链模式 责任链模式是是设计模式中的一种行为型模式。该模式下&#xff0c;多个对象通过next属性进行关系关联&#xff0c;从而形成一个对象执行链表。当发起执行请求时&#xff0c;会从首个节点对象开始向后依次执行&#xff0c;如果一个对象不能处理该请求或者完成了请求…

侧击雷如何检测预防

侧击雷是一种雷击的形式&#xff0c;指的是雷电从建筑物的侧面打来的直接雷击。侧击雷对高层建筑物的防雷保护提出了更高的要求&#xff0c;因为一般的避雷带或避雷针不能完全保护住建筑物的侧面。侧击雷可能会对建筑物的结构、设备和人员造成严重的损害&#xff0c;甚至引发火…

酷开科技丨酷开系统,带你进入惊喜不断的影视世界!

随着科技的迅速发展&#xff0c;智能电视已经成为家庭娱乐的重要组成部分。而要说到智能电视&#xff0c;就不得不提到酷开系统&#xff0c;作为一款智能电视操作系统&#xff0c;酷开系统以其独特的功能和出色的使用体验&#xff0c;让观众们看到了到惊喜不断的影视世界。 如…

CRM系统:助力数据服务企业,打造核心竞争力

近年来&#xff0c;数据服务企业开始走入大众视野。作为企业管理应用热门选手——CRM客户管理系统&#xff0c;可以助力企业实时数据应用先行者&#xff0c;提升业务转化与协同效率&#xff0c;进一步打造核心竞争力。下面我们说说&#xff0c;CRM系统对数据服务企业的作用。 …

Stable Diffusion 是否使用 GPU?

在线工具推荐&#xff1a; Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 3D数字孪生场景编辑器 Stable Diffusion 已迅速成为最流行的生成式 AI 工具之一&#xff0c;用于通过文本到图像扩散模型创建图像。但是&#xff0c;它需…

使用 Stable Diffusion Img2Img 生成、放大、模糊和增强

在线工具推荐&#xff1a; Three.js AI纹理开发包 - YOLO合成数据生成器 - GLTF/GLB在线编辑 - 3D模型格式在线转换 - 3D数字孪生场景编辑器 Stable Diffusion 2022.1 Img5Img 于 2 年发布&#xff0c;是一款革命性的深度学习模型&#xff0c;正在重新定义和推动照片级真实…

云原生Kubernetes系列 | 通过容器互联搭建wordpress博客系统

云原生Kubernetes系列 | 通过容器互联搭建wordpress博客系统 通过容器互联搭建一个wordpress博客系统。wordpress系统是需要连接到数据库上的&#xff0c;所以wordpress和mysql的镜像都是需要的。wordpress在创建过程中需要指定一些参数。创建mysql容器时需要把mysql的数据保存…

linux系统下文件操作常用的命令

一、是什么 Linux 是一个开源的操作系统&#xff08;OS&#xff09;&#xff0c;是一系列Linux内核基础上开发的操作系统的总称&#xff08;常见的有Ubuntu、centos&#xff09; 系统通常会包含以下4个主要部分 内核shell文件系统应用程序 文件系统是一个目录树的结构&…