【GN】《Group Normalization》

在这里插入图片描述
ECCV-2018
Facebook AI Research
更多论文解读,可参考【Paper Reading】

文章目录

  • 1 Background and Motivation
  • 2 Related Work
  • 3 Advantages / Contributions
  • 4 Method
  • 5 Experiments
    • 5.1 Datasets and Metrics
    • 5.2 Image Classification in ImageNet
    • 5.3 Object Detection and Segmentation in COCO
    • 5.4 Video Classification in Kinetics
  • 6 Conclusion(own) / Future work


1 Background and Motivation

在这里插入图片描述

Batch normalization(BN) 在 batch size 很小的时候,效果下降的比较多,而目标检测或者分割等任务由于输入分辨率比较高,网络偏大时 batch-size 往往比较小,BN 发挥的作用减弱了

作者基于 many classical features like SIFT and HOG are group-wise features and involve group-wise normalization

提出了 Group Normalization,以此来减小小 batch-size 对 normalization 带来的影响

2 Related Work

在这里插入图片描述

  • Normalization
    LRN / BN / LN / IN / WN(weight normalization)
    LN 和 IN 属于 GN 的两个极端, effective for training sequential models (RNN/LSTM) or generative models(GAN),but have limited success in visual recognition
  • Addressing small batches
    Batch Renormalization(batch size 过小也不行)
  • Group-wise computation
    AlexNet / ResNeXt / MobileNet / Xception / ShuffleNet

3 Advantages / Contributions

提出 Group Normalization

4 Method

its computation is independent of batch sizes.
在这里插入图片描述

LN, IN, and GN all perform independent computations along the batch axis

GN 的两个极端就是 LN 和 IN

看看公式表达,减均值,除以标准差
在这里插入图片描述
打一巴掌来个糖,学两个参数弥补回来
在这里插入图片描述
i = ( i N , i C , i H , i W ) i = (i_N, i_C,i_H,i_W) i=(iN,iC,iH,iW)

在这里插入图片描述
S i S_i Si is the set of pixels in which the mean and std are computed, and m m m is the size of this set.

ϵ \epsilon ϵ 防止除以 0

BN,某通道下 NHW

在这里插入图片描述
LN,某 batch 下,CHW
在这里插入图片描述
IN,某通道,某 batch 下,HW
在这里插入图片描述
GN,某 batch 下,某组通道
在这里插入图片描述
G G G is the number of groups,默认 32

tensorflow 代码
在这里插入图片描述

5 Experiments

5.1 Datasets and Metrics

ImageNet:top-1 classification error
COCO Detection:mAP
COCO Segmentation:mmAP
Kinetics: accuracy

5.2 Image Classification in ImageNet

(1)Comparison of feature normalization methods

在这里插入图片描述
bs = 32 的时候,train error GN 最低,但是 val error 没有 BN 好,说明泛化性能没有 BN 好

作者的解释

BN’s mean and variance computation introduces uncertainty caused by the stochastic batch sampling, which helps regularization

32 组不知道每组通道数为多少,如果 32 的话, normalization 的数量和 bs = 32 的 BN 是一样的了,区别一个为 batch 轴的 32,一个为 channel 轴 的 32

在这里插入图片描述
bs = 32 的时候,没有BN 好

(2)Small batch sizes

在这里插入图片描述
在这里插入图片描述

bs 比较小的时候,GN 的优势发挥出来了,且 GN 对 bs 不敏感

优势,This will make it possible to train higher capacity models that would be otherwise bottlenecked by memory limitation

(3)Comparison with Batch Renorm (BR)

With a batch size of 4, ResNet-50 trained with BR has an error rate of 26.3%.

BN 27.3%

GN 24.2%

(4)Group division

在这里插入图片描述
对比了下 G 和 channel per group 的不同配置结果

(6)Deeper models

resnet101,32 bs 不如 BN,2 bs 比 BN 好

(7)Results and analysis of VGG models
在这里插入图片描述
conv5_3(the last convolutional layer)

normalization 还是比较重要的,GN 比 BN 效果更好

5.3 Object Detection and Segmentation in COCO

BS 比较小的任务上,属于 GN 的领域

(1)Results of C4 backbone
在这里插入图片描述
主干C4 特征图接分类回归分割头

(2)Results of FPN backbone
在这里插入图片描述
FPN 接分类回归分割头
在这里插入图片描述

long:iterations from 180k to 270k

(3)Training Mask R-CNN from scratch

在这里插入图片描述
对比 table6 的结果看,从头开始训练也是比 BN fine-tune 强的

5.4 Video Classification in Kinetics

在这里插入图片描述
在这里插入图片描述

6 Conclusion(own) / Future work

  • BN 的缺点 BN’s error increases rapidly when the batch size becomes smaller,原因 reducing the batch size can have dramatic impact on the estimated batch statistics
  • GN could be used in place of LN and IN and thus is applicable for sequential or generative models
  • BS 比较大的时候没有 BN 猛,BS 比较小的时候比 BN 猛

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/533789.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

小程序打开空白的问题处理

小程序打开是空白的,如下: 这个问题都是请求域名的问题: 一、检查服务器域名配置了 https没有,如果没有,解决办法是申请个ssl证书,具体看这里 https://doc.crmeb.com/mer/mer2/4257 二、完成第一步后&#…

vmware esxi6.0安装配置操作

系统安装及配置 在服务器上安装ESXI 6.0 提示是否继续安装 如果不想安装,按ESC后再按F11即可,稍后电脑会重启. 继续安装,则按回车键 按F11同意声明继续 选择将EXSI 安装到哪个硬盘上,我这里使用的是虚拟机,所以只有这一个选项 选择默认键盘布局,默认的美国键盘即可 设置root…

AI大模型探索之路-应用篇1:Langchain框架概述—快速构建大模型应用

目录 一、什么是LangChain? 二、LangChain解决了哪些问题? 三、LangChain总体架构 四、代码实践样例 总结 一、什么是LangChain? 为大模型应用提供简便之道。 LangChain,专为构建庞大的语言模型应用程序设计的框架&#xff0…

应用方案 | 低功率接地故障断路器(GFI)控制芯片D4147简介

应用领域 D4147主要用于三线制GFCI输出接口、GFCI芯片断路器、便携式GFCI线路等领域的产品,侦测并防护火线对地故障和零线对负载短路故障。 功能介绍 D4147 为低功率接地故障断路器(GFI)控制器芯片,用于检测危险的接地故障电流路径…

基于JSP+Mysql+HTml+Css仓库出入库管理系统设计与实现

博主介绍:黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者,CSDN博客专家,在线教育专家,CSDN钻石讲师;专注大学生毕业设计教育和辅导。 所有项目都配有从入门到精通的基础知识视频课程&#xff…

个人求职简历(精选8篇)

HR浏览一份简历也就25秒左右,如果你连「好简历」都没有,怎么能找到好工作呢? 如果你不懂得如何在简历上展示自己,或者觉得怎么改简历都不出彩,那请你一定仔细读完。 互联网运营个人简历范文> 男 22 本科 AI简历…

Altair® Access™ 面向研究人员和工程师的 HPC 作业提交门户

Altair Access™ 面向研究人员和工程师的 HPC 作业提交门户 Access 具有一个简单、强大且统一的界面,可以从中提交和监控远程集群、云或其他资源的相关作业,使工程师和研究人员能够专注于主要活动,减少在应用程序运行及数据移动上投入的时间。…

朴素模式匹配算法

什么是字符串的模式匹配? 字符串模式匹配:在主串中找到与模式串相同的字串,并返回其所在位置 算法思想: 算法思想为:从主串S的第一个字符起,与模式串T的第一个字符比较,若相等,则继续逐个比较后续字符;否则从主串的下一…

微服务项目sc2024通用Base工程

1. cloud-provider-payment8001 2.pom文件 <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"ht…

STM32 H7系列学习笔记

必备的API知识 第 1 步&#xff1a;系统上电复位&#xff0c;进入启动文件 startup_stm32h743xx.s&#xff0c;在这个文件里面执行复位中断服务程序。 在复位中断服务程序里面执行函数 SystemInit&#xff0c;在system_stm32h7xx.c 里面。*之后是调用编译器封装好的函数&…

Java基础入门--第十一章--JDBC(Java Database Connection)Java数据库连接

JDBC 11.1 什么是JDBC11.1.1 JDBC概述11.1.2 JDBC驱动程序 11.2 JDBC的常用API11.3 JDBC编程11.3.1 JDBC 编程步骤11.3.2 实现第一个JDBC程序 我的MySQL的root密码: root 11.1 什么是JDBC 11.1.1 JDBC概述 JDBC的全称是Java数据库连接&#xff08;Java Database Connectivit…

为什么用核心板与底板模式开发智能产品?小米SU7坐舱域控制器PCB设计的新选择

随着科技的飞速发展&#xff0c;智能产品市场的竞争日益激烈。如何在最短的时间内&#xff0c;以最低的成本&#xff0c;打造出性能卓越的产品&#xff0c;成为了各大企业面临的重要课题。近日&#xff0c;小米SU7智能汽车的发布为我们提供了一个全新的视角——通过核心板与底板…

算法:多重背包问题dp

文章目录 一、多重背包问题特点1.1、多重背包问题的特征1.2、解决多重背包问题的基本方法典型例题&#xff1a;AcWing——多重背包问题I 1.3、二进制优化1.3.1、二进制优化的思想1.3.2、多重背包问题的二进制优化 一、多重背包问题特点 多重背包问题是背包问题的又一变种&…

钢条切割问题:动态规划算法的典型应用

一、引言 在工业生产和物流管理中&#xff0c;钢条切割问题是一个常见的优化问题。企业在购买长钢条并将其切割为短钢条出售时&#xff0c;往往面临着如何切割以最大化利润的问题。这个问题不仅关系到企业的成本控制和利润最大化&#xff0c;也涉及到资源的有效利用和生产效率…

QA:缺少VC运行时库导致VisualBox和XShell运行出错

前言 启动软件时&#xff0c;特别是绿色版软件&#xff0c;有时会遇到“缺少xxx.dll文件”&#xff0c;导致软件启动失败。 注&#xff1a;xxx.dll是动态链接库&#xff08;DLL&#xff09;文件&#xff0c;包含了程序运行所需的函数和资源。 内容 象上面这种类型的错误&…

漫画|数据工程师面试常见问题之数据倾斜

话说&#xff0c;闹钟一响&#xff0c;现实照进梦想&#xff0c;又是李大虎面试找工作的一天。 李大虎心里一直有个想法&#xff0c;如果一天睡20个小时&#xff0c;然后这20个小时全做美梦&#xff0c;醒来的4个小时用来吃喝拉撒&#xff0c;这样岂不就和那些富二代一样了&am…

AI应用实战2:使用scikit-learn进行回归任务实战

代码仓库在gitlab&#xff0c;本博客对应于02文件夹。 1.问题分析 在此篇博客中我们来对回归任务进行实战演练&#xff0c;背景是直播带货平台的业绩预测。第一步&#xff0c;就是分析问题。 问题痛点&#xff1a; 在直播带货平台上&#xff0c;由于市场环境多变、用户行为复…

【网站项目】校园二手交易平台小程序

&#x1f64a;作者简介&#xff1a;拥有多年开发工作经验&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的项目或者毕业设计。 代码可以私聊博主获取。&#x1f339;赠送计算机毕业设计600个选题excel文件&#xff0c;帮助大学选题。赠送开题报告模板&#xff…

Python爬虫网络实践:去哪儿旅游数据爬取指南

Python爬虫网络实践&#xff1a;去哪儿旅游数据爬取指南 在这个博客中&#xff0c;我们将探索如何使用 Python 来进行网络数据抓取&#xff0c;并以抓取旅游数据为例进行演示。我们将通过一个简单的示例来说明如何利用 Python 中的常用库进行网页抓取&#xff0c;从而获取旅游…

ABAP 增强篇

文章目录 ABAP 增强篇第一代增强-基于源码增强用户出口子程序所能使用的数据变量VA01增强示例 第二代&#xff1a;基于函数出口增强&#xff08;FUNCTION&#xff09;SMOD与COMD查找出口函数出口对象激活&#xff08;SMOD&#xff09;增强详细说明文档示例&#xff1a;通过出口…