VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION--论文笔记

论文笔记

论文来源

Very Deep Convolutional Networks for Large-Scale Image Recognition

代码来源

还没上传

数据集

这里采用的是猫狗数据集
还没上传

1论文摘要的翻译

在这项工作中,我们研究了卷积网络深度对其在大规模图像识别设置中的准确性的影响。我们的主要贡献是使用具有非常小(3 × 3)卷积滤波器的架构对增加深度的网络进行全面评估,这表明通过将深度推至16-19权重层可以实现对现有技术配置的显着改进。这些发现是我们2014年ImageNet挑战赛提交的基础,我们的团队分别在本地化和分类轨道中获得了第一名和第二名。我们还表明,我们的表示可以很好地推广到其他数据集,从而获得最先进的结果。我们已经公开了两个表现最好的ConvNet模型,以促进在计算机视觉中使用深度视觉表示的进一步研究。

2论文的创新点

  • 使用具有非常小(3 × 3)卷积滤波器的架构对增加深度的网络
  • 从卷积网络的深度来考虑,通过添加卷积层来增加深度
  • 三层非线性纠偏而不是单一的纠偏层,使决策函数更具判别性

3 论文方法的概述

3.1 ARCHITECTURE

图片 固定大小 224 * 224
并减去RGB均值
模型架构:
卷积层:卷积核3 * 3 或这个1 * 1 padding 为1 stride 为1
池化: 最大池化(2 * 2, stride = 2)

模型配置

网络A中的11个权重层(8个卷积层和3个FC层)到网络E中的19个权重层(16个卷积层和3个FC层)。卷积层的宽度(通道的数量)相当小,从第一层的64开始,然后在每个最大池化层之后增加2倍,直到达到512。如下图所示。

  • 最大池化在一个2 × 2像素的窗口上执行,步幅为2
  • 所有函数使用了Rulu函数
    在这里插入图片描述

模型参数对比

下表中是每个配置的参数数量。尽管深度很大,但网络中的权重数量并不大于具有更大卷积层宽度和接受域的更浅的网络中的权重数量
在这里插入图片描述

3.2训练框架

训练是遵循带动量的小批量梯度下降(基于反向传播)优化多项逻辑回归目标来进行的。批量大小设置为256动量设置为0.9。训练通过权重衰减(L2正则项为 5 ∗ 1 0 − 4 5*10^{-4} 5104)和前两个完全连接层的dropout正则化(dropout ratio设置为0.5)进行正则化。

学习率最初设置为10−2,当验证集精度停止提高时,学习率降低10倍。

图像预处理:随机裁剪固定图像大小裁剪224 * 224
当图大小 S > 224 S>224 S>224时候,包含小物体或一个物体部分即可, S = 224 S= 224 S=224时,可以完全训练完整图像数据
数据增强:随机水平翻转,随机RGB颜色偏移

网络采取随机初始化(平均值为零、方差为10 - 2的正态分布中采样权重),避免学习停滞,biases偏差初始值为零。

3.3测试框架

  • 首先,将其各向同性地重新缩放到预定义的最小图像边,记为Q(我们也称其为测试尺度)。
  • 我们还通过水平翻转图像来扩大测试集;对原始图像和翻转图像的软最大类后验进行平均,得到图像的最终分数。

4 论文实验

数据集

ILSVRC-2012数据集
该数据集包括1000个类的图像,并分为三组:训练(1.3M图像),验证(50K图像)和测试(100K带有固定类标签的图像)。

4.1 单尺度评价

测试图像大小设置如下:固定 S S S Q = S Q = S Q=S,抖动 S ∈ [ S m i n , S m a x ] S∈[S_{min}, S_{max}] S[Smin,Smax]为Q = 0.5( S m i n + S m a x S_{min} + S_{max} Smin+Smax)。的结果如下表所示。
分析结果

  • 在没有任何归一化层的情况下,使用局部响应归一化(A- LRN网络)并不能改善模型A。因此,我们不会在更深的架构(B-E)中使用规范化
  • 分类误差随着卷积神经网络深度的增加而减小:从A的11层到e的19层。值得注意的是,尽管深度相同,配置C(包含三个1 × 1的卷积层)的性能比使用3 × 3卷积的配置D差
  • 训练时尺度抖动( S ∈ [ 256 ; 512 ] S∈[256;512] S[256;512])的结果明显好于对固定最小边的图像进行训练( S = 256 S = 256 S=256 S = 384 S = 384 S=384),即使在测试时使用单一尺度。这证实了通过尺度抖动增强训练集确实有助于捕获多尺度图像统计。

在这里插入图片描述

4.2 多尺度评价

在单一尺度上评估了卷积神经网络模型之后,现在评估尺度抖动在测试时的影响。它包括在测试图像的几个重新缩放版本上运行一个模型(对应于不同的Q值),然后对结果类后验进行平均。考虑到训练尺度和测试尺度之间的较大差异会导致性能下降,使用固定S训练的模型在接近训练图像的三种测试图像尺寸上进行评估:Q = { S − 32 , S , S + 32 } \{S−32,S, S + 32\} {S32,S,S+32}。同时,训练时的尺度抖动使得网络在测试时可以应用于更大范围的尺度,所以用变量 S ∈ [ S m i n , S m a x ] S∈[S_{min}, S_{max}] S[Smin,Smax], Q = { S m i n , 0.5 ∗ ( S m i n + S m a x ) , S m a x } Q = \{S_{min}, 0.5*(S_{min} + S_{max}), S_{max}\} Q={Smin,0.5(Smin+Smax)Smax}
如下表所示的结果表明,测试时的尺度抖动会带来更好的性能(与在单个尺度上评估同一模型相比,如表3所示)。与之前一样,最深配置(D和E)表现最好,并且尺度抖动优于固定最小侧s的训练。我们在验证集上的最佳单网络性能为24.8%/7.5% top-1/top-5误差(表4中粗体突出显示)。配置E达到7.3%的top-5误差。
在这里插入图片描述

4.3 MULTI-CROP EVALUATION

multi-crop
经常使用的卷积层+全连接层。通过将测试图片缩放到不同大小Q,Q可以不等于S(训练时图片大小)。在QQ图片上裁剪出多个SS的图像块,将这些图像块进行测试,得到多个1*n维的向量。通过对这些向量每一纬求平均,得到在某一类上的概率。这种方法叫做multi-crop。
我们比较了密集卷积神经网络评价与MULTI-CROP EVALUATION)。我们还通过平均其softmax输出来评估两种评估技术的互补性。结果如下表,可以看出,使用MULTI-CROP的性能略好于dense evaluation,并且这两种方法确实是互补的,因为它们的组合优于它们中的任何一种
在这里插入图片描述

5 总结

在这项工作中,我们评估了用于大规模图像分类的非常深的卷积网络(多达19个权重层)。
研究表明,表示深度有利于分类精度,并且使用传统的ConvNet架构可以在ImageNet挑战数据集上实现最先进的性能,深度大幅增加。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/639270.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Offline RL : Beyond Reward: Offline Preference-guided Policy Optimization

ICML 2023 paper code preference based offline RL,基于HIM,不依靠额外学习奖励函数 Intro 本研究聚焦于离线偏好引导的强化学习(Offline Preference-based Reinforcement Learning, PbRL),这是传统强化学习&#x…

QT编译安装mqtt连接Onenet云平台

目录 文章目录 目录前言一、编译mqtt**1.从官方源码下载对应自己qt版本的源文件,【此源文件不要有中文名称的路径】****2.打开qtmqtt.pro工程****3.选择qt的编译器,【我选择的是mingw 64】****4.将qtmqtt的源码头文件移植到QT的安装目录下面****5.编译**…

【译】MySQL复制入门: 探索不同类型的MySQL复制解决方案

原文地址:An Introduction to MySQL Replication: Exploring Different Types of MySQL Replication Solutions 在这篇博文中,我将深入介绍 MySQL 复制,回答它是什么、如何工作、它的优势和挑战,并回顾作为 MySQL 环境&#xff0…

数美滑块研究

周一,在清晨的阳光照耀下,逆向山脚下的小镇宁静而安详。居民们忙碌地开始一天的生活,而在爬虫镇子的边缘,一座古朴的道观显得格外神秘。 阿羊正静静地坐在青石长凳上,摸鱼养神。突然,一道清脆的声音在他耳…

android studio接入facebook踩坑1

今天在接入facebook第三方登录的时候,点击登录按钮,APP闪退,并报错 java.lang.RuntimeException Failure delivering result ResultInfo{whonull,request64206,result-1} 新文章链接https://lengmo714.top/facebook1.html 如下图:…

【Unity】Unity项目转抖音小游戏(三)资源分包,抖音云CDN

业务需求,开始接触一下抖音小游戏相关的内容,开发过程中记录一下流程。 使用资源分包可以优化游戏启动速度,是抖音小游戏推荐的一种方式,抖音云也提供存放资源的CDN服务 抖音云官方文档:https://developer.open-douyi…

vue + SpringBoot + flowable 实现工作流审批功能 (流程图部署)

目录 搭建前端vue项目 vue init webpack project_name 初始化项目 导入 element-ui 框架 npm install element-ui -s 设置 element-ui 全局配置 编辑 main.js 文件 import ElementUI from "element-ui"; // ui框架导入 import element-ui/lib/theme-chal…

网络模型-PoE技术

一、PoE简介 以太网供电PoE(Powerover Ethernet)是指通过以太网网络进行供电,也被称为基于局域网的供电系统PoL(PoweroverLAN)或有源以太网(Active Ethernet)。 1、PoE的优势: 可靠: 电源集中供电,备份方便。连接简捷: 网络终端不需外接电源&#xf…

大数据——大数据架构

一:大数据应用场景 1.离线批处理 数据量比较大,延迟比较高 2.实时检索 实时检索中的hbase按key值检索较快,因为其存储是顺序存储,但是对value的检索就相对较慢。 数据量大,实时查询数据,不能对数据做大量…

商品发布功能

文章目录 1.SPU和SKU介绍1.SPU2.SKU3.两者之间的关系 2.完成商品发布界面1.组件引入1.commoditylaunch.vue 引入到 src/views/modules/commodity下2.multiUpload.vue 引入到 src/components/upload/multiUpload.vue 2.创建菜单1.创建目录2.创建菜单,注意菜单路由要匹…

打破壁垒,实现多引擎3D内容轻量化交付|点量云流

随着应用场景的不断拓展,传统的视频流技术已难以满足日益复杂的需求。当前市场上的视频流解决方案支持的引擎基本是UE、Unitiy输出的exe3D应用,在处理WebGL等3D内容时,也存在诸多局限性,例如性能限制、跨平台兼容性问题、无法直接…

AGI技术与原理浅析:曙光还是迷失?

前言:回顾以往博客文章,最近一次更新在2020-07,内容以机器学习、深度学习、CV、Slam为主,顺带夹杂个人感悟。笔者并非算法科班出身,本科学制药、研究生学金融,最原始的算法积累都来源于网络,当时…

Wpf 使用 Prism 实战开发Day23

自定义对话框服务 当原有对话框不能满足需求的时候,可以通过自定义对话框来实现特殊的需求 一.自定义对话框主机服务步骤: 1.建立一个IDialogHostService 接口类,继承自 IDialogService 对话框服务类。并且自定义基类的服务方法。 public …

sh控制台输入文字多行 按“# ꧂ ꧁”结束

如果在Unix shell中输入多行文字,那么这样操作: 1. 打开您的终端(Terminal)。 2. 输入您的文字,每行文字后按回车键。 3. 当您完成输入所有文字后,输入“# ꧂ ꧁”然后按回车键,表示输入结束。…

海外私人IP和原生IP有什么区别,谁更有优势?

一、什么是海外私人IP?什么是原生IP? 1、海外私人IP: 海外私人IP是由专门的服务提供商提供的IP地址,这些IP地址通常与特定地理位置或国家相关联。这些IP地址独享私人而不用与其他用户共享。海外私人IP访问特定国家或地区的网站&am…

【golang】内存对齐

什么是内存对齐 在访问特定类型变量的时候通常在特定的内存地址访问,这就需要对这些数据在内存中存放的位置有限制,各种类型数据按照一定的规则在空间上排列,而不是顺序的一个接一个的排放,这就是对齐。 内存对齐是编译器的管辖…

2024 年 5 种领先的小语言模型:Phi 3、Llama 3 等

2024 年 5 种领先的小语言模型:Phi 3、Llama 3 等 近年来,GPT-3 和 BERT 等大型语言模型的发展改变了人工智能的格局,它们以其强大的功能和广泛的应用而闻名。 然而,除了这些巨头之外,一种新的 AI 工具类别也正在掀起…

平板如何实现无纸化会议

为了实现高效的无纸化会议,连通宝可以是在内部网络部署,那么,平板如何实现无纸化会议? 1. 服务器配置: 部署专用无纸化会议系统服务器(如rhub无纸化会议服务器)至组织的内部网络中。确保该服务…

[论文笔记]REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS

引言 今天带来一篇经典论文REACT: SYNERGIZING REASONING AND ACTING IN LANGUAGE MODELS的阅读笔记,论文中文意思是 在语言模型中协同推理和行动。 虽然大型语言模型(LLMs)在语言理解和互动决策任务中展现出强大的能力,但它们在推理(例如思维链提示)和…

【计算机毕业设计】基于SSM++jsp的实验室耗材管理系统【源码+lw+部署文档】

目录 第1章 绪论 1.1 课题背景 1.2 课题意义 1.3 研究内容 第2章 开发环境与技术 2.1 MYSQL数据库 2.2 JSP技术 2.3 SSM框架 第3章 系统分析 3.1 可行性分析 3.1.1 技术可行性 3.1.2 经济可行性 3.1.3 操作可行性 3.2 系统流程 3.2.1 操作流程 3.2.2 登录流程 3.2.3 删除信息流…