(论文阅读34-39)理解CNN

34.文献阅读笔记

简介

题目

Understanding image representations by measuring their equivariance and equivalence

作者

Karel Lenc, Andrea Vedaldi, CVPR, 2015.

原文链接

http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Lenc_Understanding_Image_Representations_2015_CVPR_paper.pdf

关键词

equivariance, invariance, and equivalence.

研究问题

尽管梯度直方图和深度卷积神经网络在图像表达上非常重要,但是我们对它们的理论了解仍然很受限。

a good representation should combine invariance and discriminability。

一个好的表达应该结合不变形和判别性。但这种定性是相当模糊的;例如,通常不清楚一个表示中包含哪些不变性以及它们是如何获得的。

提出了一种新的方法来研究图像表示。

研究方法

investigate three key mathematical properties of representations: equivariance, invariance, and equivalence.

研究三个数学属性:等变性、不变性和等价性。

等变性研究输入图像的变换是如何被表示编码的,不变性是变换没有影响的一种特殊情况。

等价性研究两个表示,例如CNN的两个不同参数化,是否捕获相同的视觉信息。

经验性的建立这些方法通过introducing transformation(转换) and stitching(拼接)(允许交换不同网络部分的拼接层)(验证等价性) layers in CNNs

研究结论

浅层表示和最先进的深度CNNs的前几层以一种容易预测的方式与图像变形进行转换,并且它们在不同的体系结构中可以互换,因此是等效的。更深层的层共享这些特性的一部分,但程度较低,更具有任务特异性。

创新不足

额外知识

geometric invariances:几何不变性。

Image representations:textons , histogram of oriented gradients (SIFT and HOG , bag of visual words , sparse and local coding, super vector coding, VLAD, Fisher Vectors, and the latest generation of deep convolutional networks.

35.文献阅读笔记

简介

题目

Deep Neural Networks are Easily Fooled:High Confidence Predictions for Unrecognizable Images

作者

Anh Nguyen, Jason Yosinski, Jeff Clune, CVPR, 2015.

原文链接

http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Nguyen_Deep_Neural_Networks_2015_CVPR_paper.pdf

Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images-CSDN博客

关键词

DNN安全性、“fooling images”

研究问题

人类视觉和当前DNN之间的有趣差异,并提出了关于DNN计算机视觉通用性的问题。

研究方法

生成一张人类无法分辨的图片,却能够让DNN以99%的置信度相信这是某个物体 。我们使用进化算法或者梯度上升来得到这样的图片。

multi-dimensional archive of phenotypic elites MAP-Elites ,这个算法可以让我们同时的进化出一个群体,如:ImageNet的1000个类。

多种不同的方法生成图片,称为“fooling images”:

1.普通的EA算法,对图片的某个像素进行变异、进化

2.CPPN EA算法,可以为图像提供一些几何特性,如对称等

3.梯度上升

研究结论

会将人类无法识别的图案以非常高的置信度归为某个label。当经过重新训练的DNNs学会将负面例子分类为fool image时,即使经过多次再训练迭代,也可以产生一批新的fool image来愚弄这些新网络。

过拟合程度更低,更难去欺骗.

数据集的类别越多,越难被攻击

创新不足

额外知识

在MNIST数据集上,由于数据量小,得到的网络模型的容量小,更容易生成fooling images,也跟难通过利用fooling images重新训练模型的方式来提高其防御能力

在ImageNet数据集上,数据量大,类别多,得到的网络模型的容量大,更难生成fooling images,不过由于其容量大,能够通过重新训练的方式提高防御能力

36.文献阅读笔记

简介

题目

Understanding Deep Image Representations by Inverting Them

(反演)

作者

Aravindh Mahendran, Andrea Vedaldi,  CVPR, 2015

原文链接

http://www.cv-foundation.org/openaccess/content_cvpr_2015/papers/Mahendran_Understanding_Deep_Image_2015_CVPR_paper.pdf

关键词

Understanding of Image Representations、Inverting

研究问题

给定一幅图像的编码,在多大程度上有可能重建图像本身?

研究方法

贡献了一个通用的框架来反演表示。

Hog、sift代表浅层表示法。

CNN表示深层表示法。

展示了如何将 HOG 和 DSIFT 作为 CNN 来实现,从而简化其导数的计算。

将反演技术分别应用于浅层表示(HOG 和 DSIFT)和深层表示(CNN)的分析。

反转只使用最终图像代码,即研究的是网络输出保留了哪些信息。

使用自然图像先验。

损失函数:欧氏距离

研究结论

CNN中的几个层保留了图像的精确信息,具有不同程度的几何和光度不变性。

基于梯度下降优化目标函数的反演浅层和深层表示的优化方法。与替代方案相比,一个关键的区别是使用图像先验,如Vβ范数,可以恢复由表示去除的低级图像统计。应用于卷积神经网络,可视化显示了每一层所代表的信息。特别是,很明显,在网络中形成了一个渐进的、更具有不变性和抽象性的图像内容的概念。

创新不足

方法只使用图像表示和通用自然图像先验的信息,以随机噪声作为初始解,因此只捕捉到表示本身所包含的信息。

额外知识

图像表示:sift->bag of visual words->cnns

37.文献阅读笔记

简介

题目

Object Detectors Emerge in Deep Scene CNNs

作者

Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, Antonio Torralba, ICLR, 2015.

原文链接

http://arxiv.org/abs/1412.6856

关键词

理解CNN

研究问题

理解这些深层架构的内层所学习到的表象。

手工特征的表征结构往往是清晰的、可解释的,而对于深度网络来说,学习到的表征的性质是什么以及它为什么能如此出色地工作,仍然不清楚。

学习场景分类(即将图像分类为办公室、餐厅、街道等),为研究 CNN 在物体识别以外的任务中学到的内部表示提供了机会。

场景类别由其包含的物体定义,并在一定程度上由这些物体的空间配置定义。物体代表了场景的分布式代码(即不同场景类别之间共享物体类)。重要的是,在场景中,物体的空间配置虽然紧凑,但自由度要大得多。正是这种松散的空间依赖性,使得场景表示不同于大多数对象类(大多数对象类各部分之间没有松散的交互)。

研究方法

展示了目标检测器是通过训练CNN来进行场景分类的。由于场景是由物体组成的,用于场景分类的CNN自动发现有意义的物体检测器,代表学习到的场景类别。随着物体检测器作为学习识别场景的结果而出现。

只使用场景,不使用对象级的监督。

进行了一个简单的实验,以确定每个网络不同层所偏好的图像类型的差异:创建了一组 20 万张图像,其中以场景为中心的图像和以物体为中心的图像分布大致相同,并将它们同时运行于两个网络,记录每一层的激活情况。对于每一层,我们将获得平均激活度(特定层所有空间位置的总和)最大的前 100 张图像。图 1 显示了每一层的前 3 幅图像。我们观察到,对于两个网络来说,pool1和pool2等较早的层更偏好类似的图像,而较晚的层则倾向于更专注于场景或物体分类的特定任务。

给定一幅被网络正确分类的图像,我们希望简化这幅图像,使其保留尽可能少的视觉信息,同时对同一类别仍有较高的分类得分。简化后的图像(命名为最小图像表示)将使我们能够突出导致高分类得分的元素。为此,我们在梯度空间中处理图像。

研究了以下两种不同的方法。

在第一种方法中,我们给定一幅图像,创建边缘和区域的分割,然后从图像中迭代移除分割。每次迭代时,我们都会移除正确分类分数下降最小的片段,直到图像被错误分类为止。最后,我们会得到原始图像的表示形式,该表示形式大约包含了网络正确识别场景类别所需的最小信息量。图 2 展示了这些最小图像表征的一些示例。

物体似乎为网络识别场景贡献了重要信息。例如,在卧室的情况下,这些最小图像表征通常包含床的区域,或者在美术馆类别中,包含墙上画作的区域。

第二种方法:我们使用 SUN Database (Xiao et al., 2014)的全注释图像集生成最小图像表征(有关该数据集的详细信息),而不是进行自动分割。我们采用与第一种方法相同的程序,使用数据库中提供的ground-truth object segments。

对于卧室,在87 %的情况下,最小表示保留了床。卧室的其他物品为墙壁( 28 % )和窗户( 21 % )。对于美术馆来说,最小的图像表征包括绘画( 81 % )和图片( 58 % );在游乐园中,旋转木马( 75 % ),骑马( 64 % ),过山车( 50 % );书店以书柜( 96 % )、书( 68 % )、书架( 67 % )为主。这些结果表明,目标检测是网络构建的表示的重要组成部分,以获得用于场景分类的判别信息。

数据驱动的方法来估计每一层中每个单元的感受野(RF)。

作为输入,我们使用由 200k 张图像组成的图像集,其中场景和物体的分布大致相同(与第 2 章类似)。然后,我们选出给定单元激活度最高的 K 幅图像。对于 K 幅图像中的每一幅图像,我们现在要确定的是图像中哪些区域会导致高单元激活。为此,我们对每幅图像进行多次复制,并在图像的不同位置添加小的随机遮挡物(大小为 11×11 的图像斑块)。具体来说,我们以 3 为步长的密集网格生成遮挡物,这样每张原始图像就会有大约 5000 个遮挡图像。现在,我们将所有被遮挡的图像输入同一个网络,并记录与使用原始图像相比激活度的变化。如果差异很大,我们就知道给定的补丁(patch)很重要,反之亦然。这样,我们就能为每张图像建立差异图。

随着层数的加深,RF 的大小逐渐增大,激活区域也变得更具语义意义。我们使用不同单元的特征图来分割图像。RF 的实际大小远远小于理论大小,尤其是在后面几层。总之,通过这种分析,我们可以精确地聚焦于每个图像的重要区域,从而更好地理解每个单元。

研究结论

物体检测器是在学习对场景类别进行分类的过程中出现的,这表明单个网络可支持多个抽象层次(如边缘、纹理、物体和场景)的识别,而无需多个输出或网络。训练一个网络完成多项任务并将最后一层作为输出是很常见的做法,而在这里,我们展示了可以在每一层提取可靠的输出。由于物体是构成场景的部分,因此在网络的内层会学习到能区分不同场景的物体检测器。请注意,只有对特定场景识别任务有参考价值的物体才会出现。同一个网络可以在一次前向传递中完成物体定位和场景识别。

创新不足

额外知识

与 ImageNet-CNN 的特征相比,Places-CNN 的深度特征在场景相关的识别任务中往往表现更好。

receptive fields (RFs):感受野

38.文献阅读笔记

简介

题目

Inverting Visual Representations with Convolutional Networks

作者

Alexey Dosovitskiy, Thomas Brox, arXiv, 2015.

原文链接

http://arxiv.org/abs/1506.02753

关键词

重建彩色图像。

研究问题

提出了一种新方法来分析特征表示保留了哪些信息,丢弃了哪些信息。对模式识别任务有用的特征表示应集中于输入图像中对任务重要的属性,而忽略输入图像中无关的属性。

研究方法

浅层特征。我们反转了三种传统的计算机视觉特征表示:定向梯度直方图(HOG)、尺度不变特征变换(SIFT)和局部二值模式(LBP)。我们选择这些特征是有原因的。目前已经有了反转 HOG 的方法,因此我们可以与现有的方法进行比较。LBP 的有趣之处在于它不可微,因此基于梯度的方法无法反转它。SIFT 是一种基于关键点的表示法,因此网络必须将不同的关键点拼接成一张平滑的图像。

在提取特征之前,我们将图像转换为灰度图像

任务是重建彩色图像。特征不包含任何颜色信息,因此要预测颜色,网络就必须分析图像内容,并利用在训练过程中学到的自然图像先验信息。

很多时候,网络都能正确预测颜色,尤其是天空、大海、草地和树木。在其他情况下,网络无法预测颜色(例如图 3 最上面一行中的人),导致某些区域呈灰色。偶尔,网络也会预测出错误的颜色,如图 3 底行。

研究结论

图像的颜色和粗略轮廓可以从更高网络层的激活中重建,甚至可以从预测的类概率中重建。

隐含地学习自然图像先验。

将我们的方法应用于 AlexNet 卷积网络学习到的表征,可以得出以下几个结论: 1)网络各层(包括最后的 FC8 层)的特征都保留了图像中物体的精确颜色和大致位置;2)在较高层中,输入图像的几乎所有信息都包含在非零激活模式中,而不是其精确值中;3)在 FC8 层中,输入图像的大部分信息都包含在那些不在网络预测前 5 位的类别的小概率中。

创新不足

额外知识

 "层的输出 "指的是该层最后一个处理步骤的输出。例如,第一个卷积层 CONV1 的输出是经过 ReLU、池化和归一化后的结果

39.文献阅读笔记

简介

题目

Visualizing and Understanding Convolutional Networks

作者

Matthrew Zeiler, Rob Fergus, ECCV, 2014.

原文链接

https://www.cs.nyu.edu/~fergus/papers/zeilerECCV2014.pdf

关键词

特征可视化技术

研究问题

深入了解中间特征层的功能和分类器的功能

研究方法

介绍了一种新颖的可视化技术。

将特征激活投射回输入像素空间。还通过遮挡部分输入图像对分类器输出进行敏感性分析,揭示场景中哪些部分对分类很重要。

deconvnet layer:(反卷积层)

研究结论

随着层数的增加,它们显示出许多直观可取的特性,如组成性、不断增加的不变性和类别区分度。该模型在进行分类训练的同时,对图像中的局部结构高度敏感,而不仅仅是利用广泛的场景背景。对模型的消融研究表明,网络的最小深度,而不是任何单独的部分,对模型的性能至关重要。

创新不足

额外知识

消融研究以发现不同模型层的性能贡献。

Ablation study(消融研究、消融学习、消融实验)_Accelerating的博客-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/148774.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

4+糖酵解+预后模型,结合预后模型为文章加分,思路值得模仿

今天给同学们分享一篇生信文章“A glycolysis-related two-gene risk model that can effectively predict the prognosis of patients with rectal cancer”,这篇文章发表在Hum Genomics期刊上,影响因子为4.5。 结果解读: COAD和READ之间的…

python数据处理作业11:建一个5*3的随机数组和一个3*2的数组,其元素为1,2,3,4,5,6,求两矩阵的积

每日小语 打碎的杯子,烫伤的手,对菩萨是堪忍,因为他在里面得悟甚深之法,心生欢喜。 可是对一般人来说,一生何止打破千百个杯子?何止烫伤过千百次手?他只是痛苦地忍受,只记得下次要…

Openssl X509 v3 AuthorityKeyIdentifier实验与逻辑分析

Openssl是X509的事实标准,目前主流OS或个别安全性要求较高的设计场景,对X509的证书链验证已经不在停留在只从数字签名校验了,也就是仅仅从公钥验签的角度,在这些场景中,往往还会校验AuthorityKeyIdentifier和SubjectKe…

生活消费分销系统搭建开发制作

文章目录 前言 一、生活消费系统是什么?二、生活消费分销系统的营销方式和功能三、总结 一、生活消费系统介绍 生活消费系统涵盖了吃喝玩乐,衣食住行。网购消费等生活消费的优惠券领取以及分销功能 二、生活消费分销系统的营销方式和功能 A: 会员体…

Shopee可以绑定大陆银行卡吗?Shopee收款方式选哪种?——站斧浏览器

shopee可以绑定大陆银行卡吗? 对于中国大陆的卖家而言,他们希望能够在Shopee上绑定自己的大陆银行卡,方便进行交易和收款。然而,目前的情况是Shopee并不支持直接绑定大陆银行卡。这主要是因为Shopee在中国大陆并不是主要运营的电…

【数据结构】直接插入排序

👦个人主页:Weraphael ✍🏻作者简介:目前正在学习c和算法 ✈️专栏:数据结构 🐋 希望大家多多支持,咱一起进步!😁 如果文章有啥瑕疵 希望大佬指点一二 如果文章对你有帮助…

帝国CMS仿核弹头H5小游戏模板/帝国CMS内核仿游戏网整站源码

帝国CMS仿核弹头H5小游戏模板,帝国CMS内核仿游戏网整站源码。比较适合小游戏发布、APP应用资讯类网站使用,有兴趣的可以二次开发试试。 下载地址:https://bbs.csdn.net/topics/617579435

《QT从基础到进阶·二十八》QProcess使用,从一个exe程序启动另一个exe程序

QString exePath QCoreApplication::applicationDirPath(); //获取要启动的另一个exe路径 exePath exePath “/OffLineProcess.exe”; //路径exe名称 QProcess* Process new QProcess; //创建新的进程 Process->start(exePath)…

Spring Cloud Netflix微服务组件-Eureka

CAP理论 分区容忍是能容忍一个或一部分节点挂掉后,整体系统也能正常工作(就是别的节点还是活着的),所以分布式系统中P是必须要有的。比如数据库主从架构,主从两个节点之间需要数据同步,主挂了,…

uniapp大概是怎么个开发法(前端)

写在前面,博主是个在北京打拼的码农,从事前端工作5年了,做过十多个大大小小不同类型的项目,最近心血来潮在这儿写点东西,欢迎大家多多指教。 对于文章中出现的任何错误请大家批评指出,一定及时修改。有任何…

成本2元开发游戏,最快3分钟完成!全程都是AI智能体“打工”,大模型加持的那种

金磊 发自 凹非寺 量子位 | 公众号 QbitAI 家人们,OpenAI前脚刚发布自定义GPT,让人人都能搞开发;后脚国内一家大模型初创公司也搞了个产品,堪称重新定义开发——让AI智能体们协作起来! 只需一句话,最快3分…

leetcode:1576. 替换所有的问号(python3解法)

难度:简单 给你一个仅包含小写英文字母和 ? 字符的字符串 s,请你将所有的 ? 转换为若干小写字母,使最终的字符串不包含任何 连续重复 的字符。 注意:你 不能 修改非 ? 字符。 题目测试用例保证 除 ? 字符 之外,不存…

立仪科技光谱共焦在半导体领域的应用

半导体技术在近年来以极快的速度发展,对质量和精密度的要求也不断提升。在这样的背景下,用于材料与设备研究的先进检测技术如光谱共焦成像将自然地找到一席之地。下面我们将详细探讨一下光谱共焦在半导体领域中的应用。 光谱共焦技术,通过在细…

HTML5学习系列之标题和正文、描述性信息

HTML5学习系列之标题和正文、描述性信息 标题和正文标题段落 描述性信息强调注解备选上下标术语代码预定义格式缩写词编辑提示引用引述换行显示修饰非文本注解 总结 标题和正文 标题 按语义轻重排列&#xff1a;h1\h2\h3\h4\h5\h6 <h1>诗词介绍</h1> <h2>…

算法通关村——归并排序

归并排序 1、归并排序原理 ​ 归并排序是一种很经典的分治策略。 ​ 归并排序(MERGE-SORT)简单来说就是将大的序列先视为若干小的数组&#xff0c;分成几个比较小的结构&#xff0c;然后是利用归并的思想实现的排序方法。将一个大的问题分解成一些小的问题分别求解&#xff…

区域入侵AI算法如何应用在工地场景,保卫工地施工安全?

在工地、厂区等施工场所&#xff0c;安全保障是必不可少的&#xff0c;特别是在人工智能技术日益成熟的今天&#xff0c;如何利用旭帆科技AI智能视频中的区域入侵算法助力智慧工地、保障工地安全呢&#xff1f; 1、建筑物周界安全 TSINGSEE青犀区域入侵算法可以用于监控建筑物…

03-CSS基础选择器

3.1 CSS基础认知&#x1f34e; 3.1.1 &#x1f441;️‍&#x1f5e8;️CSS概念 CSS&#xff1a;层叠样式表&#xff08;Cascading style sheets)&#xff0c;为网页标签增加样式表现的 语法格式&#xff1a; 选择器{<!-- 属性设置 -->属性名:属性值; <!--每一个…

大模型架构创新已死?

金磊 白交 发自 凹非寺 量子位 | 公众号 QbitAI 一场围绕大模型自研和创新的讨论&#xff0c;这两天在技术圈里炸了锅。 起初&#xff0c;前阿里技术VP贾扬清&#xff0c;盆友圈爆料吐槽&#xff1a;有大厂新模型就是LLaMA架构&#xff0c;但为了表示不同&#xff0c;通过改变…

wx.canvasToTempFilePath生成图片保存到相册

微信小程序保存当前画布指定区域的内容导出生成指定大小的图片&#xff0c;记录一下 api&#xff1a;wx.canvasToTempFilePath 效果&#xff1a; 代码&#xff1a;wxml <canvas style"width: {{screenWidth}}px; height: {{canvasHeight}}px;" canvas-id"my…

AI绘画工具汇总

目前市面上的AI绘画工具十分繁杂&#xff0c;以下工具可供参考&#xff1a; 1. Midjourney 添加图片注释&#xff0c;不超过 140 字&#xff08;可选&#xff09; Midjourney&#xff1a;最主流的AI绘图工具之一&#xff0c;出图效果好&#xff0c;简单学习就可上手。需要在di…