论文学习 Learning Robust Representations via Multi-View Information Bottleneck

Code available at https://github.com/mfederici/Multi-View-Information-Bottleneck

摘要:信息瓶颈原理为表示学习提供了一种信息论方法,通过训练编码器保留与预测标签相关的所有信息,同时最小化表示中其他多余信息的数量。然而,最初的公式需要标记数据来识别多余的信息。在这项工作中,我们将这种能力扩展到多视图无监督设置,其中提供了相同底层实体的两个视图,但标签未知。这使我们能够识别两个视图不共享的多余信息。理论分析导致了一个新的多视图模型的定义,该模型在Sketchy数据集和MIR-Flickr数据集的标签限制版本上产生最先进的结果。我们还利用标准数据增强技术将我们的理论扩展到单视图设置,与常见的无监督表示学习方法相比,经验显示出更好的泛化能力。

核心创新点:将两个视图学习得到的公共信息作为有用表征,将两个视图不共享的部分信息看作是冗余信息,最终两个视图之间相互学习得到标签信息丰富和鲁棒性强的表征

1 INTRODUCTION

深度表征学习(LeCun et al., 2015)的目标是将原始观察输入x转换为通常较低维度的表征z,其中包含与给定任务或任务集相关的信息。通过监督表示学习在深度学习方面取得了重大进展,其中下游任务的标签y是已知的,而p(y|x)是直接学习的(Sutskever et al., 2012;Hinton et al., 2012)。由于获取大型标记数据集的成本,最近对无监督表示学习的重新关注旨在生成表示z,这对于各种不同的任务非常有用,这些任务几乎没有可用的标记数据(Devlin等人,2018;Radford等人,2019)。我们的工作基于信息瓶颈原则(Tishby et al., 2000),即通过丢弃输入中对给定任务无用的所有信息,表示受干扰的影响较小,从而提高了鲁棒性。在监督设置中,可以直接应用信息瓶颈原理,通过最小化数据x与其表示z之间的互信息,I(x;z),同时最大化z与标签y之间的互信息(Alemi et al., 2017)。在无监督设置中,只丢弃多余的信息更具挑战性,因为没有标签,模型无法直接识别哪些信息是相关的。近期文献(Devon Hjelm et al., 2019;van den Oord等人,2018)关注的是InfoMax目标最大化I(x, z),而不是最小化它,以保证所有预测信息都被表示保留,但不做任何事情来丢弃无关信息,本文将信息瓶颈方法推广到无监督的多视图设置中。为此,我们依赖于多视图文献的一个基本假设——每个视图提供相同的任务相关信息(Zhao et al., 2017)。因此,可以通过从表示中丢弃所有不被两个视图共享的信息来改进泛化。我们通过最大化两个视图表示之间的相互信息(多视图)来实现这一点,同时消除它们之间不共享的信息,因为这些信息肯定是多余的。生成的表示对于给定任务来说更加健壮,因为它们消除了特定于视图的麻烦。我们的贡献有三个方面:(1)我们将信息瓶颈原理扩展到无监督的多视图环境中,并对其应用提供了严格的理论分析。(2)我们定义了一个新模型1,该模型在两个标准多视图数据集Sketchy和MIR-Flickr的低标签设置下经验地得出了最先进的结果。(3)通过利用数据增强技术,我们的经验表明,我们的模型在单视图设置下学习的表征比现有的无监督表征学习方法更具鲁棒性,将我们的理论与增强策略的选择联系起来。

2 PRELIMINARIES AND FRAMEWORK

表征学习的挑战可以表述为找到一个分布p(z|x),该分布将数据观测值x∈x映射到表征z∈z,并捕获一些所需的特征。每当最终目标涉及到预测标签y时,我们只考虑足以识别y的z。这一要求可以通过考虑编码数据后仍然可访问的标签信息的数量来量化,并且被称为z对y的充分性(Achille & Soatto, 2018):

定义1。充分性:当且仅当I(x;y|z) = 0时,x的表示z对于y就足够了。任何访问足够表示z的模型都必须能够至少准确地预测y,就好像它可以访问原始数据x一样。事实上,当且仅当有关任务的信息量因编码过程而改变时,z 对于 y 就足够了(参见附录中的命题 B.1):

在足够的表示中,导致对未标记数据实例更好的泛化的表示特别吸引人。当 x 的信息内容高于 y 时,x 中的一些信息必须与预测任务无关。这可以通过使用互信息的链式法则将 I(x; z) 细分为两个组件来更好地理解(参见附录 A):

条件互信息I(x;Z |y)表示Z中不能预测y的信息,即多余信息。当我(y);Z)决定了有多少标签信息可以从表示中访问。请注意,最后一项与表示无关,只要z对y是充分的(参见公式1)。因此,当I(x;Z |y)最小。最小化多余信息的数量只能在监督设置中直接完成。实际上,减少I(x;z)在不违反充分性约束的情况下,必然需要对预测任务做出一些额外的假设(见附录中的定理B.1)。在下一节中,我们将描述我们技术的基础,这是一种通过利用数据上的附加视图形式的冗余信息,即使没有观察到标签y,也可以安全地减少表示的信息内容的策略。

3 MULTI-VIEW INFORMATION BOTTLENECK

作为一个激励的例子,假设v1和v2是同一物体从不同视点的两个图像,并设y为其标签。假设对象与v1和v2都明显不同,任何包含从两个视图都可访问的所有信息的表示z也将包含必要的标签信息。此外,如果z只捕获两个图片中可见的细节,它将消除特定于视图的细节,并降低表示对视图更改的敏感性。下面描述了支持这种直觉的理论,其中v1和v2被联合观察并称为数据视图。

3.1多视图设置中的充分性和鲁棒性在本节中,我们将充分性和极小性的分析扩展到多视图设置。直观地说,我们可以保证即使不知道y, z也足以预测y,只要保证z保持了v1和v2共享的所有信息。这种直觉依赖于多视图环境的一个基本假设——即两个视图提供相同的预测信息。为了形式化,我们定义了冗余。定义2。冗余性:v1相对于v2对于y是冗余的当且仅当I(y;直观地说,视图v1对于一个任务来说是冗余的,只要它与y的预测无关,如果v2已经被观察到。当v1和v2互为冗余时(v1相对于v2对于y是冗余的,反之亦然),我们可以证明如下:推论1。设v1和v2是目标y的两个相互冗余的视图设z1是v1的表示。如果z1对v2 (I(v1;v2|z1) = 0),则z1与两个视图的联合观测(I(v1v2;y) = I(y;z1))。换句话说,只要有可能假设相互冗余,任何包含两个视图共享的所有信息(冗余信息)的表示都与它们的联合观察一样具有预测性。通过将v1和z1之间的互信息类似于公式2分解,我们可以确定两个分量:

 由于 I(v2; z1) 如果我们希望表示足以用于标签,我们得出结论,通过最小化 I(v1; z1|v2) 可以减少 I(v1; z1)。该术语直观地表示包含 v1 独有的信息 z1,并且通过观察 v2 无法预测。由于我们假设两个视图之间的相互冗余,因此该信息必须与预测任务无关,因此可以安全地丢弃。上述陈述和推论 1 的证明和形式断言可以在附录 B 中找到。两个视图共同点越少,在不违反标签的充分性的情况下,可以减少 I(v1; z1) 越多,因此,结果表示的鲁棒性越强。在极端情况下,v1 和 v2 只共享标签信息,在这种情况下,我们可以证明 y 的 z1 最小,并且我们的方法与监督信息瓶颈方法相同,而无需访问标签。相反,如果 v1 和 v2 相同,那么我们的方法退化为 InfoMax 原则,因为没有可以安全地丢弃信息(参见附录 E)。

3.2 多视图信息瓶颈损失函数给定满足标签 y 的相互冗余条件的 v1 和 v2,我们希望为 v1 的表示 z1 定义目标函数,该函数丢弃尽可能多的信息而不会丢失任何标签信息。在第 3.1 节中,我们展示了我们可以通过确保 v1 的表示 z1 足以满足 v2 来获得 y 的充分性,并且减少 I(z1; v1|v2) 将通过丢弃不相关的信息来增加表示的鲁棒性。因此,我们可以使用松弛拉格朗日目标结合这两个要求,以获得 v2 的最小充分表示 z1:

 

 

 3.3 自我监督和不变性我们的方法也可以应用于通过利用标准数据增强技术无法获得多个视图时。这允许直接从增强数据中学习不变性,而不是要求它们构建到模型架构中。通过选择不影响标签信息的数据增强函数 t : X → W 的类 T,可以人为地构建满足 y 相互冗余的视图。设 t1 和 t2 是 T 上的两个随机变量,那么 v1 := t1(x) 和 v2 := t2(x) 对于 y 必须是相互冗余的。由于 T 中的数据增强函数不影响标签信息 (I(v1; y) = I(v2; y) =I(x; y)),足以用于 v2 的 v1 的表示 z1 必须包含与 x 相同数量的预测信息。该语句的正式证明可以在附录B.4中找到。每当相同观测的两个变换是独立的(I(t1;t2|x) = 0)时,它们会在两个视图中引入不相关的变化

例如,如果 T 表示一组小翻译,则两个生成的视图将因小移位而不同。由于此信息不共享,任何根据 MIB 目标最优的 z1 都必须丢弃有关位置的细粒度细节。为了实现编码器之间的参数共享,我们通过从具有相同概率的相同函数类 T 中独立采样两个函数来生成两个视图 v1 和 v2。因此,t1 和 t2 将具有相同的分布,因此两个生成的视图也将具有相同的边缘 (p(v1) = p(v2))。出于这个原因,两个条件分布 pθ (z1|v1) 和 pψ (z2|v2) 可以共享它们的参数,只需要一个编码器。只要两个视图具有相同的(或相似的)边际分布,就可以在多视图设置中应用完整(或部分)参数共享。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/727580.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

HCIA-速查-ENSP模拟器2步清空配置

需求:清空模拟器配置 清空当前图中配置 步骤1:reset saved-configuration 后输入y确认 步骤2:reboot后输入n否认再输入y确认 验证已经清空配置

QT利用QGraphicsDropShadowEffect效果及自定义按钮来实现一个炫酷键盘

1、效果 2、核心代码 #include "widget.h" #include "ui_widget.h"Widget::Widget(QWidget *parent): QWidget(parent<

阿里云 邮件系统DNS域名解析 搭配 postfix+dovecot 邮件服务器

1 创建邮箱域名A记录(一般邮箱客户端&#xff0c;增加pop,imap,stmp 3条记录) 登录阿里云控制台--云解析DNS 2 MX记录 3 SPF记录

chatgpt: linux 下用纯c 编写ui

在Linux下用纯C语言编写用户界面&#xff08;UI&#xff09;&#xff0c;通常会使用GTK或Xlib。GTK是一个更高级的库&#xff0c;提供了丰富的控件和功能&#xff0c;而Xlib则是一个更底层的库&#xff0c;提供了直接操作X Window系统的功能。 下面是一个使用GTK在Linux上创建…

R语言dplyr统计指定列里面种类个数和比例

输入数据框&#xff1a;dfuorf&#xff0c;Type列有uORF和overlpaORF两种类型 dfuorf1 <- dfuorf %>%group_by(Type) %>% summarise(Countn()) %>% mutate(percentCount/sum(Count)) %>% mutate(percent1 (paste0(round((Count/sum(Count)), 2)*100,"%&…

【因果推断python】46_估计量2

目录 连续型干预变量案例 非线性处理效果 关键思想 连续型干预变量案例 目标转换方法的另一个明显缺点是它仅适用于离散或二元处理。这是你在因果推理文献中经常看到的东西。大多数研究都是针对二元干预案例进行的&#xff0c;但您找不到很多关于连续干预的研究。这让我很困…

【深度学习】GELU激活函数是什么?

torch.nn.GELU 模块在 PyTorch 中实现了高斯误差线性单元&#xff08;GELU&#xff09;激活函数。GELU 被用于许多深度学习模型中&#xff0c;包括Transformer&#xff0c;因为它相比传统的 ReLU&#xff08;整流线性单元&#xff09;函数能够更好地近似神经元的真实激活行为。…

ARM64汇编0B - 函数调用约定

建议先看《CSAPP》的3.7节&#xff0c;讲的很细。我们这里就直接看例子来分析了。 例子 static int func(int a, int b, int c, int d, int e, int f, int g, int h, int i) {printf("%s\n", "add all");int x a b;return a b c d e f g h i; …

Faiss:选择合适的索引Index

向量相似性搜索彻底改变了搜索领域。它允许我们高效地检索从GIF到文章等各种媒体&#xff0c;即使在处理十亿级别数据集时&#xff0c;也能在亚秒级时间内提供令人印象深刻的准确性。 然而&#xff0c;这种灵活性也带来了一个问题&#xff1a;如何知道哪种索引大小最适合我们的…

2-11 基于matlab的BP-Adaboost的强分类器分类预测

基于matlab的BP-Adaboost的强分类器分类预测&#xff0c;Adaboost是一种迭代分类算法&#xff0c;其在同一训练集采用不同方法训练不同分类器&#xff08;弱分类器&#xff09;&#xff0c;并根据弱分类器的误差分配不同权重&#xff0c;然后将这些弱分类器组合成一个更强的最终…

check python checking for Python executable “python2“ in the PATH

背景&#xff1a; mac电脑升级后重新拉取老项目后安装node_module 和启动项目报错 gyp info using node-gyp3.8.0 gyp info using node14.18.0 | darwin | x64 gyp verb command rebuild [] gyp verb command clean [] gyp verb clean removing "build" directory …

Python基础教程(二十六):对接MongoDB

&#x1f49d;&#x1f49d;&#x1f49d;首先&#xff0c;欢迎各位来到我的博客&#xff0c;很高兴能够在这里和您见面&#xff01;希望您在这里不仅可以有所收获&#xff0c;同时也能感受到一份轻松欢乐的氛围&#xff0c;祝你生活愉快&#xff01; &#x1f49d;&#x1f49…

视听分割相关论文阅读

1. End-to-End Referring Video Object Segmentation with Multimodal Transformers RVOS&#xff08;视频中的参考对象分割&#xff09;比RIS&#xff08;图像中的参考对象分割&#xff09;要困难得多&#xff0c;因为指代动作的文本表达通常无法从单个静态帧中正确推断出来。…

Web3 学习

之前学习 web3&#xff0c;走了不少弯路&#xff0c;最近看到了 hackquest&#xff0c;重新刷了一遍以太坊基础&#xff0c;感觉非常nice&#xff0c;而且完全免费&#xff0c;有需要的可以试试&#xff0c;链接hackquest.io。

劲爆!Kimi月之暗面可以接入微信,智能升级, 打造个性多Agent(二)

前言 在当今这个快速发展的AI时代&#xff0c;抖音推出了一个名为“扣子Coze”的工具&#xff0c;帮助用户快速、低门槛地搭建属于自己的AI机器人。本文将详细介绍如何使用扣子Coze配置自己的AI Agent&#xff0c;并展示其在多个平台上的应用。 如何使用多个Agent 搭建更加智…

【DKN: Deep Knowledge-Aware Network for News Recommendation】

DKN: Deep Knowledge-Aware Network for News Recommendation 摘要 在线新闻推荐系统旨在解决新闻信息爆炸的问题&#xff0c;为用户进行个性化推荐。 总体而言&#xff0c;新闻语言高度凝练&#xff0c;充满知识实体和常识。 然而&#xff0c;现有的方法并没有意识到这些外部…

[Kubernetes] etcd 单机和集群部署

文章目录 1.etcd基本概念2.etcd的基本知识3.etcd优势4.etcd单机部署4.1 linux部署4.2 windows部署4.3 docker安装etcd 5.etcd集群部署 1.etcd基本概念 etcd是一个高可用的分布式键值存储系统&#xff0c;是CoreOS&#xff08;现在隶属于Red Hat&#xff09;公司开发的一个开源…

Redis缓存的一些概念性问题

目录 缓存模型和思路 缓存更新策略 数据库和缓存不一致 缓存与数据库双写一致 缓存穿透 缓存雪崩 缓存击穿 速度快,好用&#xff0c;内存的读写性能远高于磁盘,缓存可以大大降低用户访问并发量带来的服务器读写压力 缓存模型和思路 标准的操作方式就是查询数据库之前先…

用户态协议栈02-arp reply实现

在上一节DODK的UDP收发中发送udp包的时候&#xff0c;需要向物理机的arp表中添加一个静态的arp记录。这在生产环境中显然是不可以的。在内核的协议栈中&#xff0c;会将自己的ip和mac在局域网中进行广播&#xff0c;并且记录其他电脑的ip和mac。在需要发送数据包的时候&#xf…

AD使用快捷键

1、如何实现元器件旋转45放置 在Preferences >> PCB Editor >> General中将Rotation Step&#xff08;旋转的步进值&#xff09;由90改为45&#xff0c;这样以后每次按空格键旋转器件时旋转角度为45。 2、显示网络、隐藏网络 N 3、对齐 2、设置DRC检查选项&#xf…