[论文笔记]Representation Learning with Contrastive Predictive Coding

引言

今天带来论文 Representation Learning with Contrastive Predictive Coding的笔记。

提出了一种通用的无监督学习方法从高维数据中提取有用表示,称为对比预测编码(Contrastive Predictive Coding,CPC)。使用了一种概率对比损失, 通过使用负采样使模型捕获潜在空间中的有用信息。

为了简单,下文中以翻译的口吻记录,比如替换"作者"为"我们"。

1. 总体介绍

从带标签数据中以端到端的方式学习高层表示是AI领域成功的应用之一,但仍存在许多挑战,例如数据效率、鲁棒性或泛化能力。无监督学习是通往鲁棒且通用表示学习的基石。

尽管无监督学习很重要,但它尚未取得类似于监督学习的突破。无监督学习中最常见的策略之一是预测未来的、缺失的或上下文信息。最近无监督学习的研究成果通过预测相邻词来学习单词表示。我们假设这些方法之所以有效,部分原因是预测相关值的上下文通常有条件依赖于相同的共享高级隐含信息。通过将此视为一个预测问题,我们自动推断出与表示学习相关的这些特征。

本篇工作提出以下三点:

  1. 将高维数据压缩到一个更紧凑的潜在嵌入空间中,在此空间中,条件预测更容易建模。
  2. 在这个潜在空间中使用强大的自回归模型来进行多步预测。
  3. 借鉴噪声对比估计来构建损失函数,与学习词嵌入的方法类似,使整个模型能端到端地训练。

得到的模型,CPC,可以应用于图像、语言、NLP等多种不同的数据模态。

2. 对比预测编码

2.1 动机和直觉

我们模型背后的主要直觉是学习表示,这些表示编码了高维信号不同部分之间潜在的共享信息。同时,它丢弃了更局部的低级信息和噪声。在时间序列和高维建模中,使用下一步预测的方法利用了信号的局部平滑性。当预测更远的未来时,共享信息的量会变得更低,模型需要推断更多全局结构。

预测高维数据的挑战之一是单峰损失函数,比如均方误差和交叉熵,并不十分有用,且通常需要强大的条件生成模型来重建数据中的每一个细节,这些模型的计算量很大,且在建模数据 x x x中的复杂关系时常常浪费能力,同时经常忽略上下文 c c c。例如,图像可能包含成千上万的比特信息,而高层隐变量(例如类别标签)所包含的信息则少得多(1024个类别只需10比特)。这表明直接建模 p ( x ∣ c ) p(x|c) p(xc)可能并不是提取 x x x c c c之间共享信息的最佳选择。

在预测未来信息时,我们将目标 x x x(未来)和上下文 c c c(现在)编码为紧凑的分布式向量表示,以最大程度地保留原始信号 x x x c c c 的互信息,定义为:
I ( x ; c ) = ∑ x , c p ( x , c ) log ⁡ p ( x ∣ c ) p ( x ) (1) I(x;c) = \sum_{x,c} p(x,c) \log \frac{p(x|c)}{p(x)} \tag 1 I(x;c)=x,cp(x,c)logp(x)p(xc)(1)
通过最大化编码表示之间的互信息,我们提取输入信号共有的隐含变量。

这个公式怎么来的,通过互信息定义可以写成:
I ( x ; c ) = ∑ x , c p ( x , c ) log ⁡ p ( x , c ) p ( x ) p ( c ) = ∑ x , c p ( x , c ) log ⁡ p ( x ∣ c ) p ( c ) p ( x ) p ( c ) I(x;c) = \sum_{x,c} p(x,c) \log \frac{p(x,c)}{p(x)p(c)} =\sum_{x,c} p(x,c) \log \frac{p(x|c)p(c)}{p(x)p(c)} I(x;c)=x,cp(x,c)logp(x)p(c)p(x,c)=x,cp(x,c)logp(x)p(c)p(xc)p(c)
消掉 p ( c ) p(c) p(c)即得到了公式(1)。

2.2 对比预测编码

image-20241228144750731

上图展示了对比预测编码模型的架构。首先,一个非线性编码器 g e n c g_{enc} genc将输入观测序列 x t x_t xt映射成一个潜在表示序列 z t = g e n c ( x t ) z_t=g_{enc}(x_t) zt=genc(xt)。接下来,一个自回归模型 g a r g_{ar} gar对潜在空间中的所有 z ≤ t z_{\leq t} zt进行总结,并生成一个上下文潜在表示 c t = g a r ( z ≤ t ) c_t=g_{ar}(z_{\leq t}) ct=gar(zt)

这里不直接用生成模型 p k ( x t + k ∣ c t ) p_k(x_{t+k}|c_t) pk(xt+kct)来预测未来的观测结果 x t + k x_{t+k} xt+k。相反,对密度比(density ratio)进行建模,该密度比保留了 x t + k x_{t+k} xt+k c t c_t ct之间的互信息(公式(1)),如下所示:
f k ( x t + k , c t ) ∝ p ( x t + k ∣ c t ) p ( x t + k ) (2) f_k(x_{t+k},c_t) \propto \frac{p(x_{t+k}|c_t)}{p(x_{t+k})} \tag 2 fk(xt+k,ct)p(xt+k)p(xt+kct)(2)
其中 ∝ \propto 表示成比例于,即乘以一个常数。密度比 f f f可以是非归一化的(不需要积分到1)。这里我们使用一个简单的对数双线性模型:
f k ( x t + 1 , c t ) = exp ⁡ ( z t + k T W k c t ) (3) f_k(x_{t+1},c_t) = \exp(z_{t+k}^T W_k c_t) \tag 3 fk(xt+1,ct)=exp(zt+kTWkct)(3)
也可以使用非线性网络。

通过使用密度比 f ( x t + k , c t ) f(x_{t+k},c_t) f(xt+k,ct)并使用编码器推断 z t + k z_{t+k} zt+k,减轻了模型对高维分布 x t x_t xt的建模负担。尽管我们无法直接评估 p ( x ) p(x) p(x) p ( x ∣ c ) p(x|c) p(xc),但我们可以使用来自这些分布的样本,从而允许我们使用基于将目标样本与随机采样的负样本进行比较的计数,例如噪声对比估计和重要性采样。

在提出的模型中, z t z_t zt c t c_t ct都可以作为下游任务的表示。如果需要来自过去的额外上下文,则可以使用自回归模型输出 c t c_t ct,比如语音识别,其中 z t z_t zt的感受野可能不足以捕获语音内容。在其他情况下,如果不需要额外的上下文, z t z_t zt可能更合适。如果下游任务需要对整个序列进行表示,比如分类任务,可以将 z t z_t zt c t c_t ct的表示在所有位置上进行池化。

任务类型的编码器和自回归模型都可以在本文提出的框架中使用。

2.3 InfoNCE损失和互信息估计

编码器和自回归模型都经过训练,以共同优化基于NCE的损失函数,我们将其称为InfoNCE。

给定一个包含 N N N个随机样本的集合 X = { x 1 , ⋯   , x N } X=\{x_1,\cdots,x_N\} X={x1,,xN},其中包含一个来自 p ( x t + k ∣ c t ) p(x_{t+k}|c_t) p(xt+kct)的正样本和 N − 1 N-1 N1个来自提议(proposal)分布 p ( x t + k ) p(x_{t+k}) p(xt+k)的负样本。我们希望使公式(2)的结果最大,可以写出对应的交叉熵损失如下:
L N = − ∑ X [ p ( x , c ) log ⁡ f k ( x t + k , c t ) ∑ x j ∈ X f k ( x j , c t ) ] = − E X [ log ⁡ f k ( x t + k , c t ) ∑ x j ∈ X f k ( x j , c t ) ] \begin{aligned} \mathcal L_\text{N} &= -\sum_X \left[ p(x,c) \log \frac{f_k(x_{t+k},c_t)}{\sum_{x_j \in X} f_k(x_j,c_t) } \right] \\ &=-\Bbb E_X \left[ \log \frac{f_k(x_{t+k},c_t)}{\sum_{x_j \in X} f_k(x_j,c_t) }\right] \end{aligned} LN=X[p(x,c)logxjXfk(xj,ct)fk(xt+k,ct)]=EX[logxjXfk(xj,ct)fk(xt+k,ct)]
优化此损失将导致 f k ( x t + k , c t ) f_k(x_{t+k},c_t) fk(xt+k,ct)估计公式(2)中的密度比。下面给出证明。

公式(4)中的损失是将正样本正确分类的交叉熵损失,其中 f k ∑ X f k \frac{f_k}{\sum_X f_k} Xfkfk是模型的预测结果。将此损失的最佳概率记为 p ( d = i ∣ X , c t ) p(d=i|X,c_t) p(d=iX,ct),其中 [ d = i ] [d=i] [d=i]表示样本 x i x_i xi是正样本。从条件分布 p ( x t + k ∣ c t ) p(x_{t+k}|c_t) p(xt+kct)而不是提议分布 p ( x t + k ) p(x_{t+k}) p(xt+k)中抽取样本 x i x_i xi的概率可以推导如下:
p ( d = i ∣ X , c t ) = p ( x i ∣ c t ) = p ( x i ∣ c t ) ∏ l ≠ i p ( x l ) ∑ j = 1 N p ( x j ∣ c t ) ∏ l ≠ j p ( x l ) = p ( x i ∣ c t ) p ( x i ) p ( x i ) ∏ l ≠ i p ( x l ) ∑ j = 1 N p ( x j ∣ c t ) p ( x j ) p ( x j ) ∏ l ≠ j p ( x l ) = p ( x i ∣ c t ) p ( x i ) p ( X ) ∑ j = 1 N p ( x j ∣ c t ) p ( x j ) p ( X ) = p ( x i ∣ c t ) p ( x i ) ∑ j = 1 N p ( x j ∣ c t ) p ( x j ) (5) \begin{aligned} p(d=i|X,c_t) &= p(x_i|c_t) \\ &= \frac{ p(x_i|c_t)\prod_{l \neq i} p(x_l) }{\sum_{j=1}^N p(x_j|c_t) \prod_{l \neq j} p(x_l) } \\ &= \frac{ \frac{p(x_i|c_t)}{p(x_i)} p(x_i) \prod_{l \neq i} p(x_l) }{\sum_{j=1}^N \frac{p(x_j|c_t)}{p(x_j)} p(x_j) \prod_{l \neq j} p(x_l) } \\ &= \frac{ \frac{p(x_i|c_t)}{p(x_i)} p(X) }{\sum_{j=1}^N \frac{p(x_j|c_t)}{p(x_j)} p(X) } \\ &= \frac{ \frac{p(x_i|c_t)}{p(x_i)}}{\sum_{j=1}^N \frac{p(x_j|c_t)}{p(x_j)}} \\ \end{aligned} \tag 5 p(d=iX,ct)=p(xict)=j=1Np(xjct)l=jp(xl)p(xict)l=ip(xl)=j=1Np(xj)p(xjct)p(xj)l=jp(xl)p(xi)p(xict)p(xi)l=ip(xl)=j=1Np(xj)p(xjct)p(X)p(xi)p(xict)p(X)=j=1Np(xj)p(xjct)p(xi)p(xict)(5)
来解释下这个式子,这里假设 x i x_i xi是正样本,因此是从 p ( x t + k ∣ c t ) p(x_{t+k}|c_t) p(xt+kct)采样出来的,而其他 l ≠ i l\neq i l=i是从 p ( x t + k ) p(x_{t+k}) p(xt+k)所采样出来的。这个式子表示给定上下文 c t c_t ct和数据 X X X x i x_i xi是正样本的概率是多少。

我们看上式中第二个等式,分子表示 x i x_i xi是正样本的概率乘以其他 x l x_l xl( l ≠ i l\neq i l=i)是负样本的概率;分母表示正样本可能为 X X X中任何一个样本的概率之和。

我们第三个式子是构建整个样本的联合概率分布 p ( X ) p(X) p(X),它是一个常量。我们可以把它约掉得到最后一个等式。

可以发现分子和分母都简化为公式(2)中的密度比。公式(4)中 f ( x t + k , c t ) f(x_{t+k},c_t) f(xt+k,ct)的最优值与 p ( x t + k ∣ c t ) p ( x t + k ) \frac{p(x_{t+k}|c_t)}{p(x_{t+k})} p(xt+k)p(xt+kct)成正比,与负样本的数量 N − 1 N-1 N1的选择无关。

我们将这个最优值代回公式(4)并将 X X X分割为正样本和负样本 X neg X_\text{neg} Xneg,得到:
L N opt = − E X log ⁡ [ p ( x t + k ∣ c t ) p ( x t + k ) p ( x t + k ∣ c t ) p ( x t + k ) + ∑ x j ∈ X neg p ( x j ∣ c t ) p ( x j ) ] = E X log ⁡ [ 1 + p ( x t + k ) p ( x t + k ∣ c t ) ∑ x j ∈ X neg p ( x j ∣ c t ) p ( x j ) ] ≈ E X log ⁡ [ 1 + p ( x t + k ) p ( x t + k ∣ c t ) ( N − 1 ) ] = E X log ⁡ [ p ( x t + k ∣ c t ) + ( N − 1 ) p ( x t + k ) p ( x t + k ∣ c t ) ] ≥ E X log ⁡ [ p ( x t + k ) p ( x t + k ∣ c t ) N ] = E X log ⁡ [ p ( x t + k ) p ( x t + k ∣ c t ) ] + log ⁡ N = − I ( x t + k , c t ) + log ⁡ ( N ) \begin{aligned} \mathcal L_\text N^\text{opt} &= -\Bbb E_X \log \left[ \frac{\frac{p(x_{t+k}|c_t)}{p(x_{t+k})}}{\frac{p(x_{t+k}|c_t)}{p(x_{t+k})} + \sum_{x_j \in X_\text{neg}}\frac{p(x_j|c_t)}{p(x_j)} } \right] \\ &= \Bbb E_X \log \left[ 1 + \frac{p(x_{t+k})}{p(x_{t+k}|c_t)} \sum_{x_j \in X_\text{neg}}\frac{p(x_j|c_t)}{p(x_j)}\right] \\ &\approx \Bbb E_X \log \left[ 1 + \frac{p(x_{t+k})}{p(x_{t+k}|c_t)} (N-1) \right] \\ &= \Bbb E_X \log \left[ \frac{p(x_{t+k}|c_t) + (N-1)p(x_{t+k})}{p(x_{t+k}|c_t)} \right] \\ &\geq \Bbb E_X \log \left[ \frac{p(x_{t+k})}{p(x_{t+k}|c_t)} N\right] \\ &= \Bbb E_X \log \left[ \frac{p(x_{t+k})}{p(x_{t+k}|c_t)} \right] + \log N \\ &= -I(x_{t+k},c_t) + \log (N) \end{aligned} LNopt=EXlog p(xt+k)p(xt+kct)+xjXnegp(xj)p(xjct)p(xt+k)p(xt+kct) =EXlog 1+p(xt+kct)p(xt+k)xjXnegp(xj)p(xjct) EXlog[1+p(xt+kct)p(xt+k)(N1)]=EXlog[p(xt+kct)p(xt+kct)+(N1)p(xt+k)]EXlog[p(xt+kct)p(xt+k)N]=EXlog[p(xt+kct)p(xt+k)]+logN=I(xt+k,ct)+log(N)
因此 I ( x t + k , c t ) ≥ log ⁡ ( N ) − L N opt I(x_{t+k},c_t) \geq \log (N) -\mathcal L_\text N^\text{opt} I(xt+k,ct)log(N)LNopt。我们通过这种方式评估 c t c_t ct x t + k x_{t+k} xt+k之间的互信息,最小化InfoNCE损失 L N \mathcal L_\text N LN最大化了互信息的下界,随着 N N N的增大,它也变得更加紧密。上式是怎么来的,讲一下个人的浅见,如有不对,欢迎指出。

第三个等式(约等于)是怎么来的,假设 p ( x j ∣ c t ) ≈ p ( x j ) p(x_j|c_t) \approx p(x_j) p(xjct)p(xj)

第五个等式因为 p ( x t + k ∣ c t ) ≥ p ( x t + k ) p(x_{t+k}|c_t) \geq p(x_{t+k}) p(xt+kct)p(xt+k)

总结

⭐ InfoNCE中的Info指的是互信息,目标是在学习过程中最大化互信息。InfoNCE在给定一个正样本和一组互样本的情况下,最大化正样本和一组负样本得分之间的对比,让模型能更好的学习数据的表示。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/948243.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【C#深度学习之路】如何使用C#实现Yolo5/8/11全尺寸模型的训练和推理

【C#深度学习之路】如何使用C#实现Yolo5/8/11全尺寸模型的训练和推理 项目背景项目实现调用方法项目展望写在最后项目下载链接 本文为原创文章,若需要转载,请注明出处。 原文地址:https://blog.csdn.net/qq_30270773/article/details/1449186…

如何很快将文件转换成另外一种编码格式?编码?按指定编码格式编译?如何检测文件编码格式?Java .class文件编码和JVM运行期内存编码?

如何很快将文件转换成另外一种编码格式? 利用VS Code右下角的"选择编码"功能,选择"通过编码保存"可以很方便将文件转换成另外一种编码格式。尤其,在测试w/ BOM或w/o BOM, 或者ANSI编码和UTF编码转换,特别方便。VS文件另…

[Python学习日记-74] 面向对象实战2——选课系统

[Python学习日记-74] 面向对象实战2——选课系统 简介 开发要求 实现:选课系统 简介 在前面的《年会答题系统》当中我们介绍了面向对象软件开发的一些流程,当然这一流程只是涵括了大部分的,目前在业界也没有一个统一的标准,每个…

游泳溺水识别数据集,对25729张图片进行YOLO,COCO JSON, VOC XML 格式的标注,溺水平均识别率在89.9%

游泳溺水识别数据集,对25729张图片进行YOLO,COCO JSON, VOC XML 格式的标注,溺水识别率在92% 训练结果 数据集和标签 验证 游泳测试视频 根据测试的视频来获取检测结果: 游泳测试视频的置信度设置60% 检测结果如下&…

性能测试03|JMeter:断言、关联、web脚本录制

目录 一、断言 1、响应断言 2、json断言 3、持续时间断言 二、关联 1、正则表达式介绍 2、正则表达式提取器 3、Xpath提取器 4、JSON提取器 5、JMeter属性 三、web脚本录制 一、断言 定义:让程序自动判断实际的返回结果是否与预期结果保持一致 自动校验…

MetaGPT - 多Agent框架

文章目录 一、关于 MetaGPT功能介绍快速开始的演示视频教程 二、安装Pip安装Docker安装 一、关于 MetaGPT MetaGPT 为GPTs分配不同的角色,以形成一个协作实体来完成复杂的任务。 github : https://github.com/geekan/MetaGPTtwitter : https://twitter.com/MetaGP…

Qt窗口获取Tftpd32_svc服务下载信息

前言 一个由Qt开发的Windows小工具需要布置Tftp协议服务端来支持设备下载数据,并显示下载列表(进度、下载源等)。 考虑开发方便,优先使用了Qtftp方案,经测试发现,不够稳定,会有下载超时的情况&a…

xml格式化(3):增加头部声明

前言 这篇文章&#xff0c;是用来增加头部声明。 正文 from lxml import etreedef pretty_print(element, level0, indent" "):result ""# 判断元素是否为注释节点if isinstance(element, etree._Comment):result f"{indent * level}<!--{el…

python +tkinter绘制彩虹和云朵

python tkinter绘制彩虹和云朵 彩虹&#xff0c;简称虹&#xff0c;是气象中的一种光学现象&#xff0c;当太阳光照射到半空中的水滴&#xff0c;光线被折射及反射&#xff0c;在天空上形成拱形的七彩光谱&#xff0c;由外圈至内圈呈红、橙、黄、绿、蓝、靛、紫七种颜色。事实…

【Linux】定时运行shell脚本

1、at命令 at命令允许指定Linux系统何时运行脚本&#xff0c;它会将作业提交到队列中&#xff0c;指定shell在什么时候运行该作业。 at 的守护进程 atd 在后台运行&#xff0c;在作业队列中检查待运行的作业。 at 守护进程会检查系统的一个特殊目录&#xff08;一般位于/var/…

vue3 css实现文字输出带光标显示,文字输出完毕,光标消失的效果

Vue实现过程如下&#xff1a; <template><div ><p ref"dom_element" class"typing" :class"{over_fill: record_input_over}"></p></div> </template> <script setup> import {onMounted, ref} from…

数据库高安全—角色权限:角色创建角色管理

目录 3.1 角色创建 3.2 角色管理 书接上文openGauss安全整体架构&安全认证&#xff0c;从安全整体架构与安全认证两方面&#xff0c;对高斯数据库的高安全性能进行了解读&#xff0c;本篇我们将从角色创建和角色管理两方面对高斯数据库的角色权限进行介绍。 3.1 角色创建…

【U8+】用友U8软件中,出入库流水输出excel的时候提示报表输出引擎错误。

【问题现象】 通过天联高级版客户端登录拥有U8后&#xff0c; 将出入库流水输出excel的时候&#xff0c;提示报表输出引擎错误。 进行报表输出时出现错误&#xff0c;错误信息&#xff1a;找不到“fd6eea8b-fb40-4ce4-8ab4-cddbd9462981.htm”。 如果您正试图从最近使用的文件列…

《GICv3_Software_Overview_Official_Release_B》学习笔记

1.不同版本的 GIC 架构及其主要功能如下图所示&#xff1a; 2.GICv2m&#xff08;Generic Interrupt Controller Virtualization Model&#xff09;是针对ARM架构的GIC&#xff08;通用中断控制器&#xff09;的一种扩展&#xff0c; GICv2m扩展为虚拟化环境中的中断管理提供了…

【循环神经网络】RNN介绍

在人工神经网络中&#xff0c;”浅层网络”是指具有一个输入层、一个输出层和最多一个没有循环连接的隐藏层的网络。随着层数的增加&#xff0c;网络的复杂性也在增加。更多的层或循环连接通常会增加网络的深度&#xff0c;并使其能够提供不同级别的数据表示和特征提取&#xf…

C#调用Lua

目录 xLua导入 打包工具导入 单例基类导入与AB包管理器导入 Lua解析器 文件加载与重定向 Lua解析器管理器 全局变量获取 全局函数获取 对于无参数无返回值 对于有参数有返回值 对于多返回值 对于变长参数 完整代码 List与Dictionary映射Table 类映射Table 接口映射…

麒麟操作系统服务架构保姆级教程(七)Nginx+PHP+Mysql部署服务

上边几篇文章已经交过大家二进制部署nginx和php&#xff0c;现在咱们打通nginx和php&#xff0c;mysql和php&#xff0c;开始部署服务&#xff0c;学会部署服务之后就可以开始学习负载均衡啦&#xff0c;话不多说&#xff0c;咱们直接开始~~~ 目录 一、.nginx部署 二、安装PH…

开源模型迎来颠覆性突破:DeepSeek-V3与Qwen2.5如何重塑AI格局?

不用再纠结选择哪个AI模型了&#xff01;chatTools 一站式提供o1推理模型、GPT4o、Claude和Gemini等多种选择&#xff0c;快来体验吧&#xff01; 在全球人工智能模型快速发展的浪潮中&#xff0c;开源模型正逐渐成为一股不可忽视的力量。近日&#xff0c;DeepSeek-V3和Qwen 2.…

【Java项目】基于SpringBoot的【新生宿舍管理系统】

【Java项目】基于SpringBoot的【新生宿舍管理系统】 技术简介&#xff1a;本系统使用采用B/S架构、Spring Boot框架、MYSQL数据库进行开发设计。 系统简介&#xff1a;管理员登录进入新生宿舍管理系统可以查看首页、个人中心、公告信息管理、院系管理、班级管理、学生管理、宿舍…

《learn_the_architecture_-_trustzone_for_aarch64_102418_0101_03_en》学习笔记

1.TrustZone是Arm A-profile架构中安全架构的名称。TrustZone首次在Armv6K中引入&#xff0c;Armv7-A和Armv8-A也支持。TrustZone提供两个执行环境&#xff0c;它们之间具有系统范围的硬件强制隔离。在Arm架构中&#xff0c;有两种安全状态&#xff1a;安全和非安全。在EL0、EL…