SimCSE论文阅读

  • 正负样本对构建原理正样本pair:one sentence two different embeddings as “positive pairs”. (通过dropout 作为噪声)
  • 负样本pair:Then we take other sentences in the same mini-batch as “negatives”
  • 任务: the model predicts the positive one among the negatives

在这里插入图片描述

无监督pair构造:

  • 只有自己和自己的随机dropout后的是正样本pair
  • 自己和其他的样本都是负样本

其实一个batch,比如有N个句子对,那么就有2N个句子,其中正例是1个,负样本应该是总样本数目2N减去样本本身,也就是2N-1;

在这里插入图片描述

有监督的pair构造:

按照上图理解,一个句子,有两个已经打好不同的标签的句子,进行配对。pair远离一样。

构造难度增加(一般采用这种策略):

在这里插入图片描述

infoNCE Loss的理解:

在这里插入图片描述

Q:温度常数t的作用是什么?
温度系数的作用是调节对困难样本的关注程度:越小的温度系数越关注于将本样本和最相似的困难样本分开,去得到更均匀的表示。然而困难样本往往是与本样本相似程度较高的,很多困难负样本其实是潜在的正样本,过分强迫与困难样本分开会破坏学到的潜在语义结构,

  • 因此,温度系数不能过小

考虑两个极端情况:
(1)温度系数趋向于0时,对比损失退化为只关注最困难的负样本的损失函数;
(2)当温度系数趋向于无穷大时,对比损失对所有负样本都一视同仁,失去了困难样本关注的特性。
物理的角度理解:

可以把不同的负样本想像成同极点电荷在不同距离处的受力情况,距离越近的点电荷受到的库伦斥力更大,而距离越远的点电荷受到的斥力越小。

  • 对比损失中,越近的负例受到的斥力越大,具体的表现就是对应的负梯度值越大[4]。这种性质更有利于形成在超球面均匀分布的特征。

  • 梯度越大,权重更新的越厉害,越能区分开来

构造案例:

在这里插入图片描述
在这里插入图片描述

  • 100 是指自己和自己完全一样,表示自身和自身不做相似度比较。
  • 1是指自己和自己不同的embedding
  • 不同的embedding构造:SimCSE源码中实际上是在一个batch中实现的,即[a,a,b,b…]作为一个batch去输入(复制一下)

对比学习度量学习和对比学习的思想是一样的,都是去拉近相似的样本,推开不相似的样本
但是对比学习是无监督或者自监督学习方法,而度量学习一般为有监督学习方法

对比学习的loss:

对比学习在loss设计时,为单正例多负例的形式,因为是无监督,数据是充足的,也就可以找到无穷的负例,但如何构造有效正例才是重点

度量学习的loss:

而度量学习多为二元组或三元组的形式,如常见的Triplet形式(anchor,positive,negative),Hard Negative的挖掘对最终效果有较大的影响

  • Q:对比学习中一般选择一个batch中的所有其他样本作为负例,那如果负例中有很相似的样本怎么办?

在无监督无标注的情况下,这样的伪负例,其实是不可避免的,首先可以想到的方式是去扩大语料库,去加大batch size,以降低batch训练中采样到伪负例的概率,减少它的影响。

SimCSE的缺点

从 SimCSE 的正例构建中我们可以看出来,所有的正例都是由「同一个句子」过了两次模型得到的。

  • 这就会造成一个问题:模型会更倾向于认为,长度相同的句子就代表一样的意思。
  • 原因:由于数据样本是随机选取的,那么很有可能在一个 batch 内采样到的句子长度是不相同的。
    在这里插入图片描述

解决方案:

要想消除模型对句子长度的敏感,我们就需要在构建正例的时候让输入句子的长度发生改变
改变句子长度通常有 3 种方法:随机删除、随机添加、同义词替换,但它们均存在句意变化的风险

  • 所以,通过随机重复单词,既能够改变句子长度,又不会轻易改变语义。

单/双塔

单/双塔参考链接:https://zhuanlan.zhihu.com/p/585533302

关于PromptPromptBert:

  • 作者认为,原生BERT表现不好主要是因为词语频率、大小写、subword等token导致的bias,而BERT本身各层Transformer都没有纠正这个问题。
  • 通过利用prompt,可以更有效地使用BERT各层中的知识,并且用[MASK]来表示embedding的话,可以避免像以前一样做各种token的平均,从而避免了token引入的偏差。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/215075.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

cup型号的意思

CPU 在整个计算机硬件中、技术体系中都算是最最重要的东西了。在 10 月 16 号的时候,Intel 正式发布了第 14 代的酷睿处理器。 一、Intel 的 CPU 型号规则 无论是哪家 CPU 厂商,为了更好地管理自己生产的众多型号的产品,也为了能更好地让消…

学生使用台灯到底好不好?学生备考台灯分享

普通台灯的出现只是为了照明,且它的功能也就只有照明,像是眩光、蓝光、频闪、过亮过暗等等都是普通台灯所存在的问题,而这些问题也正是造成我们眼睛近视、诱发眼部疾病的罪魁祸首,特别是正处于发育时期的青少年们,抵抗…

Anaconda【我的入门困惑】

为什么需要安装Anaconda ? 方便地安装和管理Python及其相关包:Anaconda提供了一个统一的管理界面,用户可以方便地查看和安装需要的Python版本和相关包。同时,它还提供了一个虚拟环境,可以帮助用户使不同的项目隔离开来…

继续画图带你学习TCP 其他 7 大特性

四、滑动窗口机制 五、流量控制 六、拥塞控制 (安全机制) 七、延迟应答 (效率机制) 八、捎带应答 (效率机制) 九、粘包问题 十、保活机制 TCP总结 四、滑动窗口机制 滑动窗口机制,是在可靠性的前提下,进一步地提高传输效率 认识滑动窗口 一发一收…

LLM-Intro to Large Language Models

LLM some LLM’s model and weight are not opened to user what is? Llama 270b model 2 files parameters file parameter or weight of neural networkparameter – 2bytes, float number code run parameters(inference) c or python, etcfor c, 500 lines code withou…

Matlab和python详解数独谜题问题

🔗 运行环境:Matlab、Python 🚩 撰写作者:左手の明天 🥇 精选专栏:《python》 🔥 推荐专栏:《算法研究》 🔐#### 防伪水印——左手の明天 ####🔐 &#x1f4…

爱德华|书客|飞利浦护眼台灯好不好用?多方位测评对比爆料!

说到护眼台灯相信大家都不陌生,很多办公族、学生党都会备上一台用于工作、学习。因为长时间的工作或者学习,会明显的感觉到眼睛疲劳和不适。而护眼台灯可以很好的解决这个难题,因为护眼台灯是经过科学的设计和研发的,护眼台灯可以…

苹果录屏功能在哪?提升你的使用体验

屏幕录制已成为人们日常生活中不可或缺的一部分,苹果设备内置了强大的录屏功能,允许用户捕捉屏幕上的活动,可是很多用户不知道苹果录屏功能在哪。本文将详细介绍如何使用苹果内置录屏功能,为用户提供全面的录屏解决方案。 苹果录屏…

ESP32 LVGL Gui-Guider的移植

使用参考: ESP32系列之LVGL(三):Gui-Guider的使用_esp32 lvgl-CSDN博客 1、拷贝文件: 按照上面的文章,使用Gui-Guider软件生成C代码之后,custom和generated是我们要使用到的文件,…

36、红外遥控(外部中断)

红外遥控简介 红外遥控是利用红外光进行通信的设备,由红外LED将调制后的信号发出,由专用的红外接收头进行解调输出 通信方式:单工,异步 红外LED波长:940nm 通信协议标准:NEC标准 硬件电路 基本发送与接收…

海云安参与制定《信息安全技术 移动互联网应用程序(App)软件开发工具包(SDK)安全要求》标准正式发布

近日,由TC260(全国信息安全标准化技术委员会)归口 ,主管部门为国家标准化管理委员会,深圳海云安网络安全技术有限公司(以下简称“海云安”)等多家相关企事业单位共同参与编制的GB/T 43435-2023《…

鸿蒙Watch 页面跳转

新建页面 config.json 回自动注册 添加跳转 <button type"capsule" onclick"toStatusMonitor">状态检测</button>写跳转方法 import router from system.router;export default {data: {},onInit() {},onShow() {},toStatusMonitor() {rou…

GraphPad Prism 9:最强大的数据分析软件,助您轻松解析复杂数据!

您是否正在寻找一个功能强大、易于使用的数据分析软件&#xff1f;GraphPad Prism 9是您的最佳选择&#xff01;作为全球领先的科学数据分析工具&#xff0c;Prism 9提供了广泛的功能和先进的统计分析方法&#xff0c;帮助您轻松解析和可视化复杂的数据。 Prism 9不仅具备直观…

linux作业管理_jobs

4.2 作业管理 是指控制当前正在运行的进程的行为&#xff0c;也称为进程控制。 是shell的一个特性&#xff0c;使用户能在多个独立进程间进行切换。 例如&#xff0c;用户可以挂起一个正在运行的进程&#xff0c;稍后再恢复其运行。当用户使用vim编辑一个文本文件&#xff0c…

Android把宽高均小于给定值的Bitmap放大到给定值,Kotlin

Android把宽高均小于给定值的Bitmap放大到给定值&#xff0c;Kotlin 假设拉伸放大到SIZE2048 fun scaleSize(image: Bitmap): Bitmap {val w image.widthval h image.heightvar newW: Intvar newH: Intif (w > h) {newW SIZEnewH (SIZE / w.toFloat()) * h} else {newW …

【Springboot+vue】如何运行springboot+vue项目

从github 或者 gitee 下载源码后&#xff0c;解压&#xff0c;再从idea打开项目 后端代码处理 这是我在gitee下载下来的源码 打开之后&#xff0c;先处理后端代码 该配置的配置&#xff0c;该部署的部署 比如将sql文件导入数据库 然后去配置文件更改配置 然后启动项目 确保…

极米Z系列双十一销量超10万台 极米Z7X成轻薄投影首选

近期&#xff0c;极米2023双十一战报公布&#xff0c;双十一全周期&#xff08;10月19日00:00-11月11日23:59&#xff09;极米夺得京东/天猫/抖音投影品类销量&GMV双第一&#xff0c;全网单品总销量超190,000台。按照产品系列来看&#xff0c;极米家用旗舰H系列全网销量超4…

在项目根目录未找到 app.json

这个问题就是我们在编译后的app.json文件找不到&#xff0c;路径出现了问题 首先看dist下我们该文件的路径 所以我们需要将该路径配置到我们project.config.json文件中去 在这里新加下面这行代码就可以了&#xff0c; "miniprogramRoot": "dist/dev/mp-weixi…

【蓝桥杯选拔赛真题73】Scratch烟花特效 少儿编程scratch图形化编程 蓝桥杯创意编程选拔赛真题解析

目录 scratch烟花特效 一、题目要求 编程实现 二、案例分析 1、角色分析

16种数据分解方法任意挑选,MATLAB代码,实现数据分解自由,一次性全部带走,速看!...

目录 16种常用的数据分解方法 EMD(经验模态分解) EEMD(集合经验模态分解) CEEMD(互补集合经验模态分解) FEEMD(快速EEMD分解) CEEMDAN(完全自适应噪声集合经验模态分解) ICEEMDAN(改进的自适应噪声完备EEMD) LMD(局域均值分解) RLMD(鲁棒性局部均值分解) EWT(经验小波分解) VMD…