NLP论文速读|ScPO:自我一致性的偏好优化(Self-Consistency Preference Optimization)

论文速读|Self-Consistency Preference Optimization

论文信息:

图片

简介:

      这篇论文试图解决的问题是如何在没有人类标注数据的情况下,提高大型语言模型(LLMs)在复杂推理任务上的性能。现有的自我对齐技术往往因为难以分配正确的奖励而未能在这些任务上取得进展。此外,这些技术在处理需要复杂推理的问题时,由于模型难以评估自身响应的正确性,导致自我评估方法效果不佳。动机在于现有的训练方法依赖于人类数据,而这些数据的收集过程在成本、时间和专业知识方面都非常耗费资源。为了克服这些限制,研究者们开始探索通过自我训练的方式,从模型生成的数据中迭代训练模型。然而,这种方法在评估模型自身响应的正确性时遇到了困难,尤其是在面对复杂问题求解任务时。因此,本文提出了一种新的方法——自我一致性偏好优化(SCPO),旨在通过自我一致性的概念来改善模型的训练过程。

论文方法:

图片

      自我一致性偏好优化(SCPO)是一种无监督的迭代训练方法,它利用自我一致性的概念来训练模型,以便在推理任务中更倾向于选择一致的答案而非不一致的答案。

      具体方法如下:

      假设我们有一个初始的基础模型M0和一些高质量的未标记查询。模型将在每次训练迭代中被训练和更新,产生M1, M2, ..., MT等模型,其中T是迭代的总次数。SCPO不依赖于响应的金标签(答案),而是使用模型Mt的一致性来评估和排名每个响应的质量。使用少量示例问题作为种子集,随机选择多个示例问题并放置在上下文中以生成新问题。SCPO不依赖于准确生成相应的答案,允许模型生成更多样化的问题,只要问题是结构良好且至少有一些是可以回答的。对于训练数据Dt中的每个问题x,使用当前模型Mt基于温度采样生成k个响应。然后,根据响应的一致性创建偏好对Dpairs t,选择最一致的响应作为被选中(获胜)响应,选择最不一致的响应作为被拒绝(失败)响应。SCPO假设当多个响应映射到同一个答案时,预测的答案可能是正确的。因此,使用一致性作为一个代理来创建偏好对。同时,一个响应获得的投票数也可以反映模型对该响应的信心,这意味着投票差距更大的对是更高质量的。从初始种子模型M0开始,训练一系列模型M1, M2,即进行T=2次迭代。每个模型Mt+1都使用LSCPO在Dpairs t上进行训练,这些数据由第t个模型生成。

论文实验:

图片

      实验旨在评估SCPO在数学推理任务上的有效性。具体来说,实验使用了GSM8K数据集,该数据集包含了小学级别的数学问题,分为训练集、验证集和测试集。实验中,SCPO方法在无监督(SCPOUnsup.)和半监督(SCPOSemi-Sup.)两种设置下进行了测试。

      在无监督设置中,SCPO不依赖于金标准答案,而是通过模型生成的数据来自我训练。在半监督设置中,SCPO结合了金标准答案和模型生成的问题。在GSM8K数据集上,经过一次迭代的SCPO(M1)在贪婪解码下将零样本准确率从41.17%提高到61.03%,提高了22.74%。经过两次迭代(M2)后,准确率进一步提高到63.91%,提高了5.26%。使用基于自我一致性的推理(SC),经过一次迭代的SCPO(M1)将准确率从51.80%提高到71.49%,提高了19.69%。经过两次迭代(M2)后,准确率进一步提高到71.11%,提高了3.31%。在GSM8K数据集上,经过一次迭代的SCPO(M1)在贪婪解码下将准确率从41.17%提高到63.61%,提高了22.44%。经过两次迭代(M2)后,准确率进一步提高到66.64%,提高了5.47%。

论文链接:

https://arxiv.org/abs/2411.04109

原文来自:

NLP论文速读|ScPO:自我一致性的偏好优化

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/915314.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【前端学习指南】Vue computed 计算属性 watch 监听器

🍭 Hello,我是爱吃糖的范同学 🔴 想把自己学习技术的经历和一些总结分享给大家! 🔴 通过这样的方式记录自己成长,同时沉淀自己的技术,我会把所有额外的时间和经历投放到CSDN和公众号&#xff0…

自动驾驶合集(更新中)

文章目录 车辆模型控制路径规划 车辆模型 车辆模型基础合集 控制 控制合集 路径规划 规划合集

vcenter service基本异常处理

服务:vcenter service 版本: 7.0.3 问题描述:无法访问vcenter ui 排障思路: 1. 登入vcenter所在服务器执行基础排查:内存、cpu、磁盘、网络等,发现磁盘日志目录已经爆满,删除180天前的日志恢…

Background Tasks Kit(后台任务开发服务)

11_13日学习笔记 Background Tasks Kit(后台任务开发服务) Background Tasks Kit简介 设备返回主界面、锁屏、应用切换等操作会使应用退至后台。 应用退至后台后,如果继续活动,可能会造成设备耗电快、用户界面卡顿等现象。 为了…

modbus协议 Mthings模拟器使用

进制转换 HEX 16进制 (0、1、2、3、4、5、6、7、8、9、A、B、C、D、E、F表示0-15) dec 10进制 n(16进制) -> 10 abcd.efg(n) d*n^0 c*n^1 b*n^2 a*n^3 e*n^-1 f*n^-2 g*n^-3(10) 10 -> n(16进制) Modbus基础概念 高位为NUM_H&…

Python多进程间通讯(包含共享内存方式)

文章目录 1 通过非共享内存配合队列方式2 通过共享内存配合队列方式 注:本博文测试环境为Linux系统。 1 通过非共享内存配合队列方式 下面是一个常见的生产者与消费者的模式示例,这里分别启动了两个子进程,一个为生产者(producer…

YOLOv11实战宠物狗分类

本文采用YOLOv11作为核心算法框架,结合PyQt5构建用户界面,使用Python3进行开发。YOLOv11以其高效的特征提取能力,在多个图像分类任务中展现出卓越性能。本研究针对5种宠物狗数据集进行训练和优化,该数据集包含丰富的宠物狗图像样本…

游戏引擎学习第八天

视频参考: https://www.bilibili.com/video/BV1ouUPYAErK/ 理解下面的代码 关于虚函数 代码分解 结构体 foo 的定义: struct foo {int32 X;int64 Y;virtual void Bar(int c); };foo 结构体有两个成员变量:X(int32 类型)和 Y&…

我要学kali-linux之shell脚本编程1

声明! 学习视频来自B站up主 **泷羽sec** 有兴趣的师傅可以关注一下,如涉及侵权马上删除文章,笔记只是方便各位师傅的学习和探讨,文章所提到的网站以及内容,只做学习交流,其他均与本人以及泷羽sec团队无关&a…

尽量通俗易懂地概述.Net U nity跨语言/跨平台相关知识

本文参考来自唐老狮,Unity3D高级编程:主程手记,ai等途径 仅作学习笔记交流分享 目录 1. .Net是什么? 2. .Net框架的核心要点? 跨语言和跨平台 .Net x Unity跨平台发展史 Net Framework 2002 Unity跨平台之 Mono 2004 Unity跨平台之 IL2CPP 2015 二者区别 .NET Core …

大陆 ARS513 / ARS510 标准雷达(解析二)

1。GW_ACU (0x40) • GW_ACU_LongAccel Longitudinal acceleration of ego vehicle. • GW_ACU_LongAccel_ValidFlag Valid flag of signal “GW_ACU_LongAccel”. • GW_ACU_LateralAccel Lateral acceleration of ego vehicle. Signal quality requirements for “GW_ACU_La…

【游戏引擎之路】登神长阶(十四)——OpenGL教程:士别三日,当刮目相看

【游戏引擎之路】登神长阶(十四)——OpenGL教程:士别三日,当刮目相看 2024年 5月20日-6月4日:攻克2D物理引擎。 2024年 6月4日-6月13日:攻克《3D数学基础》。 2024年 6月13日-6月20日:攻克《3D…

【C++动态规划】2304. 网格中的最小路径代价|1658

本文涉及知识点 C动态规划 LeetCode2304. 网格中的最小路径代价 给你一个下标从 0 开始的整数矩阵 grid ,矩阵大小为 m x n ,由从 0 到 m * n - 1 的不同整数组成。你可以在此矩阵中,从一个单元格移动到 下一行 的任何其他单元格。如果你位…

数据中台解决方案

文件是关于数据中台解决方案的详细介绍,内容涵盖了数据中台的定义、建设方案、实施步骤、以及在数字化转型中的作用。以下是对文件内容的分析和总结: 1. 数字化转型背景 国家政策支持:提到了《中华人民共和国国民经济和社会发展第十四个五年…

JS 实现WebSocket通讯和什么是WebSocket

WebSocket 介绍: WebSocket 是一种网络传输协议,可在单个 TCP 连接上进行全双工通信。它允许服务器主动向客户端推送信息,客户端也能实时接收服务器的响应。 客户端 这里实现了将input内的内容发送给客户端,并将接收到的服务器的…

K8S单节点部署及集群部署

1.Minikube搭建单节点K8S 前置条件:安装docker,注意版本兼容问题 # 配置docker源 wget https://mirrors.aliyun.com/docker-ce/linux/centos/docker-ce.repo -O /etc/yum.repos.d/docker-ce.repo# 安装docker环境依赖 yum install -y yum-utils device-m…

算法闭关修炼百题计划(六)

塔塔开(滑稽 1.删除排序链表中的重复元素2.删除排序链表中的重复元素II3.字典序的第k小数字4.下一个排列5.排序链表6.随机链表的复制7.数据流的中位数 1.删除排序链表中的重复元素 使每个元素就出现一次 class Solution { public:ListNode* deleteDuplicates(ListNode* head)…

PH热榜 | 2024-11-13

DevNow 是一个精简的开源技术博客项目模版,支持 Vercel 一键部署,支持评论、搜索等功能,欢迎大家体验。 在线预览 1. Agree.com 标语:人人免费电子签名! 介绍:Agree,这款由人工智能驱动的平台…

PTE-中间件安全

DOCKER环境,一般是80 8080 8081端口 1 apache位置扩展名解析漏洞 cd vulhub-master/httpd/apache_parsing_vulnerability/ docker-compose up -d 修改一句话的后缀 直接上传 蚁剑 2 CVE-2017-15715 docker-compose stop cd .. cd CVE-2017-15715/ dock…

【Linux】Github 仓库克隆速度慢/无法克隆的一种解决方法,利用 Gitee 克隆 Github 仓库

Github 经常由于 DNS 域名污染以及其他因素克隆不顺利。 一种办法是修改 hosts sudo gedit /etc/hosts加上一行 XXX.XXX.XXX.XXX github.comXXX 位置的 IP 可以通过网站查询 IP/服务器github.com的信息-站长工具 这种方法比较适合本身可以克隆,但是速度很慢的…