LLM自动化对齐技术

近年来,大语言模型(LLMs)的快速发展,极大地重塑了人工智能的格局。一致性是塑造与人类意图和价值观相对应的LLMs行为的核心,例如,教导LLMs遵循响应过程中“有帮助(Helpful)、无害(Harmless)和诚实 (Honest)”的原则(称为“3H原则”)。因此,为了满足人类的需求,LLMs必须“与人类对齐(Alignment)”,这也使得RLHF成为LLM的热点研究方向。

3H原则解释

1. Helpful(有帮助的)
    ○ 定义:模型的输出应该对用户有实际帮助,能够解决用户的问题或满足用户的需求。
    ○ 具体要求:模型应该提供准确、相关且有价值的信息,避免误导用户或提供无用的信息。
    ○ 示例:在回答用户的问题时,模型应该提供清晰、详细且正确的答案,而不是模棱两可或错误的信息。
2. Honest(诚实的)
    ○ 定义:模型的输出应该真实可靠,不应捏造事实或误导用户。
    ○ 具体要求:模型应该基于事实和数据提供回答,避免虚假信息和不实陈述。
    ○ 示例:如果模型不知道答案,它应该诚实地表明,而不是编造一个可能错误的回答。
3. Harmless(无害的):
  ○ 定义:模型的输出不应对用户或社会造成伤害。
  ○ 具体要求:模型应该避免生成有害、冒犯或不适当的内容,确保其行为符合道德和法律标准。
  ○ 示例:模型应避免生成暴力、歧视、仇恨言论或其他可能引起负面影响的内容。

一、人工对齐的困境

“对齐”在LLMs中指的是使机器的输出更符合人类的偏好和期望。以往的研究主要依赖于人工标注的对齐数据,这些数据包含了人类的偏好信息,用于在预训练模型上进行后训练(post-training)以实现对齐。

对齐数据的两种形式

  • 指令-响应对(instruction-response pairs:通常包括一个query和一个人工写的标准答案。这种数据形式常用于监督式微调(supervised fine-tuning,SFT),将人类偏好信息注入模型中。
  • 偏好数据(preference data:通常包括一个query、几个可能的response以及人类对这些response的偏好。这种数据可以用于直接偏好优化,通过如DPO、IPO和PRO等算法。

偏好优化算法

  • DPO(Direct Preference Optimization):直接偏好优化算法,不使用强化学习,直接通过决策函数与奖励函数的关系进行优化
  • IPO(Indirect Preference Optimization):间接偏好优化算法,使用强化学习,通过奖励建模(Reward Model,RM)和环境交互来优化策略
  • PRO(Preference-based Reward Optimization):基于偏好的奖励优化算法,使用强化学习,基于人类反馈构建奖励函数并进行优化

除了DPO外,偏好数据可以用于训练一个RM,该模型通过提供对模型响应的反馈,将目标策略的LLM与数据中的偏好信息对齐。然而,无论是指令-响应对还是偏好数据的构建过程,都需要非常昂贵且细致的人工标注,并且要求高标准的质量,这使得这些方法的扩展步骤非常昂贵。

尽管人工标注对齐方法成本高昂,但它们在可扩展性上仍然不可持续。随着LLMs的快速发展,它们在许多方面的能力已经接近甚至超过了人类。这使得人类为LLMs生成有意义的对齐数据变得越来越具有挑战性。许多研究表明,由LLMs生成的数据在许多方面已经超越了一般人工标注的数据质量。这意味着:

  • 获得单个有意义的人工标注数据的成本显著提高,因为需要更高质量的标注者。
  • 人工标注数据对LLMs的潜在好处大大降低。

随着LLMs的能力逐渐超越人类能力边界,人类越来越难以有效判断LLMs生成的响应的质量。这导致:

  • 人类生成的偏好信号质量显著下降。
  • 这些信号不再能准确反映人类需求。

基于人工标注的对齐方法越来越难以应对LLMs能力的快速提升,使得实现对LLMs的可扩展监督变得困难。

二、自动化对齐的兴起

为了应对依赖人工标注的对齐方法所面临的挑战,自动化对齐最近受到了极大的关注。与以往依赖人工标注来获取对齐信号的方法不同,自动化对齐的目标是构建可扩展且高质量的对齐系统,这些系统在人类干预最小化的情况下运行。自动化对齐有潜力解决由LLMs快速发展带来的核心挑战,即在人工标注不可行或极其昂贵的情况下,提供有效的对齐解决方案。对于自动化对齐来说,最关键的部分是找到一个可扩展的对齐信号,这种信号可以替代人工手动创建的偏好信号,并在LLMs快速发展的环境中保持有效性

目前行业内已经探索了几种代表性的构建对齐信号的方法,以实现自动化对齐,具体包括:

  1. 通过归纳偏差对齐(Aligning through inductive bias):这种方法通过引入适当的假设和约束,自动引导模型朝向期望的行为,而无需使用模型之外的额外训练信号。归纳偏差是一种内置于模型中的机制,用于指导学习过程,使其倾向于学习某些类型的模式或行为。
  2. 通过行为模仿对齐(Aligning through behavior imitation):这种方法通过模仿另一个已经对齐的模型的行为来实现自动化对齐。例如,使用一个表现良好的对齐模型生成指令-响应对,然后通过模仿学习来训练目标模型。
  3. 通过模型反馈对齐(Aligning through model feedback):这种方法通过从其他模型那里获得反馈来指导目标模型的对齐优化。这可能涉及到使用一个或多个辅助模型来评估和提供关于目标模型行为的反馈。
  4. 通过环境反馈对齐(Aligning through environment feedback):这种方法通过与环境的交互自动获得对齐信号或反馈,以实现目标模型的自动化对齐。这可能涉及到在模拟环境或真实世界环境中测试模型的行为,并根据这些交互的结果来调整模型。

三、自动化对齐的范畴

自动化对齐是指开发一套方法论,旨在减少对人工干预的依赖,通过自动化的方式实现AI系统与人类价值观和期望的对齐。但是,自动化对齐并不意味着完全没有人类参与。相反,它的目标是在构建可扩展、高质量的系统的同时,最小化人类干预,并严格遵循期望的对齐结果。自动化对齐的核心在于其能够通过自动化流程动态调整和响应对齐标准,从而减少对人类持续监督的依赖。

自动化对齐旨在创建能够自我调整以符合人类价值观和期望的系统,同时减少对人工监督的需要。根据对齐信号的来源,当前的自动化对齐研究可以分为四个主要类别:

  • 归纳偏差(Inductive Bias):通过增强模型,引入假设性的概括或规则,使模型能够在没有明确外部指导的情况下产生更好的对齐响应。
  • 行为模仿(Behavior Imitation):通过模仿已经对齐的模型的输出来训练AI系统,利用模仿学习来传播期望的行为。
  • 模型反馈(Model Feedback):通过整合来自其他模型的反馈机制来支持自动化对齐,通过将其他模型的见解纳入目标模型,实现对齐。
  • 环境反馈(Environment Feedback):通过与操作环境的交互自动获取对齐目标,使模型能够根据实时数据和交互进行适应。

1、通过归纳偏差对齐

归纳偏差是通过引入额外的假设来增强模型,使其能够利用自生成的信号进行进一步改进。归纳偏差的两种类型

  • 第一类从LLMs的固有特征中派生出的归纳偏差。例如,一些研究(Wei et al., 2022; Kojima et al., 2022; Wang et al., 2023e; Wang and Zhou, 2024)专注于利用模型输出概率中的模式来激发更好的结果。此外,其他研究(Bai et al., 2022b; Yao et al., 2023b; Saunders et al., 2022; Shinn et al., 2023)利用模型的能力进行自我批评、判断和改进其响应,从而提高安全性和质量。还有研究(Ganguli et al., 2022; Lin et al., 2024a)发现,仅在上下文中提供对齐的目标信号就允许LLMs利用它们强大的上下文学习能力进行自动化对齐。
  • 第二类从LLMs的组织结构中产生的归纳偏差。例如,基于因素化认知的假设,一些研究(Khot et al., 2023; Zhou et al., 2023b; Wang et al., 2023b)使用任务分解来使LLMs能够解决复杂任务。此外,受到AlphaGo Zero(Silver et al., 2018)成功的启发,一些研究提出通过让LLMs与自己进行迭代游戏来增强它们的能力(Fu et al., 2023a; Chen et al., 2024g)。

通过归纳偏差实现自动化对齐的方法,涉及到利用LLMs自身的特性和结构,以及通过自我生成的信号和上下文学习能力,来提高模型的对齐度和性能。

2、通过行为模仿对齐

通过行为模仿对齐的目的是通过模仿来调整目标模型的行为,使其与教师模型(Teacher Model)的行为一致。根据教师模型和目标模型的特性,行为模仿对齐的研究可以分为两个主要范式:

  • 强到弱的蒸馏(Strong-to-Weak Distillation):这种方法使用一个已经对齐且功能强大的LLM来生成训练数据(如GPT-4o),然后通过模仿教师模型的响应或偏好来调整目标模型的行为。这里的“强”指的是教师模型在对齐方面的能力,而“弱”指的是目标模型在初始状态下可能尚未达到相同的对齐水平。
  • 弱到强的对齐(Weak-to-Strong Alignment):与强到弱蒸馏相反,这种方法使用一个功能较弱的模型作为监督者,指导功能更强的目标模型进一步对齐。这里的“弱”模型可能在某些方面不如目标模型强大,但它可能在对齐方面有特定的优势或经验。

3、通过模型反馈对齐

通过模型反馈对齐的目的是利用来自其他模型的反馈来指导目标模型的对齐优化。反馈信号主要分为三类:

  • 标量信号(Scalar Signals):通常由基于偏好数据对训练的奖励模型提供。奖励模型的期望是学会从偏好数据中获取对齐信号,并将其推广到强化学习过程中获得的未见过的样本上。此外,奖励模型的反馈还可以指导指令调整数据的选择和模型解码。
  • 二元信号(Binary Signals):在数学推理任务中广泛使用,用于提供关于结果正确性的二元反馈。由于大多数数学任务需要多个推理步骤来解决,二元验证器可以分为结果验证器,它们估计最终结果的正确性,以及过程验证器,它们可以进一步提供中间步骤的反馈。
  • 文本信号(Text Signals):通常由LLMs生成,为人类提供更直观的反馈。

标量信号的应用包括指导指令调整数据的选择和模型解码,这有助于目标模型在强化学习过程中更好地学习对齐行为。

二元信号在数学推理任务中的应用,包括结果验证器和过程验证器,它们分别提供对最终结果和中间步骤的反馈,有助于目标模型在解决数学问题时保持正确的方向。

文本信号的应用为人类提供了更易于理解的反馈,有助于改进模型的输出质量和对齐度。

4、通过环境反馈对齐

通过环境反馈对齐的目的是从现有环境中自动获取对齐信号或反馈,而不是依赖于训练有素的模型。环境反馈可以来自多种不同的来源,包括:

  • 社会互动:通过与人类或其他智能体的交互来获取反馈。
  • 公众舆论:通过分析社交媒体、调查或反馈来了解公众对AI行为的看法。
  • 外部工具:使用外部数据库、知识库或其他工具来提供反馈。
  • 具身环境:在物理世界或模拟环境中与环境直接交互,以获取反馈。

环境反馈是对之前对齐信号来源的重要补充,它使AI系统能够更好地适应现实世界的应用场景。如何有效地利用环境反馈仍然是一个迫切需要进一步探索的研究方向,这涉及到如何收集、处理和整合来自不同环境的反馈,以及如何确保这些反馈对AI系统的对齐优化是有益的。通过环境反馈实现自动化对齐的方法强调了直接从现实世界中获取反馈的重要性,这有助于提高AI系统的适应性和鲁棒性,使其更加符合实际应用的需求。

 

【推广时间】

有做模型推理、微调、AI绘画出图,需要GPU资源的朋友们,可以试试UCloud云计算旗下的Compshare这家GPU算力云平台,4090性价比高,单卡按时2.6元,免费200G磁盘。单卡一个月价格在1250元,还是很香的。现在通过链接注册联系客服可以获得20元代金券,同时现在还有个内容激励活动,发布分享一些AI绘画。模型微调、推理,大模型相关的文章带上他们平台,还可以拿500元代金券,可以白嫖好久的算力了,大家可以试试。

高性价比4090算力租用,注册就送20元代金券,更有内容激励活动:GPU算力平台 | 面向AI场景的高性价比GPU租用平台

GPU云服务器租用,P40、4090、V100S多种显卡可选:GPU云服务器租用_GPU云主机限时特惠-UCloud中立云计算服务商

论文下载地址https://arxiv.org/abs/2406.01252v1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/701824.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

autoware lidar-centerpoint 点云在rviz上叠加显示问题

在使用自采数据包放入autoware中的lidar_centerpoint上进行检测时发现,在rviz可视化上出现问题:多帧点云在一个位置上不断叠加,不能正常随时间显示。 如下图所示: 解决方法: 出现上述问题是因为autoware默认使用的是…

Golang——gRPC认证

一. OpenSSL 1.1 介绍 OpenSSL是一个开放源代码的软件库包,用于支持网络通讯过程中的加密。这个库提供的功能包含了SSL和TLS协议的实现,并可用于生成密钥、证书、进行密码运算等。 其组成主要包括一下三个组件: openssl:多用途的命…

AMEYA360| 罗姆开发出新型二合一 SiC封装模块“TRCDRIVE pack™”

全球知名半导体制造商ROHM(总部位于日本京都市)面向300kW以下的xEV(电动汽车)用牵引逆变器,开发出二合一SiC封装型模块“TRCDRIVE pack™”,共4款产品(750V 2个型号:BSTxxxD08P4A1x4,1,200V 2个型号:BSTxxxD12P4A1x1)。…

深入理解Python多进程

目录 一、引言 二、Python多进程基础 进程与线程的区别 Python多进程模块 三、Python多进程实现原理 进程创建 进程间通信 进程同步 四、Python多进程使用方法 创建进程 进程间通信 五、实战案例 六、总结 一、引言 在Python编程中,多进程是一种重…

PartnerShare VS Tolt:出海SaaS选择哪种推广分销系统合适?

SaaS产品的成功在很大程度上取决于其推广策略的有效性。PartnerShare联盟系统和Tolt都是市场上比较知名的推广分销解决方案,能够帮助企业扩大用户基础并提高品牌知名度。 但是两款工具在某些特定任务上肯定有自己的独特优势,“找到你的锤子,…

SpringBoot-集成TOTP

TOTP验证码提供了一种高效且安全的身份验证方法。它不仅减少了依赖短信或其他通信方式带来的成本和延时,还通过不断变换的密码增加了破解的难度。未来,随着技术的进步和对安全性要求的提高,TOTP及其衍生技术将继续发展并被更广泛地应用。TOTP…

QT安装及项目创建

一、QT安装 1、安装qt_creater 方法一: 镜像文件:在2024-6-12:版本已经更新到了6.7 下载地址:https://download.qt.io/archive/qt/ 方法二: 百度网盘:链接:https://pan.baidu.com/s/1D0EmH…

SpringSecurity入门(一)

1、引入依赖 spring-boot版本2.7.3&#xff0c;如未特殊说明版本默认使用此版本 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-security</artifactId></dependency><dependency><g…

【Linux】基础IO [万字之作]

目录 一.重谈文件 二.重谈C文件操作 1.操作 1.文件的打开和关闭 2.文件的读写操作 ​编辑 1.fgetc函数 2.fputc函数 3.fputs函数 4.fgets函数 5.fprintf函数 6.fscanf函数 7.fread函数 8.fwrite函数 三.重谈当前路径 四.系统文件操作接口 1.Open函数 2.write函数 3…

hot100 -- 栈

目录 &#x1f6a9;有效的括号 &#x1f33c;最小栈 AC 栈 AC 链表 &#x1f33c;字符串解码 &#x1f43b;每日温度 &#x1f352;柱状图中的最大矩形 解释 AC 单调栈 &#x1f6a9;有效的括号 20. 有效的括号 - 力扣&#xff08;LeetCode&#xff09; 1&#xf…

[初阶数据结构] 包装类 | 泛型

目录 一. 包装类 1.1 什么是包装类? 1.2 包装类的意义 1.3 基本数据类型与包装类 1.4 装箱 1.5 拆箱 1.6 小总结 二. 泛型 2.1 什么是泛型? 2.2 泛型的意义 2.3 泛型的语法 2.4 泛型的编译 2.4.1 下载插件 2.4.2 分析 2.5 上界 2.6 泛型方法 2.7 小总结 三. 总结 一.…

conda虚拟环境,安装pytorch cuda cudnn版本一致,最简单方式

1、pytorch版本安装&#xff08;卸载也会有问题&#xff09; &#xff08;1&#xff09;版本如何选择参考和卸载 https://zhuanlan.zhihu.com/p/401931724 &#xff08;2&#xff09;对应版本如何安装命令 https://pytorch.org/get-started/previous-versions/ 最简答安装参考…

递推算法及相关问题详解

目录 递推的概念 训练&#xff1a;斐波那契数列 解析 参考代码 训练&#xff1a;上台阶 参考代码 训练&#xff1a;信封 解析 参考代码 递推的概念 递推是一种处理问题的重要方法。 递推通过对问题的分析&#xff0c;找到问题相邻项之间的关系&#xff08;递推式&a…

实验滤膜等分切割器八等分90mm

名称:滤膜切分器 型号: RNKF-90 适用范围:切分φ90mm玻璃纤维滤膜、石英纤维滤膜 等分数:2等分、4等分、8等分 使用方法: 1、开盖:逆时针旋转防尘盖&#xff0c;与切分台分开后&#xff0c;轻放于台面。 2、放膜:持专用镊子,镊子的长尖在下,短尖在上,取待切分滤膜1片,采样…

配置响应拦截器,全局前置导航守卫

1&#xff1a;配置响应拦截器 响应拦截器&#xff0c;统一处理接口的错误 问题&#xff1a;每次请求&#xff0c;都会有可能会错误&#xff0c;就都需要错误提示 说明&#xff1a;响应拦截器是咱们拿到数据的 第一个 数据流转站&#xff0c;可以在里面统一处理错误。 // 添…

uniapp小程序计算地图计算距离

我们拿到自身和目标距离经纬度 调用此方法即可计算出自身与目标的距离 最后我所展示的页面如下 具体效果可能会有点偏差 要求严格的可以在精细的计算一下

ant组件库日期选择器汉化

ant组件库日期选择器默认英文 如何汉化 跟着官网走不能完全实现汉化。 这里提供一个解决方案&#xff0c;首先&#xff0c;通过pnpm下载moment包。 然后引入和注册文件&#xff1a; import zhCN from ant-design-vue/es/locale/zh_CN;import moment from moment;moment.loca…

vue30:v-model语法糖的本质

在Vue.js框架中&#xff0c;v-model 是一个指令&#xff0c;用于在表单输入和应用状态之间创建双向数据绑定。它本质上是语法糖&#xff0c;意味着它提供了一种更简洁的方式来编写代码&#xff0c;而不需要显式地编写额外的代码。 具体来说&#xff0c;v-model 背后实际上是由…

外汇天眼:Equals集团发布战略评估通知:MDP不再考虑收购提议

Equals Group plc (LON)今天发布了一份关于其战略评估的通知。 Equals公司不再与Madison Dearborn Partners, LLC (MDP)就公司的收购提议进行讨论。MDP因此发布了一份声明&#xff0c;确认其不打算为公司提出收购提议。 然而&#xff0c;MDP与其投资组合公司MoneyGram Interna…

台式电脑怎么连WiFi?4个宝藏方法收藏好!

“我有一部台式电脑&#xff0c;现在不知道应该怎么操作才能让电脑正确连接WiFi&#xff0c;不知道大家有什么简单的连接方法吗&#xff1f;希望可以给我出出主意。” 随着无线网络的普及和科技的飞速发展&#xff0c;越来越多人选择使用WiFi来连接互联网。对于笔记本电脑和移动…