复旦发布层次性奖励学习框架,增强大模型人类偏好对齐

在人工智能领域,强化学习(Reinforcement Learning, RL)一直是实现智能体自主学习的关键技术之一。通过与环境的交互,智能体能够自我优化其行为策略,以获得更多的奖励。然而,当涉及到复杂的人类偏好时,传统的强化学习方法面临着挑战。这些挑战主要源于人类监督信号的不一致性和稀疏性,这使得智能体难以准确地对齐人类的期望。

为了解决这一问题,研究者们提出了从人类反馈中学习的强化学习(Reinforcement Learning from Human Feedback, RLHF)方法。RLHF通过利用人类标注的比较数据来微调大语言模型(LLMs),以更好地与人类偏好对齐。然而,人类标注在评估两个或更多模型输出时可能存在不一致和不可靠的问题。这些问题导致了RLHF中不稳定的奖励信号,而稳定的奖励是成功强化学习的关键。

为了应对这些挑战,本文介绍了一种新的框架——ALARM(Align Language Models via Hierarchical Rewards Modeling),它是首个在RLHF中模拟层次化奖励的框架。ALARM通过整合整体奖励和特定方面的奖励,提供了更精确和一致的指导,特别是在复杂和开放的文本生成任务中。通过采用一种基于一致性过滤和组合多个奖励的方法,ALARM为改善模型对齐提供了可靠的机制。通过在长篇问答和机器翻译任务中的应用,验证了该方法的有效性,并展示了与现有基线相比的改进。

GPT-3.5研究测试:

https://hujiaoai.cn

GPT-4研究测试:

https://higpt4.cn

论文标题:
ALaRM: Align Language Models via Hierarchical Rewards Modeling

论文链接:
https://arxiv.org/pdf/2403.06754.pdf

ALARM框架的动机与设计

1. 框架动机

ALARM框架的设计动机源于对当前强化学习中人类反馈(RLHF)的限制的认识。这些限制包括人类监督信号的不一致性和稀疏性,这在复杂的开放式文本生成任务中尤为突出。为了解决这些问题,ALARM框架提出了一种整合全面奖励和特定方面奖励的方法,以提供更精确和一致的指导,从而更好地与人类偏好对齐。

在实际应用中,例如长篇问答和机器翻译任务,传统的RLHF方法面临着奖励信号不稳定的挑战。例如,即使是人类专家也难以为复杂任务编写足够好的示范,而从众包平台获得的模型生成对比评价则显示出注解的不一致性和不可靠性。ALARM框架通过筛选和组合多个奖励信号来提供更可靠的模型对齐机制。

图片

2. 框架设计

ALARM框架的设计基于两个核心思想:首先,通过对不同错误类型的细分,实现更精确和容易的注解;其次,采用分层强化学习中的任务分解方法来克服稀疏奖励问题。

框架的核心是寻求更强的监督信号:仅使用全面奖励很难达到更好地与人类偏好对齐的“优越区域”。因此,ALARM采用分层方式组合多个奖励,以稳定优化方向,更准确和一致地指导模型进入优越区域。

在实际操作中,首先列出与任务相关的多个特定方面奖励,并通过成对比较的方式选择与全面奖励一致性较高的奖励。在RLHF训练过程中,当生成的样本获得高于某一阈值的全面奖励时,选定的特定方面奖励将与全面奖励一起作为整体奖励进行组合。

这些特定方面奖励可以来自于在特定维度上注解的比较数据集上训练的奖励模型,也可以是简单的工具计算指标(如令牌计数),其密度可以在令牌级别或序列级别任意设置。

图片

▲框架图示

层次化奖励建模的核心原理

1. 奖励选择

在特定维度上对模型生成进行评估,而不是评估总体质量,已被证明对奖励建模来说噪声更小、更准确。因此,为了获得更准确和一致的监督信号,首先直观地列出与特定任务相关的多个特定方面奖励。然而,人类偏好复杂,不同分解的方面相互联系,甚至可能相互冲突。为了平衡它们,通常的方法是加权求和方法,这需要基于训练期间的表现或成对比较的准确性来为每个特定方面奖励仔细选择权重。

图片

然而,这种方法仍然存在过度优化问题,即模型丢失了来自每个单独特定方面奖励的个体信息,无法将组合奖励中的变化归因于任何一个方面。因此,ALARM框架通过丢弃冲突的奖励,选择与全面奖励最一致的奖励,以此来解决这一挑战。

2. 分层奖励建模

分层强化学习在广泛的决策任务中取得了显著进展,它将复杂且具有挑战性的优化目标分解为更简单的子任务。与此相反,现有的RLHF工作通常采用简单的奖励策略,即线性分配单一的全面奖励或固定组合的特定方面奖励,这不仅在长期优化中带来稀疏奖励的问题,而且忽视了全面奖励与特定方面奖励之间的紧密关系。

基于这些动机,ALARM提出了一种新方法,利用全面和特定方面奖励。通过这种方式,将语言模型与人类偏好对齐的优化目标视为一个具有挑战性的决策任务,并将这个任务分解为两个较不复杂的子任务,这两个子任务应该依次解决:

  • 直接遵循全面奖励,直到模型生成获得高全面奖励,表明生成物在较高水平上符合人类偏好;

  • 优化全面奖励和特定方面奖励的组合,作为整体提供更准确和一致的监督信号,指向优越区域。

与整个训练过程中都应用组合奖励的简单加权求和方法不同,ALARM方法更为微妙。主要遵循全面奖励的监督,并在仅依靠全面奖励无法达到优越区域时,轻轻转动方向盘。

应用场景与实验设置

1. 应用场景

ALARM框架通过整合整体奖励和特定方面的奖励,解决了当前对齐方法中人类监督信号不一致和稀疏的问题。该框架在复杂和开放的文本生成任务中,特别是长篇问答和机器翻译任务中得到了应用和验证。

2. 实验设置

2.1 任务设置

长篇问答(QA)任务中,使用了QA-Feedback数据集,初始策略模型为经过监督微调的T5-large,以及三个细粒度的奖励模型。这些奖励模型分别代表不同的错误类型,在不同层次上进行预测。

机器翻译(MT)任务中,使用了Europarl数据集,该数据集包含欧洲议会会议的记录。初始策略模型为mT5-base,并在训练集上进行了监督微调。此外,列出了三个特定方面的奖励,包括语法奖励、语言信心和可读性奖励,这些奖励通过工具包计算得出。

图片

2.2 奖励选择

在奖励选择方面,首先列出了与任务相关的几个特定方面的奖励。然后,通过成对比较来计算这些候选奖励与整体奖励的不一致性,以筛选出最能辅助整体奖励的奖励。例如,在长篇问答任务中,事实性奖励的不一致性最低,因此被选为层次化奖励建模的“副驾驶”。在机器翻译任务中,语法奖励因其较低的不一致性和更好的胜率而被选中。

2.3 奖励建模

在奖励建模方面,对整体奖励进行z标准化,并使用sigmoid函数对特定方面的奖励进行正值转换,以确保层次结构。设置了一个阈值,当生成的样本获得高于该阈值的整体奖励时,将整体奖励与选定的特定方面的奖励结合起来。在强化学习训练中,采用纯采样策略,并使用贪婪解码进行开发集和测试集评估。

实验结果与分析

长篇问答任务的测试集上,ALARM在整体奖励的平均值和事实性率方面均显著高于其他方法。除ALARM外,仅使用整体奖励的方法获得了最高的整体奖励值,而仅使用事实性奖励的方法获得了最高的事实性率。权重求和方法则平衡了这两个奖励。在不同模型之间的成对比较中,ALARM在所有三种不同的度量标准下均表现最佳,这进一步表明ALARM提供了比其他方法更强的监督信号。

图片

机器翻译任务中,ALARM在整体奖励的平均值、语法错误率和gpt-3.5-turbo评估方面的结果也强烈支持了该框架的有效性。

图片

消融研究:验证ALARM组件的重要性

1. 无选择的消融研究

在不进行奖励选择的情况下,研究者对ALARM进行了一系列实验,将初始奖励池中的每个奖励分别应用于两个任务。主动选择的奖励在整体奖励和gpt-3.5-turbo的评估中表现出领先的性能,这证明了奖励选择的有效性。

此外还观察到,某些奖励在两个评估者的评分中存在冲突。研究者认为这是由于整体奖励的偏见和缺陷造成的,例如持续忽视或过度重视某些方面,这超出了本文的讨论范围。

2. 无组合的消融研究

为了检验ALARM是否通过利用整体奖励和特定方面奖励提供了更准确和一致的监督信号,研究者比较了单独使用各自奖励的方法。结果显示,ALARM在两个维度上都一致地取得了更好的结果。

3. 无层次结构的消融研究

研究者将ALARM框架与传统的加权求和方法进行对比,以突出层次结构的重要性。加权求和方法的结果反映了整体奖励和特定方面奖励之间的妥协,限制了其在两方面都表现出色的能力。相比之下,ALARM利用层次化奖励建模提供了更强大的监督信号,从而在两个维度上都提高了性能。

结论与未来展望

本文介绍了ALARM框架,这是首个在强化学习中从人类反馈(RLHF)中建模层次化奖励的框架,旨在提高大语言模型(LLMs)与人类偏好的一致性。ALARM框架通过整合全局奖励和特定方面的奖励,解决了当前对齐方法中存在的人类监督信号不一致性和稀疏性的问题。

这种整合使得语言模型在复杂和开放式文本生成任务中得到更精确和一致的指导。通过在长篇问答和机器翻译任务中的应用,验证了该方法的有效性,并展示了与现有基线相比的改进。

1. 研究贡献

  • 首次提出在RLHF中层次化建模全局和特定方面奖励的框架;

  • 探索如何进行奖励选择以减少奖励冲突;

  • 通过全面的消融研究和分析,证明了ALARM在追求更准确和一致的监督信号方面的有效性,并为可扩展监督在AI对齐中的潜力提供了启示。

2. 未来工作

尽管ALARM框架在实验中展示了其有效性,但研究者们认识到仍有一些挑战和限制。

  • 首先,该框架需要为每个任务专门设计奖励,这在扩大应用场景时构成了挑战。

  • 其次,需要改进奖励的自动选择机制。在评估中使用了OpenAI的API,这可能会给常规用户带来额外的成本和响应时间的不稳定性。

3. 伦理和透明度

研究没有涉及直接的人类或动物主体,并且没有明显的伦理问题。使用的数据集和工具包,如QA-Feedback、Europarl、Textstat、Lingua和LanguageTool,都是公开可用的。已经采取措施确保我们的研究透明可复制。确认研究和方法论没有涉及有害的实践和潜在的误用。致力于在工作中维护最高的诚信和伦理责任标准。

综上所述,ALARM框架为强化学习提供了一种新的视角,即通过层次化奖励建模来提高语言模型与人类偏好的一致性。期待未来的研究能够在该工作基础上,进一步探索和扩展这一领域,特别是在提高奖励选择的自动化和减少对外部API依赖方面。此外,鼓励研究社区继续关注AI对齐的可扩展性问题,以实现更广泛的应用和更深入的人类偏好理解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/471606.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

顶顶通呼叫中心中间件-机器人话术编辑器意向问题详解

文章目录 前言联系我们意向页面和分类页面的区别意向权重意向权重的计算意向权重的作用 分类规则如何分类 前言 顶顶通旗下有一款机器人话术可视化编辑工具,可以根据用户的需求编辑话术流程。针对该话术编辑工具的意向功能进行讲解: 机器人话术可视化工…

案例练习:敲桌子

大家好: 衷心希望各位点赞。 您的问题请留在评论区,我会及时回答。 案例描述 从1开始数到数字100,如果数字的个位含有7,或者数字是7的倍数,我们打印输出“敲桌子”,其余数字直接打印输出。 代码 #includ…

婴儿洗衣机硬核测评:希亦、鲸立、小吉婴儿洗衣机性能大比拼!

如果你非常注重婴儿衣物的卫生问题,那么婴儿洗衣机则是非常理想的选择。毕竟,在婴儿吃奶或者接触其他材料时,其抵抗力是比较弱的,再加上普通洗衣机无法对婴儿的衣物进行有效的消毒处理,轻则会对婴儿的健康造成威胁&…

libVLC windows开发环境搭建

1.简介 LibVLC是一个强大的开源库,它构成了VLC媒体播放器的核心部分。 LibVLC提供了一系列的功能接口,使得VLC能够处理流媒体的接入、音频和视频输出、插件管理以及线程系统等核心任务。 跨平台性:VLC作为一个跨平台的多媒体播放器&#x…

设计师最常用的UI设计软件

无论您的设计侧重于用户体验设计还是用户界面设计,您都需要一个高效的界面设计工具来帮助您完成设计项目。根据设计的不同界面功能,合适的 UI 界面设计工具也会有所不同。本文总结了市场上 5 款流行的界面设计软件。每个界面设计工具都有自己的优点和缺点…

DevEco Studio 项目创建

安装DevEco Studio后开始使用,双击桌面DevEco Studio 快捷方式弹出界面: 选择Application —> Empty Ability,点击Next 项目配置 Project name:工程的名称,可以自定义,由大小写字母、数字和下划线组成。…

HarmonyOS NEXT应用开发之听歌识曲水波纹特效案例

介绍 在很多应用中,会出现点击按钮出现水波纹的特效。 效果图预览 使用说明 进入页面,点击按钮,触发水波纹动画。再次点击按钮,停止水波纹动画。 实现思路 本例涉及的关键特性和实现方案如下: 要实现存在两个连续…

vue el-table 前端js实现导出数据为Excel

目录 一、背景描述 二、功能分析 三、详细开发 1.导出为excel 2.导出为cvs 四、总结 一、背景描述 有些业务常见,例如前端已经获取到表格的所有数据了,并且后端技术人员比较繁忙,总会提出前端分页,前端排序,甚至…

CycleGAN训练及测试过程细节记录

CycleGAN训练及测试过程细节记录 文章目录 关于训练关于测试 关于训练 1、训练前将数据配置好,并在Pycharm中写好配置信息 2、关于训练过程的参数配置在 options/train_options.py options/base_options.py batch_size:批大小 crop_size:…

Vue.js前端开发零基础教学(一)

目录 第一章 初识Vue.js 前言 开发的好处 一.前端技术的发展 什么是单页Web应用? 二. Vue的简介 三. Vue的特性 四. Vue的版本 五.常见的包管理 六.安装node环境 第一章 初识Vue.js 学习目标: 了解前端技术的发展 了解什么是Vue掌握使用方…

凡事不以规矩不成方圆,合同协议模板范本大全

一、资料描述 本套合同协议资料,大小18.42M,24个压缩文件。 二、资料目录 01-租赁合同.rar(112个文件) 02-装修协议.rar(32个文件) 03-转让或承包协议.rar(32个文件) 04-员工手…

羊大师揭秘,孩子适不适合喝羊奶?

羊大师揭秘,孩子适不适合喝羊奶? 羊奶,这个古老而珍贵的营养饮品,近年来在家长们中间逐渐走红。它以其独特的营养价值和口感受到了众多家庭的青睐。但是,面对市面上琳琅满目的羊奶产品,家长们常常陷入选择…

ViT如何支持变长序列(patches)输入?

问题:当增加输入图像的分辨率时,例如DeiT 从 224 到 384,一般来说会保持 patch size(例如9),因此 patch 的数量 N 会发生了变化。那么视觉transformer是如何处理变长序列输入的? 回答: 在讨论…

MySQL的目录结构

安装目录 /usr/local/mysql数据目录 /usr/local/mysql/data配置目录 /usr/local/etc/my.cnf点击返回 MySQL 快速学习目录

【NLP】TF-IDF算法原理及其实现

🌻个人主页:相洋同学 🥇学习在于行动、总结和坚持,共勉! #学习笔记# 目录 01 TF-IDF算法介绍 02 TF-IDF应用 03 Sklearn实现TF-IDF算法 04 使用TF-IDF算法提取关键词 05 TF-IDF算法的不足 TF-IDF算法非常容易理…

matlab 基于小波变换的油气管道泄露信号检测

1、内容简介 略 71-可以交流、咨询、答疑 基于小波变换的油气管道泄露信号检测 去噪、小波变换、油气管道泄露、信号检测 2、内容说明 摘 要: 油气管道泄漏会造成严重危害,因此,亟需寻找一种能快速检测油气管道信号的技术。传统的 傅里…

Vue2(八):脚手架结构、render函数、ref属性、props配置项、mixin(混入)、插件、scoped样式

一、脚手架结构分析 crlc终止刚刚搭建的vue。 ├── node_modules ├── public │ ├── favicon.ico: 页签图标 │ └── index.html: 主页面 ├── src │ ├── assets: 存放静态资源 │ │ └── logo.png │ │── component: 存放组件 │ │ …

Gin框架 源码解析

https://zhuanlan.zhihu.com/p/136253346 https://www.cnblogs.com/randysun/category/2071204.html 这个博客里其他go的内容也讲的很好 启动 因为 gin 的安装教程已经到处都有了,所以这里省略如何安装, 建议直接去 github 官方地址的 README 中浏览安装…

【数据库基础增删改查】条件查询、分页查询

系列文章目录 🌈座右铭🌈:人的一生这么长、你凭什么用短短的几年去衡量自己的一生! 💕个人主页:清灵白羽 漾情天殇_计算机底层原理,深度解析C,自顶向下看Java-CSDN博客 ❤️相关文章❤️:清灵白羽 漾情天…

AI浸入社交领域,泛娱乐APP如何抓住新风口?

2023年是大模型技术蓬勃发展的一年,自ChatGPT以惊艳姿态亮相以来,同年年底多模态大模型技术在国内及全球范围内的全面爆发,即模型能够理解并生成包括文本、图像、视频、音频等多种类型的内容。例如,基于大模型的文本到图像生成工具…