OpenAI开源超级对齐方法:用GPT-2,监督、微调GPT-4

12月15日,OpenAI在官网公布了最新研究论文和开源项目——如何用小模型监督大模型,实现更好的新型对齐方法。

目前,大模型的主流对齐方法是RLHF(人类反馈强化学习)。但随着大模型朝着多模态、AGI发展,神经元变得庞大、复杂且难控制,RLHF便有点力不从心。

做个不太恰当的比喻,就像是工厂的保安一样:一个20人的小工厂,3个保安就能应付;如果发展到5000人的大工厂呢?仅靠人工就不太行,需要摄像头、智能门禁、温/湿传感器等设备,实现更高效的安全监控。

同理,OpenAI为了提升大模型的安全性,提出了“弱监督”的技术概念。并使用小参数的GPT-2去监督、微调GPT-4,同时使用辅助置信损失、无监督微调等增强方法,可以恢复GPT-4近80%的性能,达到GPT-3 和GPT-3.5之间的能力。

这表明,“弱监督”对齐方法是可行的。虽然目前还无法像RLHF那样拟人化、灵活,但这指明了一条全新对齐方向,用AI监督、微调AI,是未来提升大模型安全、性能的重要渠道之一。

开源地址:https://github.com/openai/weak-to-strong

论文下载地址:https://cdn.openai.com/papers/weak-to-strong-generalization.pdf

图片

此外,OpenAI还公布成立了一个1000万美元的“超级对齐”安全专款。主要用于研究大模型的超级对齐,深度研究“弱监督”技术等。

个人开发者、研究机构、非盈利机构都能申请该奖金,申请流程非常方便简单。但需要在2024年2月18日之前完成申请

申请地址:https://airtable.com/appnIXmOlWAJBzrJp/paghnoKL6EHiKmKbf/form

图片

由于OpenAI公布论文的内容太多,技术概念也比较复杂,「AIGC开放社区」就用简单易懂的方式为大家解读。

什么是RLHF

需要先简单介绍一下RLHF,以便更好地理解OpenAI提出的“弱监督”技术概念。

RLHF的中文译为“人类反馈强化学习”,是一种结合人类指导和自动强化学习的训练方法

人类通过对AI的行为进行评价或指导,帮助其在学习过程中做出更好的决策。

由于人类可以通过直觉、视觉和实践经验等来帮助AI,因此,应用RLHF的产品在拟人化方面获得大幅度提升。

简单来说,可以把RLHF看成是一种“妈妈教孩子”的的训练方法。AI相当于刚出生毫无经验的孩子,当他摔倒在地时,母亲(RLHF)会告诉他如何避免摔倒,以及更好的走路方法,孩子可以在这种不断反馈的学习环境中快速成长。

在过去的研究中,“强监督”一直被认为是训练智能模型的最佳方法,通过为模型提供准确的标签来监督其学习过程,RLHF便是最典型的应用。

图片

然而,这种方法存在一些限制和挑战。因为,获取准确的标签可能非常困难或耗费大量时间,同时对于一些复杂的任务,人类很难准确地定义标签或出现偏见

例如,最初的ChatGPT等产品会生成歧视内容,数据标签不准确是出现这个情况的主要原因之一。

因此,OpenAI提出了“弱监督”,希望用AI替代人工来监督大模型的行为表现。

“弱监督”简单介绍

为了探索“弱监督”应用潜力,研究人员使用了一系列GPT-4系列语言模型,在NLP、国际象棋和奖励建模任务中进行了深度测试。

惊奇发现,当使用弱模型生成的标签,对强预训练模型进行微调、指导时,强模型通常比弱监督模型表现更好,这一现象被称为“弱到强的泛化”。

图片

简单来说,就是老师教完学生知识,学生居然比老师还强大。

多种增强“弱监督”方法

但是仅通过简单的微调并不能充分发挥强模型的全部性能,因此,研究人员尝试了一些别的方法来改善弱到强的泛化效果,以匹配RLHF训练模型的能力。

研究人员分别使用了辅助置信损失、中间模型的引导监督和无监督微调等方法。

辅助置信损失,主要用来更好地指导模型进行学习。例如,在处理具有噪声标签或不确定性很高的数据时,辅助损失可以帮助模型区分易于预测和难以预测的样本。

中间模型的引导监督,可以作为一个桥梁,将弱模型的监督信号传递给强模型,帮助其更好地学习弱模型的知识和表现。

无监督微调,可使强模型在没有标签监督的情况下进行微调,从而使其能够更好地适应新的任务和数据。

图片

研究人员在NLP等测试任务中进行了实验,结果显示,使用GPT-2作为监督来微调GPT-4模型,并在上述增强功能的帮助下,性能差距仅有20%左右,达到了GPT-3 和GPT-3.5之间的能力。

图片

本文素材来源OpenAI论文、开源项目,如有侵权请联系删除

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/251047.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

MySQL数据库 DML

目录 DML概述 添加数据 修改数据 删除数据 DML概述 DML英文全称是Data Manipulation Language(数据操作语言),用来对数据库中表的数据记录进行增、删、改操作。 添加数据(工NSERT)修改数据(UPDATE)删除数据(DELETE) 添加数据 (1)给指定字段添加数据 INSERT …

多线程JUC 第2季 CAS的作用介绍与自旋锁

一 CAS作用介绍 1.1 CAS作用 CAS有3个操作数,位置内存值V,旧的预期值A,要修改的更新值B,如果内存值V和预期值相同则,内存值改为B,否则什么都不做。当它重来重试的这种行为称为-自旋。 CAS是一条cpu的原…

关联规则 Fp-Growth算法实现

Fp-Growth算法实现 实现上次博客例子,设置最小支持度计数为3,3/50.6,所以支持度为0.6 代码 # 属于太菜了,做个调包侠 from mlxtend.preprocessing import TransactionEncoder from mlxtend.frequent_patterns import fpgrowth…

Swift 响应式编程:简化 KVO 观察与 UI 事件处理 | 开源日报 No.110

ReactiveX/RxSwift Stars: 23.8k License: MIT RxSwift 是 Reactive Extensions 标准的 Swift 特定实现,它提供了 Observable 接口来表达计算的通用抽象。该项目旨在为 Rx API 提供真正以 Swift 为先的 API,并允许轻松地组合异步操作和数据流。其主要功…

【MISRA C 2012】Rule 5.4 宏标识符应该是不同的

1. 规则1.1 原文1.2 分类 2. 关键描述3. Example4. 代码实例 1. 规则 1.1 原文 1.2 分类 规则5.4:宏标识符应该是不同的 Required要求类规范。 2. 关键描述 该规则要求,当定义宏时,其名称与: •当前定义的其他宏的名称;和 •参数的名称。…

【unity小技巧】两种办法解决FPS游戏枪或者人物穿墙穿模问题

文章目录 前言第一种解决思路第二种方法总结感谢完结 前言 当我们开发FPS游戏时(其实3d游戏基本都会遇到这样的问题),如果我们不做处理,肯定会出现人物或者枪的穿墙穿模问题,这是是一个常见的挑战。 这种问题会破坏…

PhpStorm下载、安装、配置教程

前面的文章中,都是把.php文件放在WampServer的www目录下,通过浏览器访问运行。这篇文章就简单介绍一下PhpStorm这个php集成开发工具的使用。 目录 下载PhpStorm 安装PhpStorm 配置PhpStorm 修改个性化设置 修改字符编码 配置php的安装路径 使用Ph…

[wp]第四届江西省赣网杯网络安全大赛-web 部分wp

第四届江西省赣网杯网络安全大赛(gwb)线上预选赛 因为学业繁忙 只玩了1小时,后续看看补一下这些 2023gwb-web1 九宫格拼图 2023gwb-web2 $filexxx;extract($_GET);if(isset($fun)){$contenttrim(file_get_contents($file));if($fun!&…

uniapp的uni-im 即时通信使用教程【用户与商家对话、聊天 / 最新 / 最全 / 带源码 / 教程】

目录 使用场景用户图片商家图片 官方文档官方文档地址插件地址 项目创建uniCloud开发环境申请开发环境申请完后 概括开始使用步骤1App.vue 步骤2找到软件登录图片找到软件登录接口登录源码如下 步骤3找到软件注册图片注册源码如下 步骤4找到index.vue首页图片 index.vue源码如下…

微信小程序置顶导航,替代原生导航栏

效果图&#xff1a; 思路&#xff1a;Navigation是小程序的顶部导航组件&#xff0c;当页面配置navigationStyle设置为custom的时候可以使用此组件替代原生导航栏&#xff0c;wx.getSystemInfoSync获取可使用窗口高度 wxml代码&#xff1a; <!-- 头部 --> <view cla…

前后端交互—开发一个完整的服务器

代码下载 初始化 新建 apiServer 文件夹作为项目根目录&#xff0c;并在项目根目录中运行如下的命令&#xff0c;初始化包管理配置文件: npm init -y运行如下的命令&#xff0c;安装 express、cors: npm i express cors在项目根目录中新建 app.js 作为整个项目的入口文件&a…

时序预测 | Python实现LSTM电力需求预测

时序预测 | Python实现LSTM电力需求预测 目录 时序预测 | Python实现LSTM电力需求预测预测效果基本描述程序设计参考资料预测效果 基本描述 该数据集因其每小时的用电量数据以及 TSO 对消耗和定价的相应预测而值得注意,从而可以将预期预测与当前最先进的行业预测进行比较。使用…

uniGUI之上传文件UniFileUploadButton

TUniFileUploadButton主要属性&#xff1a; Filter: 文件类型过滤&#xff0c;有图片image/* audio/* video/*三种过滤 MaxAllowedSize: 设置文件最大上传尺寸&#xff1b; Message&#xff1a;标题以及消息文本&#xff0c;可翻译成中文 TUniFileUploadButton控件 支持多…

redis:四、双写一致性的原理和解决方案(延时双删、分布式锁、异步通知MQ/canal)、面试回答模板

双写一致性 场景导入 如果现在有个数据要更新&#xff0c;是先删除缓存&#xff0c;还是先操作数据库呢&#xff1f;当多个线程同时进行访问数据的操作&#xff0c;又是什么情况呢&#xff1f; 以先删除缓存&#xff0c;再操作数据库为例 多个线程运行的正常的流程应该如下…

Android动画(二)——补间动画

目录 介绍 Xml文件定义View动画 补充 alpha_animation.xml&#xff08;透明度&#xff09; rotate_animation.xml&#xff08;旋转&#xff09; scale_animation.xml&#xff08;伸缩&#xff09; translate_animation.xml &#xff08;平移&#xff09; group_animation.…

〖大前端 - 基础入门三大核心之JS篇(55)〗- 内置对象

说明&#xff1a;该文属于 大前端全栈架构白宝书专栏&#xff0c;目前阶段免费&#xff0c;如需要项目实战或者是体系化资源&#xff0c;文末名片加V&#xff01;作者&#xff1a;哈哥撩编程&#xff0c;十余年工作经验, 从事过全栈研发、产品经理等工作&#xff0c;目前在公司…

结构体基础全家桶(2)结构体指针

目录 指向结构体类型数据的指针&#xff1a; 指向结构体变量的指针&#xff1a; 创建&#xff1a; 应用&#xff1a; 注意事项&#xff1a; 指向结构体数组的指针 创建&#xff1a; 应用&#xff1a; 注意&#xff1a; 用结构体变量和指向结构体的指针做函数的参数 …

【Linux】文件系统、文件系统结构、虚拟文件系统

一、文件系统概述 1. 什么是文件系统&#xff1f;2. 文件系统&#xff08;文件管理系统的方法&#xff09;的种类有哪些&#xff1f;3. 什么是分区&#xff1f;4. 什么是文件系统目录结构&#xff1f;5. 什么虚拟文件系统Virtual File System &#xff1f;6. 虚拟文件系统有什…

selenium 与 chromedriver安装

本文章向大家介绍selenium 安装与 chromedriver安装&#xff0c;主要包括selenium 安装与 chromedriver安装使用实例、应用技巧、基本知识点总结和需要注意事项供大家参考。 一、安装selenium 1、Selenium简介 Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开…

IDEA配置一个新项目

git clone xxxxx 下载项目主分支 git checkout xxx 切换到需要开发的分支上 配置maven仓库 在File下的Settings中设置maven仓库 配置maven仓库的文件夹 配置好maven后&#xff0c;项目中会出现一个红色的pom.xml文件&#xff0c;右击文件&#xff0c;点击…&#xff0c;pom…