OpenAI发布新模型CriticGPT:利用GPT优化GPT训练,RLHF实现超越人类能力!

目录

01 基于GPT-4,改进GPT-4

02 CriticGPT取得了哪些成果呢?

03 RLHF的上限不再是人类


近日,OpenAI突然发布了一个新模型!这个模型基于GPT-4训练,旨在帮助下一代GPT的训练。

CriticGPT能够在代码挑错中找到超过75%的错误,而人类只能找到不到25%。

此外,它还能为这些错误撰写“评论”,在60%的情况下,人类训练师更喜欢有CriticGPT帮助下的批评。

但这项研究的关键在于,CriticGPT的挑错能力不仅限于代码。

例如,它可以在RLHF训练中挑出AI输出的错误,且已经被纳入OpenAI的内部训练流程

更好的RLHF训练能产生更强的模型,而更强的模型又能通过更好地挑错来增强RLHF训练……

没体验过OpenAI最新版GPT-4o?快戳最详细升级教程,几分钟搞定:
升级ChatGPT-4o Turbo步骤icon-default.png?t=N7T8https://www.zhihu.com/pin/1768399982598909952

论文结论中明确指出:在真实世界数据中挑错方面,AI还有进步空间,而人类智能已经达到极限。

论文地址:https://cdn.openai.com/llm-critics-help-catch-llm-bugs-paper.pdf

这篇论文来自已解散的超级对齐团队,由前负责人Jan Leike带队完成。

Leike本人已经跳槽到Anthropic,继续从事类似研究。

01 基于GPT-4,改进GPT-4


OpenAI官网文章间接承认了,GPT-4之后的改进遇到了一些瓶颈:

随着AI能力增强,它犯的错误变得不那么显眼,人类训练师难以发现不准确之处。

人类无法提供反馈,RLHF“人类反馈强化学习”也就无从谈起。

CriticGPT正是为了解决这一挑战而诞生。

CriticGPT基于GPT-4,并接受了RLHF训练,但特别之处在于训练数据中包含大量的错误输入。

具体来说,分为三步:

  1. 让人类标注员在ChatGPT生成的代码中故意植入一些微妙的bug。
     
  2. 标注员扮演代码审查员的角色,写下他们对这些bug的评论。
     
  3. 用这些数据来训练CriticGPT,让它学会如何发现和指出代码中的问题。

在训练过程中,他们还加入了一些有趣的环节。

例如,不断让标注员验证自己插入的bug是否足够隐蔽,能够骗过当前版本的CriticGPT。这样一来,CriticGPT就被迫不断进化,学会发现越来越隐蔽的问题。

这种方法有点像GAN的对抗训练,只不过生成器的角色由人类来扮演……

最后,OpenAI还采用了一种“强制采样束搜索”(FSBS)技术,使CriticGPT在生成评论时既能保持全面,又能减少“幻觉”和“鸡蛋里挑骨头”的现象。

具体来说,FSBS会强制模型生成多个不同的评论片段,用奖励模型对这些片段进行评分,最后根据评分和一个长度修正因子来选择最佳的评论组合。

通过调整长度修正因子,可以在评论的全面性和准确性之间找到最佳平衡点,既不会错过重要问题,又不会过度挑剔。

02 CriticGPT取得了哪些成果呢?

  • 在发现人为插入的bug方面,人类审核员平均只能找到25%,而CriticGPT的成功率高达75%以上。
     
  • 在评估自然出现的Bug时,有63%的情况下人类更倾向于选择CriticGPT的评论而非人类评论。
     
  • CriticGPT的评论被认为比ChatGPT的更全面,更少出现“幻觉”和无关紧要的挑剔。
     
  • 在评估非代码任务时,成功识别出数百个在ChatGPT训练数据中被人类认为是“完美”的错误。

不过CriticGPT也不是十全十美,它也会有“幻觉”问题,指出一些实际上不存在的问题。

目前,人类和CriticGPT组队工作效果最好:既能发现大部分问题,又能避免AI的“幻觉”。

03 RLHF的上限不再是人类

RLHF是创造ChatGPT的核心技术之一,但其局限在于人类能力就是RLHF的天花板。

当需要AI解决人类无法应对的任务时,人类无法提供相应的反馈,AI也就无法改进。

CriticGPT的成功,意味着超级对齐团队设想中的可扩展监督,即用弱模型监督训练更强模型的愿景,终于有了实现的希望。

为什么选择从代码任务入手呢?

一方面,代码任务具有现实意义,开发出的模型可以直接应用。

另一方面,代码可以清晰明确地评估,比开放式对话更客观,更容易判断CriticGPT发现的问题是否真实和重要。

结果表明,虽然CriticGPT在代码上训练,但不仅能挑出代码中的Bug,还发现了1/4的ChatGPT生产数据中的问题。


如何使用WildCard正确方式打开GPT-4o,目前 WildCard 支持的服务非常齐全,可以说是应有尽有!

官网有更详细介绍:WildCard


推荐阅读:

ChatGPT之母:AI自动化将取代人类,创意性工作或将消失

超越GPT-4o!新王Claude 3.5 Sonnet来啦!

GPT-4o首次引入!全新图像自动评估基准发布!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/753162.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

golang生成RSA公钥和密钥

目录 场景 场景一:加密、解密 场景二:微信退款 场景三:SSL证书 为什么是.key和.pem格式的文件 生成密钥、公钥 密钥、公钥保存到文件中 第一个:保存密钥到文件里 第二个:保存公钥到文件里 场景 场景一&#…

ForkJoinPool浅析

一,概述 相比传统的线程池ExecuteService,ForkJoinPool的优势在于能采用分治算法、工作窃取算法高效利用CPU资源,如下图 Fork即拆分,Join即合并, 通过将大任务拆分成多个小任务,在多个线程中执行后,合并结果即可得到大任务的结果,经典的例子有归并排序、超大数组求和…

如何保护应用?可快速部署的WAF服务器分享

Web应用攻击是安全事件和数据泄露的主要原因。相关统计表明,超过四分之三的网络犯罪直指应用及其漏洞。为保护数量日益增长的应用安全,Web应用防火墙(WAF)因此而生。本文则聚焦于WAF服务器,了解它的性能与具体的实践应用。   新加坡网络安全…

Linux应急响应靶机 2

一、靶机介绍 应急响应靶机-Linux2 前景需要:看监控的时候发现webshell告警,领导让你上机检查你可以救救安服仔吗!! 1,提交攻击者IP 2,提交攻击者修改的管理员密码(明文) 3,提交第一次Webshell的连接URL(http://xxx.xxx.xxx.…

变“回锅肉”专场的《歌手2024》,是不是高开低走了?

《歌手2024》播出已经过半,似乎出现了高开低走的不妙趋势。 6月26日,《歌手》节目组官宣第八期节目的补位歌手为谭维维,曾主动“请战”的她再次回到了《歌手》舞台,实力歌手加入节目按理说是件好事,却意外并未受到观众…

每天写java到期末考试--复习集合与泛型--6.28

1、定义一个Student类,具有name、sex、age属性,具有getName、setName、getSex、setSex、 getAge、setAge方法和三个参数的构造方法 2、编写一个类,名字为ListDemo,在main方法中做以下工作: 定义一个可以保存Student类型对象的List类型对象list1,然后向list1中放入2个学生:new S…

Web渗透:php反序列化漏洞

反序列化漏洞(Deserialization Vulnerability)是一种在应用程序处理数据的过程中,因不安全的反序列化操作引发的安全漏洞;反序列化是指将序列化的数据(通常是字节流或字符串)转换回对象的过程,如…

松下的台灯值得入手吗?书客、飞利浦真实横评大分享!

我们都知道,无论是学习还是工作,都需要一个良好的照明环境,而台灯就是我们日常生活中非常重要的照明工具。它不仅能够提供额外的光线,还能减少眼睛疲劳,提高我们的工作和学习效率。 所以,选购一款合适的台…

240622_昇思学习打卡-Day4-ResNet50迁移学习

240622_昇思学习打卡-Day4-ResNet50迁移学习 我们对事物的认知都是一点一点积累出来的,往往借助已经认识过的东西,可以更好地理解和认识新的有关联的东西。比如一个人会骑自行车,我们让他去骑摩托车他也很快就能学会,比如已经学会…

电脑提醒事项怎么显示在桌面

在繁忙的工作节奏中,我们经常会面临多项任务同时进行的情况。为了确保不遗漏任何重要事务,设置电脑提醒事项就显得尤为重要。想象一下,当你正忙于一个项目时,电脑屏幕突然弹出一个提醒,告诉你接下来的会议时间&#xf…

梦想CAD二次开发

1.mxdraw简介 mxdraw是一个HTML5 Canvas JavaScript框架,它在THREE.js的基础上扩展开发,为用户提供了一套在前端绘图更为方便,快捷,高效率的解决方案,mxdraw的实质为一个前端二维绘图平台。你可以使用mxdraw在画布上绘…

实力认可!安全狗受聘成为福建省网信系统2024年度网络安全技术支撑单位

6月6日,福建省委网信办组织召开福建省网信系统2024年度网络安全技术支撑单位座谈会。 作为国内云原生安全领导厂商,安全狗也受邀出席此次活动。 省委宣传部副部长、省委网信办主任、省互联网信息办公室主任张远出席会议并颁发支撑单位证书。安全狗凭借出…

如何用Vue3和Plotly.js绘制动态3D图表?

本文由ScriptEcho平台提供技术支持 项目地址:传送门 Plotly.js: 使用Vue.js动态加载数据并绘制图表 应用场景 在数据可视化应用中,需要将数据动态加载到图表中并进行实时更新。本文将展示如何使用Plotly.js和Vue.js实现这一功能,从加载外…

java基于ssm+jsp 电子商城系统

1管理员功能模块 管理员登录,通过填写用户名、密码进行登录,如图1所示。 图1管理员登录界面图 管理员登录进入电子商城系统可以查看个人中心、用户管理、医生管理、药品信息管理、线上诊疗管理、医生信息管理、管理员管理、论坛管理、系统管理、订单管…

snowflake 不再是个数据仓库公司了

标题先上结论,为啥这么认为,且听接下来道来。 snowflake 非常成功,开创了云数仓先河,至今在数仓架构上也是相对比较先进的,国内一堆模仿的公司,传统上我们会认为 snowflake 肯定是一家数据仓库公司。不过最…

智能工业网络,需要何种工业以太网交换机作为支撑?

随着工业企业数字化及信息化的进一步深化升级,工业领域相关控制及信息系统的业务类型不断增加、复杂性不断提升,工业控制网络与工业信息网络也呈现融合趋势,具备支持多业务、多协议、多厂商设备和数据的互联互通、共网承载以及高质量传输能力…

vue-router的学习

vue-router 基于Vue做单页面应用时,vue-router可以帮我们将url地址和组件绑定,在我们切换路由组件时,url改变,页面无需从服务端重新加载,即不用刷新,打个比方,我们用美团外卖点外卖时&#xff…

一文带你彻底搞懂设计模式之单例模式!!由浅入深,图文并茂,超超超详细的单例模式讲解!!

一文带你彻底搞懂设计模式之单例模式! 一、什么是单例模式?单例模式分类饿汉式创建单例对象懒汉式创建单例对象 多问一个为什么? 二、为什么要有单例模式?使用单例模式的原因单例模式的应用场景 三、多线程下的单例模式饿汉式懒汉…

【高级篇】InnoDB引擎深入:核心机制与实战优化(十五)

引言 在探索了MySQL集群与分布式技术之后,我们进入了数据库引擎的核心地带——InnoDB。作为MySQL的默认存储引擎,InnoDB凭借其对事务的支持、行级锁定、高效的恢复机制以及复杂的内存管理,成为众多应用场景的首选。本章,我们将深入InnoDB的内部机制,透彻理解锁管理、事务…

【C++】动态内存管理new和delete

文章目录 一、C的内存管理方式二、new和delete的用法1.操作内置类型2.操作自定义内置类型 三、new和delete的底层实现1.operator new和operator delete函数2.new和delete的实现原理 四、定位new表达式五、malloc/free和new/delete的区别 一、C的内存管理方式 之前在C语言的动态…