人工智能论文GPT-3(5):2020.5 Language Models are Few-Shot Learners;总结

6 更广泛的影响

语言模型对社会具有广泛的有益应用,包括代码和写作自动完成、语法辅助、游戏叙事生成、提高搜索引擎响应速度和回答问题等。但它们也可能具有潜在的有害应用。GPT-3 提高了文本生成质量和适应性,使得相较于较小的模型更难将合成文本与人类撰写的文本区分开来。因此,GPT-3 有可能推动语言模型的有益和有害应用的发展。

本文我们重点关注改进后的语言模型可能带来的潜在危害,并非因为我们认为这些危害一定更大,而是为了激发人们研究和缓解这些危害的努力。此类语言模型的广泛影响有很多。我们主要关注两个主要问题:第6.1节讨论 GPT-3 等语言模型可能被故意滥用的潜在问题,第6.2节讨论 GPT-3 等模型中的偏见、公平性和代表性问题。我们还将简要讨论能效问题(第6.3节)。

6.1 语言模型的误用Misuse of Language Models

语言模型的恶意使用可能较难预测,因为它们通常涉及将语言模型用于与研究人员意图完全不同的环境或目的。为了应对这种情况,我们可以借鉴传统的安全风险评估框架,该框架概述了关键步骤,如识别威胁和潜在影响、评估可能性,以及将风险确定为可能性和影响的组合[Ros12]。我们讨论三个因素:潜在的滥用应用、威胁行为者和外部激励结构。

6.1.1 潜在的误用场景

任何依赖文本生成的社会有害活动都可能通过强大的语言模型得到增强。例如,包括误导信息、垃圾邮件、网络钓鱼、滥用法律和政府流程、欺诈性学术论文写作和社会工程学伪装等。这些应用中的许多都受限于人类撰写足够高质量文本的能力。能够生成高质量文本的语言模型可能会降低执行这些活动的现有障碍,并提高其效率。

随着文本合成质量的提高,语言模型的误用潜力也在增加。GPT-3生成几段合成内容的能力,如3.9.4中所述,人们发现很难将其与人类撰写的文本区分开来,这在这方面是一个令人担忧的里程碑。

6.1.2 威胁行为者分析

威胁行为者可以根据技能和资源水平进行划分,范围从可能能够构建恶意产品的低技能或中等技能、资源有限的行为者,到“高级持续性威胁”(APT):技能高超、资源丰富(例如国家支持的)且拥有长期议程的团体[SBC+19]。

为了了解低技能和中等技能行为者如何看待语言模型,我们一直在监测论坛和聊天群组,这些论坛和群组经常讨论误导信息战术、恶意软件分发和计算机欺诈。尽管我们在2019年春季GPT-2初次发布后确实发现了大量关于误用的讨论,但自那以后,我们发现实验实例减少,并且没有成功部署的实例。此外,这些误用讨论与媒体对语言模型技术的报道相关。因此,我们评估这些行为者带来的误用威胁并非迫在眉睫,但可靠性的显著改进可能会改变这一状况。

由于APT通常不会在公开场合讨论其行动,我们已咨询专业威胁分析师,了解涉及使用语言模型的潜在APT活动。自GPT-2发布以来,尚未发现可能通过使用语言模型获得潜在收益的操作出现明显变化。评估结果显示,语言模型可能不值得投入大量资源,因为目前没有令人信服的证据表明当前的语言模型在生成文本方面显著优于现有方法,而且用于“定位”或“控制”语言模型内容的方法仍处于非常初级阶段。

6.1.3 外部激励结构

每个威胁行为者群体都有一套赖以完成其议程的战术、技术和程序(TTP)。TTP受到诸如可扩展性和部署便利性等经济因素的影响;网络钓鱼在所有群体中极为流行,因为它提供了一种低成本、低投入、高产出的部署恶意软件和窃取登录凭据的方法。利用语言模型增强现有TTP可能会使部署成本进一步降低。

易用性是另一个重要的激励因素。拥有稳定的基础设施对TTP的采用具有重大影响。然而,语言模型的输出是随机的,尽管开发人员可以对其进行约束(例如,使用top-k截断),但在没有人类反馈的情况下,它们无法做到持续一致。如果一个社交媒体虚假信息机器人产生的输出99%的时间是可靠的,但1%的时间产生不连贯的输出,这可能会减少运营该机器人所需的人类劳动力。但是,仍然需要人工来过滤输出,这限制了操作的可扩展性。

基于我们对该模型的分析以及对威胁行为者和环境的分析,我们怀疑AI研究人员最终会开发出足够一致和可控制的语言模型,这将引起恶意行为者的更大兴趣。我们预计这将给更广泛的研究社区带来挑战,并希望通过缓解研究、原型设计和与其他技术开发者协调配合来应对这一挑战。

6.2 公平性、偏见和代表性

训练数据中存在的偏见可能导致模型生成刻板印象或带有偏见的内容。这是令人担忧的,因为模型偏见可能会通过巩固现有刻板印象和产生贬低性描绘等方式,以不同方式伤害相关群体的人员[Cra17]。为了更好地了解GPT-3在公平性、偏见和代表性方面的局限性,我们对其偏见进行了分析。

我们的目标不是详尽地描述GPT-3,而是对其一些局限性和行为进行初步分析。我们重点关注与性别、种族和宗教相关的偏见,尽管可能存在许多其他类别的偏见,并可以在后续工作中进行研究。这是一项初步分析,并不反映模型在所有研究类别内的所有偏见。

总的来说,我们的分析表明,在互联网上训练的模型具有互联网规模的偏见;模型往往反映了其训练数据中存在的刻板印象。下面,我们讨论在性别、种族和宗教维度上的初步发现。我们对拥有1750亿参数的模型以及类似规模较小的模型进行了偏见探测,以查看它们在这一维度上是否存在差异以及差异如何。

6.2.1 性别Gender(略)

6.2.2 种族 Race(略)

6.2.3 信仰 Religion(略)

6.2.4 未来偏见与公平性挑战Fairness, Bias, and Representation (略)

6.3 能耗 Energy Usage

实际的大规模预训练需要大量的计算,这通常是高能耗的:与拥有15亿参数的GPT-2模型相比,GPT-3 1750亿参数模型在预训练期间消耗了几千个千万亿次浮点运算/秒-天的计算能力(如图2.2所示)。这意味着我们应该意识到这些模型的成本和效率,正如[SDSE19]所倡导的。

大规模预训练的使用也为观察大型模型的效率提供了另一个视角——我们不仅要考虑训练这些模型所需的资源,还要考虑这些资源在模型生命周期内的分摊情况,因为模型随后将用于各种目的并针对特定任务进行微调。尽管像GPT-3这样的模型在训练期间消耗大量资源,但训练完成后它们可能会出人意料地高效:即使使用完整的GPT-3 1750亿参数模型,从训练好的模型中生成100页内容所需的能耗也仅约为0.4千瓦时,即能源成本仅为几美分。此外,诸如模型蒸馏[LHCG19a]等技术可以进一步降低此类模型的成本,使我们能够采用一种范式:先训练单个大规模模型,然后为适合的场景创建更高效的版本。随着时间的推移,算法进步也可能自然地进一步提高这些模型的效率,这与图像识别和神经机器翻译中观察到的趋势相似[HB20]。

7 相关工作

多项工作都专注于通过增加语言模型中的参数数量或计算能力来提高生成性能或任务性能。早期的工作将基于LSTM的语言模型扩展到超过十亿个参数[JVS+16]。

一种工作方法是直接增加Transformer模型的大小,使参数数量和每标记浮点运算数(FLOPS)大致成比例增长。这一方向的工作已经逐步增加了模型的大小:原始论文中有2.13亿个参数[VSP+17],3亿个参数[DCLT18],15亿个参数[RWC+19],80亿个参数[SPP+19],110亿个参数[RSR+19],最近则是170亿个参数[Tur20]。

第二种工作方法是增加参数数量但不增加计算能力,作为在不增加计算成本的情况下提高模型存储信息能力的一种手段。这些方法依赖于条件计算框架[BLC13],特别是混合专家方法[SMM+17]已被用于生成1000亿参数的模型,最近还有500亿参数的翻译模型[AJF19],尽管在每次前向传递中实际使用的参数只占了很小一部分。

第三种方法是在不增加参数的情况下增加计算能力;这种方法的示例包括自适应计算时间[Gra16]和通用Transformer[DGV+18]。

我们的工作专注于第一种方法(即直接增大神经网络,使计算能力和参数一起扩展),并将模型大小增加了10倍,超过了之前采用这种策略的模型。

多项研究还系统地探讨了规模对语言模型性能的影响的问题。[KMH+20, RRBS19, LWS+20, HNA+17]发现,随着自回归语言模型规模的扩大,损失呈现出平稳的幂律趋势。这项工作表明,随着模型继续扩大,这种趋势在很大程度上仍将延续(尽管在图3.1中可能检测到曲线的轻微弯曲),我们还发现,在三个数量级的扩展范围内,许多(但不是所有)下游任务的性能相对平稳地提升。

另一项工作则与扩展规模相反,它试图保留尽可能小的语言模型中的强大性能。这种方法包括ALBERT [LCG+19]以及针对语言模型提炼的通用[HVD15]和任务特定[SDCW19, JYS+19, KR16]方法。这些架构和技术可能与我们的工作互补,并可用于降低巨型模型的延迟和内存占用。

随着微调后的语言模型在许多标准基准任务上的性能已接近人类水平,人们已投入大量精力构建更困难或开放式的任务,包括问答[KPR+19, IBGC+14, CCE+18, MCKS18]、阅读理解[CHI+18, RCM19]以及针对现有语言模型设计的具有挑战性的对抗性数据集[SBBC19, NWD+19]。在这项工作中,我们在许多这样的数据集上测试了我们的模型。

尽管我们少样本方法的机制有所不同,但先前的工作也探索了将预训练语言模型与梯度下降相结合来进行少样本学习的方法[SS20]。另一个具有相似目标的子领域是半监督学习,其中像UDA[XDH+19]这样的方法也探索了在可用标记数据非常少时如何进行微调。

使用自然语言给多任务模型提供指令的做法首先在[MKXS18]的监督设置中得以正式化,并在[RWC+19]的语言模型中用于某些任务(如总结)。在文本到文本的转换器[RSR+19]中也探索了以自然语言呈现任务的概念,尽管在那里它是用于多任务微调,而不是用于无需权重更新的上下文学习。

在语言模型中增加通用性和迁移学习能力的另一种方法是多任务学习[Car97],该方法同时对多个下游任务进行微调,而不是分别更新每个任务的权重。如果多任务学习成功,将允许使用单个模型执行许多任务而无需更新权重(类似于我们的上下文学习方法),或者在更新新任务的权重时提高样本效率。多任务学习已经显示出一些令人鼓舞的初步结果[LGH+15,LSP+18],多阶段微调最近已成为某些数据集上SOTA结果的标准部分[PFB18],并推动了某些任务的界限[KKS+20],但仍然受到需要手动整理数据集集合和设置训练课程表的限制。相比之下,在足够大的规模上进行预训练似乎提供了一种“自然”的广泛任务分布,这些任务隐含在预测文本本身中。未来工作的一个方向可能是尝试为多任务学习生成更广泛的显式任务集,例如通过程序生成[TFR+17]、人机交互[ZSW+19b]或主动学习[Mac92]。

过去两年,语言模型中的算法创新取得了巨大的进步,包括基于去噪的双向性[DCLT18]、前缀语言模型[DL15]和编码器-解码器架构[LLG+19,RSR+19]、训练过程中的随机排列[YDY+19]、提高采样效率的架构[DYY+19]、数据和训练程序的改进[LOG+19]以及嵌入参数效率的提升[LCG+19]。这些技术中的许多在下游任务中都取得了显著的进步。在这项工作中,我们继续专注于纯自回归语言模型,既是为了关注上下文学习的性能,也是为了降低我们大型模型实现的复杂性。然而,将这些算法进步纳入GPT-3很可能能够提高其在下游任务上的性能,尤其是在微调设置中,将GPT-3的规模与这些算法技术相结合是未来工作的一个有前途的方向。

8 结论

我们展示了一个拥有1750亿参数的语言模型,该模型在零样本、一样本和少样本设置中在许多NLP任务和基准测试中表现出强大的性能,在某些情况下几乎达到了最先进的微调系统的性能,同时还能生成高质量的样本以及在即时定义的任务上表现出色。我们记录了在不使用微调的情况下性能可预测的大致趋势。我们还讨论了这类模型的社会影响。尽管存在许多局限性和弱点,但这些结果表明,非常大的语言模型可能是开发可适应的通用语言系统的重要组成部分。

Ankie的评论:

随着GPT-3性能的逐步提升,OpenAI愈发重视其社会责任。

首先,GPT-3的强大能力也带来了潜在的风险。它能够轻易地生成假新闻、误导性信息、垃圾邮件、网络钓鱼内容,甚至可能滥用法律和政府流程、进行欺诈性学术论文写作以及实施社会工程学伪装等,这些都可能给社会带来不良影响。

其次,由于GPT-3是基于无监督学习的,它会在处理大量文本时提取客观的权重。然而,这些权重有时可能反映出某些不公平的偏见,比如性别歧视、种族歧视或对特定信仰的偏见等。这需要我们投入更多的工作来识别和纠正这些潜在问题。

最后,功耗问题也不容忽视。人类大脑的功率大约在20瓦左右,而当前的大型模型却需要巨大的能源支持。因此,如何降低大模型的能源消耗,提高其能效比,也成为一个亟待研究的重要课题。

综上所述,随着技术的不断进步,我们需要在追求性能提升的同时,更加关注其可能带来的社会影响和环境问题,并努力寻找解决方案。

人工智能论文GPT-3(1):2020.5 Language Models are Few-Shot Learners;摘要;引言;scaling-law-CSDN博客icon-default.png?t=N7T8https://blog.csdn.net/ank1983/article/details/137836482

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/566501.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AI自动生成PPT文档 aippt的API介绍文档

官方链接直达! 产品介绍​ 能力介绍​ AiPPT 是一款智能生成演示幻灯片的在线工具。专业设计团队打造海量模板资源,输入标题即可轻松生成完整的PPT。同时 AiPPT 支持导入多格式文档一键生成 PPT,让 PPT 创作更加高效。聚焦于内容&#xff0…

夜鸦国际服账号验证怎么办 夜鸦国际服账号认证的详细教程

夜鸦国际服账号验证怎么办 夜鸦国际服账号认证的详细教程 今天为大家带来的是《夜鸦》这款游戏,游戏背景是基于13世纪欧洲背景的MMORPG游戏,这款游戏以其沉浸式的游戏体验和流畅的打斗为特色。玩家可以选择战士、剑士、猎人或女巫等角色,体验…

Tensorflow AutoGraph 的作用和功能

🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/ TensorFlow AutoGraph 是 TensorFlow 中的一个重要特性,它允许开发者使用普通的 Python 语法编写高效的 TensorFlow 图(graph)。这意味着开发者可以利用 Python 的易…

(六)小案例银行家应用程序-删除账号-findindex方法

findindex方法和find方法非常类似,只不过findindex顾名思义,他返回的是index; ● 下面我们使用删除账号的功能来学习一下findindex的 ● 当用户登录成功之后,可以在下方输入自己的用户名和密码,然后提交&#xff0c…

在线音乐播放网站项目测试(selenium+Junit5)

在做完在线音乐播放网站项目之后,需要对项目的功能、接口进行测试,利用测试的工具:selenium以及Java的单元测试工具Junit进行测试,下面式测试的思维导图,列出该项目需要测试的所有测试用例: 测试结果&#…

flink Unsupported operand types: IF(boolean, NULL, String)

问题:业务方存储了NULL 字符串,需要处理为 null select if(anull,null,a); 结果遇到了 Unsupported operand types: IF(boolean, NULL, String),根据报错反馈,很明显应该是没有对 null 自动转换&#xff…

视频教程下载:ChatGPT驱动的SEO、网络营销、生产力提升

用户遇到的一个常见问题是在ChatGPT对话过程中难以保持清晰的目的和专注。这可能导致互动无效和浪费时间。这门课程将教给各种创意人士——艺术家、制造者、博主、讲师和内容创作者——如何制定理想的提示配方,从而产生更有成效的对话和更高的回报。 这是一门关于如…

防腐木负氧离子监测站

TH-FZ4随着生活品质的提升,人们对空气质量的要求也日益提高。在这个背景下,防腐木负氧离子监测站作为空气质量监测的重要设备,逐渐进入了人们的视野。本文将为您详细解读防腐木负氧离子监测站的工作原理,带您了解这一环保科技的魅…

SQLite FTS5 扩展(三十)

返回:SQLite—系列文章目录 上一篇:SQLite的知名用户(二十九) 下一篇:SQLite 的命令行 Shell(三十一) 1. FTS5概述 FTS5 是一个 SQLite 虚拟表模块,它为数据库应用程序提供全文搜索功能。在最基本的形式中, 全文搜索引擎允许…

Jmeter(十二) - 从入门到精通 - JMeter逻辑控制器 - 终篇(详解教程)

宏哥微信粉丝群:https://bbs.csdn.net/topics/618423372 有兴趣的可以扫码加入 1.简介 Jmeter官网对逻辑控制器的解释是:“Logic Controllers determine the order in which Samplers are processed.”。 意思是说,逻辑控制器可以控制采样…

用阿里巴巴的通义听悟,免费、快速批量制作视频字幕

阿里巴巴的通义听悟可以快速准确的将音频转为文字,那么自然也可以为视频添加字幕。 具体操作方式如下: 首先,在通义听悟中点击:新建,新建一个文件夹,然后把要添加字幕的视频都上传到这里。 如果视频存在…

LeetCode131:分割回文串

题目描述 给你一个字符串 s&#xff0c;请你将 s 分割成一些子串&#xff0c;使每个子串都是 回文串。 返回 s 所有可能的分割方案。 代码 class Solution { public:vector<vector<string>> res;vector<string> path;bool isPalindrome(const string &…

分支语句和循环语句笔记

分支语句和循环语句 分支语句:if switch 循环语句 : while for do while goto语句 1. 什么是语句&#xff1f; C语句可分为以下五类&#xff1a;1.表达式语句2. 函数调用语句 3.控制语句 4.复合语句 5.空语句 控制语句用于控制程序的执行流程&#xff0c;以实现程序的各种…

如何有效利用chatgpt?

ChatGPT火爆背后蕴含着一个基本道理&#xff1a;人工智能能力得到了极大突破—大模型&#xff0c;尤其是大语言模型的能力有目共睹&#xff0c;未来只会变得更强。世界上唯一不变的就是变化。适应变化、拥抱变化、喜欢变化。“天行健&#xff0c;君子以自强不息。”我们相信未来…

DFS与回溯专题:组合总和II

DFS与回溯专题&#xff1a;组合总和II 题目链接: 组合总和II 参考题解&#xff1a;代码随想录 题目描述 代码纯享版 class Solution {public List<List<Integer>> list_all new ArrayList();public List<Integer> list new ArrayList();public List<…

Reactor 模式

目录 1. 实现代码 2. Reactor 模式 3. 分析服务器的实现具体细节 3.1. Connection 结构 3.2. 服务器的成员属性 3.2. 服务器的构造 3.3. 事件轮询 3.4. 事件派发 3.5. 连接事件 3.6. 读事件 3.7. 写事件 3.8. 异常事件 4. 服务器上层的处理 5. Reactor 总结 1…

Docker 部署网页版 vscode (code-server)

什么是 code-server code-server 是一个基于 Visual Studio Code 的开源项目&#xff0c;它允许你通过 Web 浏览器来使用 Visual Studio Code 的编辑功能。这意味着你可以在任何设备上&#xff0c;只要有浏览器和网络连接&#xff0c;就可以访问和使用 Visual Studio Code&…

【学习笔记之vue】vue项目放在springboot项目里后,刷新页面会显示whitelabel error page

vue项目放在springboot项目里后&#xff0c;刷新页面会显示whitelabel error page。 解决方案: 当你在Spring Boot项目中嵌入Vue项目&#xff0c;并且刷新页面时遇到了“Whitelabel Error Page”&#xff0c;这通常意味着Spring Boot后端没有正确地处理前端路由的请求。Vue.j…

vue3去掉el-table底部白色边框

加入下面这一行代码就行了&#xff0c;我用的是less :deep(.el-table__inner-wrapper:before) {background: none;}效果图

利用Spring Boot后端与Vue前端技术构建现代化电商平台

作者介绍&#xff1a;✌️大厂全栈码农|毕设实战开发&#xff0c;专注于大学生项目实战开发、讲解和毕业答疑辅导。 &#x1f345;获取源码联系方式请查看文末&#x1f345; 推荐订阅精彩专栏 &#x1f447;&#x1f3fb; 避免错过下次更新 Springboot项目精选实战案例 更多项目…