人工智能论文GPT-3（5）：2020.5 Language Models are Few-Shot Learners；总结

6 更广泛的影响

语言模型对社会具有广泛的有益应用，包括代码和写作自动完成、语法辅助、游戏叙事生成、提高搜索引擎响应速度和回答问题等。但它们也可能具有潜在的有害应用。GPT-3 提高了文本生成质量和适应性，使得相较于较小的模型更难将合成文本与人类撰写的文本区分开来。因此，GPT-3 有可能推动语言模型的有益和有害应用的发展。

本文我们重点关注改进后的语言模型可能带来的潜在危害，并非因为我们认为这些危害一定更大，而是为了激发人们研究和缓解这些危害的努力。此类语言模型的广泛影响有很多。我们主要关注两个主要问题：第6.1节讨论 GPT-3 等语言模型可能被故意滥用的潜在问题，第6.2节讨论 GPT-3 等模型中的偏见、公平性和代表性问题。我们还将简要讨论能效问题（第6.3节）。

6.1 语言模型的误用Misuse of Language Models

语言模型的恶意使用可能较难预测，因为它们通常涉及将语言模型用于与研究人员意图完全不同的环境或目的。为了应对这种情况，我们可以借鉴传统的安全风险评估框架，该框架概述了关键步骤，如识别威胁和潜在影响、评估可能性，以及将风险确定为可能性和影响的组合[Ros12]。我们讨论三个因素：潜在的滥用应用、威胁行为者和外部激励结构。

6.1.1 潜在的误用场景

任何依赖文本生成的社会有害活动都可能通过强大的语言模型得到增强。例如，包括误导信息、垃圾邮件、网络钓鱼、滥用法律和政府流程、欺诈性学术论文写作和社会工程学伪装等。这些应用中的许多都受限于人类撰写足够高质量文本的能力。能够生成高质量文本的语言模型可能会降低执行这些活动的现有障碍，并提高其效率。

随着文本合成质量的提高，语言模型的误用潜力也在增加。GPT-3生成几段合成内容的能力，如3.9.4中所述，人们发现很难将其与人类撰写的文本区分开来，这在这方面是一个令人担忧的里程碑。

6.1.2 威胁行为者分析

威胁行为者可以根据技能和资源水平进行划分，范围从可能能够构建恶意产品的低技能或中等技能、资源有限的行为者，到“高级持续性威胁”（APT）：技能高超、资源丰富（例如国家支持的）且拥有长期议程的团体[SBC+19]。

为了了解低技能和中等技能行为者如何看待语言模型，我们一直在监测论坛和聊天群组，这些论坛和群组经常讨论误导信息战术、恶意软件分发和计算机欺诈。尽管我们在2019年春季GPT-2初次发布后确实发现了大量关于误用的讨论，但自那以后，我们发现实验实例减少，并且没有成功部署的实例。此外，这些误用讨论与媒体对语言模型技术的报道相关。因此，我们评估这些行为者带来的误用威胁并非迫在眉睫，但可靠性的显著改进可能会改变这一状况。

由于APT通常不会在公开场合讨论其行动，我们已咨询专业威胁分析师，了解涉及使用语言模型的潜在APT活动。自GPT-2发布以来，尚未发现可能通过使用语言模型获得潜在收益的操作出现明显变化。评估结果显示，语言模型可能不值得投入大量资源，因为目前没有令人信服的证据表明当前的语言模型在生成文本方面显著优于现有方法，而且用于“定位”或“控制”语言模型内容的方法仍处于非常初级阶段。

6.1.3 外部激励结构

每个威胁行为者群体都有一套赖以完成其议程的战术、技术和程序（TTP）。TTP受到诸如可扩展性和部署便利性等经济因素的影响；网络钓鱼在所有群体中极为流行，因为它提供了一种低成本、低投入、高产出的部署恶意软件和窃取登录凭据的方法。利用语言模型增强现有TTP可能会使部署成本进一步降低。

易用性是另一个重要的激励因素。拥有稳定的基础设施对TTP的采用具有重大影响。然而，语言模型的输出是随机的，尽管开发人员可以对其进行约束（例如，使用top-k截断），但在没有人类反馈的情况下，它们无法做到持续一致。如果一个社交媒体虚假信息机器人产生的输出99%的时间是可靠的，但1%的时间产生不连贯的输出，这可能会减少运营该机器人所需的人类劳动力。但是，仍然需要人工来过滤输出，这限制了操作的可扩展性。

基于我们对该模型的分析以及对威胁行为者和环境的分析，我们怀疑AI研究人员最终会开发出足够一致和可控制的语言模型，这将引起恶意行为者的更大兴趣。我们预计这将给更广泛的研究社区带来挑战，并希望通过缓解研究、原型设计和与其他技术开发者协调配合来应对这一挑战。

6.2 公平性、偏见和代表性

训练数据中存在的偏见可能导致模型生成刻板印象或带有偏见的内容。这是令人担忧的，因为模型偏见可能会通过巩固现有刻板印象和产生贬低性描绘等方式，以不同方式伤害相关群体的人员[Cra17]。为了更好地了解GPT-3在公平性、偏见和代表性方面的局限性，我们对其偏见进行了分析。

我们的目标不是详尽地描述GPT-3，而是对其一些局限性和行为进行初步分析。我们重点关注与性别、种族和宗教相关的偏见，尽管可能存在许多其他类别的偏见，并可以在后续工作中进行研究。这是一项初步分析，并不反映模型在所有研究类别内的所有偏见。

总的来说，我们的分析表明，在互联网上训练的模型具有互联网规模的偏见；模型往往反映了其训练数据中存在的刻板印象。下面，我们讨论在性别、种族和宗教维度上的初步发现。我们对拥有1750亿参数的模型以及类似规模较小的模型进行了偏见探测，以查看它们在这一维度上是否存在差异以及差异如何。

6.2.1 性别Gender（略）

6.2.2 种族 Race（略）

6.2.3 信仰 Religion（略）

6.2.4 未来偏见与公平性挑战Fairness, Bias, and Representation （略）

6.3 能耗 Energy Usage

实际的大规模预训练需要大量的计算，这通常是高能耗的：与拥有15亿参数的GPT-2模型相比，GPT-3 1750亿参数模型在预训练期间消耗了几千个千万亿次浮点运算/秒-天的计算能力（如图2.2所示）。这意味着我们应该意识到这些模型的成本和效率，正如[SDSE19]所倡导的。

大规模预训练的使用也为观察大型模型的效率提供了另一个视角——我们不仅要考虑训练这些模型所需的资源，还要考虑这些资源在模型生命周期内的分摊情况，因为模型随后将用于各种目的并针对特定任务进行微调。尽管像GPT-3这样的模型在训练期间消耗大量资源，但训练完成后它们可能会出人意料地高效：即使使用完整的GPT-3 1750亿参数模型，从训练好的模型中生成100页内容所需的能耗也仅约为0.4千瓦时，即能源成本仅为几美分。此外，诸如模型蒸馏[LHCG19a]等技术可以进一步降低此类模型的成本，使我们能够采用一种范式：先训练单个大规模模型，然后为适合的场景创建更高效的版本。随着时间的推移，算法进步也可能自然地进一步提高这些模型的效率，这与图像识别和神经机器翻译中观察到的趋势相似[HB20]。

7 相关工作

多项工作都专注于通过增加语言模型中的参数数量或计算能力来提高生成性能或任务性能。早期的工作将基于LSTM的语言模型扩展到超过十亿个参数[JVS+16]。

一种工作方法是直接增加Transformer模型的大小，使参数数量和每标记浮点运算数（FLOPS）大致成比例增长。这一方向的工作已经逐步增加了模型的大小：原始论文中有2.13亿个参数[VSP+17]，3亿个参数[DCLT18]，15亿个参数[RWC+19]，80亿个参数[SPP+19]，110亿个参数[RSR+19]，最近则是170亿个参数[Tur20]。

第二种工作方法是增加参数数量但不增加计算能力，作为在不增加计算成本的情况下提高模型存储信息能力的一种手段。这些方法依赖于条件计算框架[BLC13]，特别是混合专家方法[SMM+17]已被用于生成1000亿参数的模型，最近还有500亿参数的翻译模型[AJF19]，尽管在每次前向传递中实际使用的参数只占了很小一部分。

第三种方法是在不增加参数的情况下增加计算能力；这种方法的示例包括自适应计算时间[Gra16]和通用Transformer[DGV+18]。

我们的工作专注于第一种方法（即直接增大神经网络，使计算能力和参数一起扩展），并将模型大小增加了10倍，超过了之前采用这种策略的模型。

多项研究还系统地探讨了规模对语言模型性能的影响的问题。[KMH+20, RRBS19, LWS+20, HNA+17]发现，随着自回归语言模型规模的扩大，损失呈现出平稳的幂律趋势。这项工作表明，随着模型继续扩大，这种趋势在很大程度上仍将延续（尽管在图3.1中可能检测到曲线的轻微弯曲），我们还发现，在三个数量级的扩展范围内，许多（但不是所有）下游任务的性能相对平稳地提升。

另一项工作则与扩展规模相反，它试图保留尽可能小的语言模型中的强大性能。这种方法包括ALBERT [LCG+19]以及针对语言模型提炼的通用[HVD15]和任务特定[SDCW19, JYS+19, KR16]方法。这些架构和技术可能与我们的工作互补，并可用于降低巨型模型的延迟和内存占用。

随着微调后的语言模型在许多标准基准任务上的性能已接近人类水平，人们已投入大量精力构建更困难或开放式的任务，包括问答[KPR+19, IBGC+14, CCE+18, MCKS18]、阅读理解[CHI+18, RCM19]以及针对现有语言模型设计的具有挑战性的对抗性数据集[SBBC19, NWD+19]。在这项工作中，我们在许多这样的数据集上测试了我们的模型。

尽管我们少样本方法的机制有所不同，但先前的工作也探索了将预训练语言模型与梯度下降相结合来进行少样本学习的方法[SS20]。另一个具有相似目标的子领域是半监督学习，其中像UDA[XDH+19]这样的方法也探索了在可用标记数据非常少时如何进行微调。

使用自然语言给多任务模型提供指令的做法首先在[MKXS18]的监督设置中得以正式化，并在[RWC+19]的语言模型中用于某些任务（如总结）。在文本到文本的转换器[RSR+19]中也探索了以自然语言呈现任务的概念，尽管在那里它是用于多任务微调，而不是用于无需权重更新的上下文学习。

在语言模型中增加通用性和迁移学习能力的另一种方法是多任务学习[Car97]，该方法同时对多个下游任务进行微调，而不是分别更新每个任务的权重。如果多任务学习成功，将允许使用单个模型执行许多任务而无需更新权重（类似于我们的上下文学习方法），或者在更新新任务的权重时提高样本效率。多任务学习已经显示出一些令人鼓舞的初步结果[LGH+15，LSP+18]，多阶段微调最近已成为某些数据集上SOTA结果的标准部分[PFB18]，并推动了某些任务的界限[KKS+20]，但仍然受到需要手动整理数据集集合和设置训练课程表的限制。相比之下，在足够大的规模上进行预训练似乎提供了一种“自然”的广泛任务分布，这些任务隐含在预测文本本身中。未来工作的一个方向可能是尝试为多任务学习生成更广泛的显式任务集，例如通过程序生成[TFR+17]、人机交互[ZSW+19b]或主动学习[Mac92]。

过去两年，语言模型中的算法创新取得了巨大的进步，包括基于去噪的双向性[DCLT18]、前缀语言模型[DL15]和编码器-解码器架构[LLG+19，RSR+19]、训练过程中的随机排列[YDY+19]、提高采样效率的架构[DYY+19]、数据和训练程序的改进[LOG+19]以及嵌入参数效率的提升[LCG+19]。这些技术中的许多在下游任务中都取得了显著的进步。在这项工作中，我们继续专注于纯自回归语言模型，既是为了关注上下文学习的性能，也是为了降低我们大型模型实现的复杂性。然而，将这些算法进步纳入GPT-3很可能能够提高其在下游任务上的性能，尤其是在微调设置中，将GPT-3的规模与这些算法技术相结合是未来工作的一个有前途的方向。

8 结论

我们展示了一个拥有1750亿参数的语言模型，该模型在零样本、一样本和少样本设置中在许多NLP任务和基准测试中表现出强大的性能，在某些情况下几乎达到了最先进的微调系统的性能，同时还能生成高质量的样本以及在即时定义的任务上表现出色。我们记录了在不使用微调的情况下性能可预测的大致趋势。我们还讨论了这类模型的社会影响。尽管存在许多局限性和弱点，但这些结果表明，非常大的语言模型可能是开发可适应的通用语言系统的重要组成部分。