文章链接:https://arxiv.org/pdf/2405.00704
ChatGPT已经改变了人工智能社区,一个活跃的研究方向是ChatGPT的性能评估。评估的一个关键挑战是ChatGPT仍然是闭源的,传统的基准数据集可能已被ChatGPT用作训练数据。在本文中:
-
调查了最近的研究,揭示了ChatGPT在七个NLP任务类别中的真实性能水平
-
审查了ChatGPT的社会影响和安全问题
-
强调了评估的关键挑战和机遇。
希望本调查能够揭示其黑盒性质,以便研究人员不会被其表面生成所误导。
介绍
自从OpenAI发布ChatGPT(Chat Generative Pre-trained Transformer)以来已经过去了一年多的时间。根据2024年1月的最新统计数据,ChatGPT目前拥有超过1.805亿月活跃用户,openai.com每月约有15亿次访问量。ChatGPT构建在GPT-3.5或GPT-4之上,它们都是OpenAI专有的一系列生成式预训练Transformer模型的成员,基于Transformer架构,并通过监督学习和强化学习的组合进行了对话应用的微调。
尽管其成功改变了AI和自然语言处理社区的生态系统,但这个大语言模型(系统)仍然是一个黑盒子,研究人员对训练细节知之甚少。传统的评估方法依赖于使用一些基准数据集进行训练和测试分割,但这些方法可能不可行,因为这些数据很可能已经在ChatGPT的训练阶段中使用了。因此,像chatbot-arena-leaderboard这样的新榜单结合了自动评估和人工投票。然而,这些榜单只展示了ChatGPT的一般能力,并不能准确地反映其在特定自然语言处理任务上的性能。
本文回顾了机器学习和自然语言处理领域中关于ChatGPT评估的最新的论文。具体来说,调查了以下三个方面:
-
ChatGPT在七个主要自然语言处理任务类别上的性能。
-
ChatGPT的社会影响和安全问题。
-
ChatGPT随时间的性能。
此外,还突出了ChatGPT评估的关键挑战和机遇。主要发现是:
-
首先,ChatGPT在zero-shot和少样本情况下的表现往往良好,但仍然不及精细调节模型。
-
其次,当ChatGPT在新收集的数据上进行评估时,其泛化能力有限。
-
再者,大多数评估工作利用提示工程,依赖于人类启发式,并不能保证可重现性。
-
最后,但同样重要的是,ChatGPT的性能随时间而下降。
大型语言建模
建模范式
在统计时代,n-gram语言建模计算n个字统计,并使用规则或马尔可夫模型进行语言建模。这些技术通常会丢失关键的文本信息(例如词序)并且不能处理未知词汇。因此,广泛使用平滑技术来避免对未见或不频繁的n-gram产生零概率。
在神经网络时代,分布式表示的概念基本上是使用深度神经网络为单词学习高维语义嵌入。通常使用自监督学习来设计学习目标,例如,下一个token预测,邻近句子分类。神经语言建模的几个重大里程碑包括word2vec,BERT和GPT模型。就语言建模的神经架构而言:有编码器-解码器(例如BERT),编码器-解码器(例如BART,T5)和仅解码器(例如GPT3)。工业界的最近趋势表明了仅解码器架构的吸引力能力。
开源模型
许多开源的大语言模型在与商业替代方面竞争时表现出色,特别是在经过微调和优化之后。开源模型的一个关键优势是它们不需要个人或企业将其数据发送到第三方远程服务器,从而保护用户隐私。一些开源的预训练大语言模型包括Meta的LLaMA、Mistral的Mistral 7B、TII的Falcon LLM、OpenAI的GPT2、EleutherAI的GPT-J、MosaicML的MPT、BigScience的BLOOM、以及Zhipu的Chat-GLM 6B。LLaMA 2目前在研究社区中被广泛使用。它训练了2万亿个token,并且其上下文长度是LLaMA 1的两倍。其微调模型已经在超过100万个人类标注上进行了训练。
闭源模型
截止到撰写本文的日期,ChatGPT和GPT-4是两个广受认可的商业化系统。ChatGPT的一般训练过程包括自监督训练、奖励模型学习和强化学习,但目前还不清楚在训练ChatGPT时使用了多少训练数据和人类标注。目前尚未从OpenAI确认GPT-4是否是一个专家混合系统,其中包含了8个不同数据和任务分布的220B专家。GLaM引入了稀疏激活的专家混合架构,以扩展模型容量,同时与密集变体相比,训练成本大大降低。因此,最大的GLaM具有1.2万亿个参数,大约是GPT-3的7倍。
ChatGPT性能评估
这一部分回顾了最近的一些研究,这些研究直接使用ChatGPT来完成特定的自然语言处理任务。这些任务包括但不限于:分类、文本生成、序列标注、信息检索、解析、推理、多语言处理以及其他混合任务。下表1展示了ChatGPT在一些自然语言处理任务上的表现,将在接下来的章节中逐一说明这些任务。
分类
传统的文本分类任务将情感或主题作为主要输出标签,SuperGLUE基准测试在大多数文本分类任务上都达到了超过90%的准确率。问题是:对于现实世界的文本分类任务,ChatGPT能否达到超过90%的准确率?这里回顾了10个文本分类任务,答案是否定的。
一些研究展示了ChatGPT在zero-shot设置下具有吸引人的分类性能。例如,[Heck等,2023]在对话状态跟踪上评估了ChatGPT,并显示其平均准确率达到了56.44%,这在zero-shot设置下是最先进的,但仍然无法与监督系统相匹配。[Zhao等,2023]探讨了使用ChatGPT和提示学习进行文本蕴含分类的可行性,并显示其与基于BERT的zero-shot模型相竞争。其他研究认为ChatGPT仍然无法与精细调整的Transformer或BERT模型相匹敌。例如,[Ghanadian等,2023]对ChatGPT进行了自杀风险评估,并显示zero-shotChatGPT达到了0.73的准确率,而精细调整的ALBERT达到了0.86的准确率,同时他们发现few-shot ChatGPT甚至不如zero-shot ChatGPT。[Kim等,2023]还表明,在科学论点分类任务上,ChatGPT仍然落后于现有的精细调整BERT模型很大一部分。
更近期的研究中,[Koopman和Zuccon,2023]评估了ChatGPT在TREC 2021和2022年健康虚假信息跟踪中的100个主题上的表现,当提示为“是/否”和“是/否/不确定”答案时,ChatGPT的准确率从80%下降到33%,当提示被重新表达时,准确率进一步下降至不到60%但含有相同意义。[宋等,2023]探索了ChatGPT在通用领域内(GID)和域外意图发现和识别上的应用,发现在域内ChatGPT的整体性能不如精细调整的基准模型,并且在域外意图发现上,ChatGPT在多样本或多类别情景下表现比精细调整的基准模型差得多,同时还指出ChatGPT无法从域内演示中进行知识转移并将其推广到域外任务。[2023]评估了ChatGPT和GPT4在对话情感分类上的表现,两个系统在三个数据集中的两个数据集上均达到了可比较的性能(40%至60%的准确率),与监督模型相当。
另一个有前景的工作是使用ChatGPT进行LLM生成文本检测,[朱等,2023]开发了一个在六个数据集上进行实验的pipeline,平均准确率达到了90.05%,而其他zero-shot方法仅达到了60%-70%的准确率,但这是一个相当简单的二元分类任务,pipeline工程技巧可能对其他文本分类任务不可用。
对于分类任务,有几个关键发现:首先,在zero-shot分类设置下,ChatGPT的表现很好,但仍然落后于监督模型。其次,当标签空间增加时,ChatGPT的准确率显著下降。第三,即使提供了一些演示,知识转移在领域外分类任务中几乎不可能发生。第四,当存在与目标任务相关的公共数据时,ChatGPT的分类性能往往很好。
生成
摘要
文本摘要旨在将文本或文本集合转换为包含关键信息的简短文本。简洁性是摘要的主要目标之一,然而一些研究指出,在提示中没有长度限制时,由ChatGPT生成的摘要往往是冗余的。这可以通过使用限制性提示来改善,从而在精确度和召回率之间取得平衡。
尽管ChatGPT在zero-shot设置下表现良好,但在基于自动评估指标的精细调整最新模型中仍表现不佳。例如,精细调整的BART远远优于zero-shot ChatGPT。在多文档摘要中,[Caciularu等,2023]设计了新颖的预训练目标,他们的模型明显优于基于GPT的大语言模型。对于生物医学任务等特定领域,ChatGPT在具有专门训练集的数据集中表现比精细调整的BioBART差得多。然而,在缺乏大量训练数据时,zero-shot ChatGPT比领域特定的精细调整模型更有用,表现出其良好的zero-shot性能。
由ChatGPT生成的摘要往往受人类偏好,因为它们具有较少的语法错误,更加流畅和连贯。与此同时,这些摘要的信息量不高。通过人类反馈的强化学习导致ChatGPT倾向于关注语言方面,但在确保忠实于事实信息和与原始来源的一致性方面有困难,因此它可能会过度拟合不受限制的人类评估,这受到标注者的先验、与输入无关的偏好的影响。
有时候,特别是在专业和技术领域,ChatGPT可能不够可靠,因为它可能会自信地产生事实上不正确的输出。[Ye等,2023]已经确认,在二进制代码摘要中,ChatGPT只具有对汇编代码的基础理解,没有任何更高层次的抽象语义理解。在合同摘要中,[Sancheti等,2023]指出,ChatGPT中的幻觉使得执行此任务变得困难。一些研究得出了相反的结论,因为提示设计可以极大地影响ChatGPT的性能。例如,[Qin等,2023b]发现控制摘要长度可能会损害ChatGPT的摘要能力,这与本节前面提到的内容相反,表明ChatGPT的不稳定性。
总的来说,ChatGPT在zero-shot摘要中表现良好,其摘要更符合人类的偏好,但在基于自动评估指标的精细调整模型下表现不佳,信息量也不高。此外,由于幻觉和不稳定性,ChatGPT不太可能在专业领域的摘要中发挥作用。
问答和对话
问答(QA)和对话任务可以评估ChatGPT的检索、理解和生成能力。在开放领域的问答中,[Bai等,2023]对几个大语言模型进行了基准测试,并证明了ChatGPT的近乎完美的性能。在提供错误前提的情况下,ChatGPT在明确指出错误前提方面表现良好。在实践中,ChatGPT的表现与传统的基于检索的方法相当,但落后于像Bing Chat这样的新型语言模型。
[Nov等,2023]使用ChatGPT来回答健康问题,患者对聊天机器人功能的信任响应相对积极,普通人似乎信任使用聊天机器人来回答较低风险的健康问题。但是随着问答任务的复杂性增加,人们对ChatGPT的响应信任降低。此外,无论使用广泛和多样化的训练语料库,ChatGPT在资源匮乏的问答上表现不佳。
[Feng等,2023]证实了ChatGPT在对话状态跟踪方面优于先前的方法,而较小的精细调整模型可以达到可比较的性能。在开放领域的对话中,ChatGPT可以生成流畅的响应,但在自动评估指标上落后于精细调整的GPT-2,并在某些配置下略微不及Claude。在任务导向的对话中,ChatGPT在生成响应时往往难以区分检索到的知识库记录中的微小差异,并且往往会在给定的知识之外生成幻觉信息。
总的来说,在简单的开放领域任务中,ChatGPT表现良好,人们更喜欢其响应。然而,在复杂、资源匮乏或任务导向的场景中,它仍然有很大的改进空间。
机器翻译
机器翻译指的是将一种自然源语言转换成另一种目标语言的过程。作为大语言模型最常见的用途之一,它极大地促进了现代生活。ChatGPT在高资源语言(如欧洲语言)之间的翻译效果很好,甚至与商业系统不相上下,但是当面对低资源语言时,它落后于精细调整的模型和商业系统。另一个普遍的发现是,ChatGPT在XX → Eng任务中翻译效果良好,但在Eng → XX翻译方面仍然缺乏能力。与其他任务类似,ChatGPT在机器翻译中表现不稳定,有时会出现遗漏和明显的抄袭行为。
与其他翻译系统不同的是,ChatGPT能够更好地建模长期依赖关系并捕捉话语层面的信息,而其他系统更注重词级准确性,导致ChatGPT更受人类欢迎。此外,ChatGPT具有零代词解析和恢复的能力,这是自然语言处理中最困难的问题之一。因此,我们可以得出结论,由ChatGPT生成的翻译更注重整体语言质量,在高资源语言上表现出色,但在词级准确性和低资源语言上,ChatGPT的表现不及精细调整的模型。
改写和数据增强
ChatGPT在数据增强和改写等任务中效率高且成本效益高。几项研究表明,ChatGPT可以生成更多样化的数据,在改写生成方面显示出类似于从人类工作者收集的数据的模型稳健性。例如,[Jon和Bojar,2023]使用ChatGPT为一个句子生成了40个不同的改写,而[Michail等,2023]使用ChatGPT生成的合成推文作为训练数据,这些方法取得了预期的效果。但是,ChatGPT也有缺点,它不会为命名实体(如地点、歌曲、人名等)产生替代名称,这是众包数据处理得很好的方面。尽管如此,对于这些任务来说,它仍然是一种高效且成本效益高的选择。
可控生成
可控生成旨在生成具有特定特征的文本,近年来受到了广泛关注。尽管ChatGPT可以符合人类的偏好,但在可控生成任务中表现不佳。[Pu和Demberg,2023]提示ChatGPT为普通人和专家生成不同摘要,尽管其胜过先前的最先进模型,但生成的摘要与人类撰写的文本相差甚远。一些研究发现,ChatGPT未能正确遵循数值限制,这可能是由于错误的token化引起的。另一项研究由[Valentini等,2023]尝试让ChatGPT为不同年龄段的儿童生成故事,他们发现ChatGPT无法避免使用复杂词汇,因此生成的故事可读性明显低于人类撰写的故事。此外,ChatGPT在一些其他任务上表现不佳,例如去文本化和复杂受控改写生成。尽管ChatGPT在上述精细的严格约束下表现困难,但它可以处理粗略的约束。例如,zero-shot ChatGPT在内容受限的文本生成(如情感和关键词约束)上优于监督基线。此外,它可以在给定故事开头文本的情况下继续写出更流畅、更连贯的故事。ChatGPT擅长模仿而不是掌握复杂的理解、组织和生成能力,因此它在硬控制信号方面表现不佳。
其他生成任务
ChatGPT可以用于各种生成任务。对于代码生成,[Liu等,2023]根据他们提出的评估框架,显示两个开源模型可以优于ChatGPT。[Singh等,2023]指出,在Bash和CF规则的代码生成方面,ChatGPT表现不及T5。[Xiao等,2023]利用ChatGPT在教育领域,由ChatGPT生成的阅读材料和相应的练习题都适合学生,甚至超过了现有人工撰写的内容的质量。还有其他使用ChatGPT的生成任务,例如生成阅读理解测试中的多项选择项的解释,提供片段和提示来推导问答对,给定一个句子和一个实体来生成与该实体相关的问题,ChatGPT在这些任务中表现良好,有时甚至与人类相媲美。
当涉及到生成建设性或复杂内容时,ChatGPT往往表现不佳。例如,在教育方面,ChatGPT可以充当教学辅导员,但在生成富有见地和新颖的反馈方面仍有改进空间。[Jentzsch和Kersting,2023]尝试弄清楚ChatGPT是否有幽默感。ChatGPT只能识别、复制和解释符合固定模式的双关语,无法产生原创的有趣内容,因此,ChatGPT只能学习特定的笑话模式,而不能真正有趣。
对于文本生成任务,ChatGPT的主要优势在于它具有良好的写作能力和与人类价值观的一致性,这解释了为什么它在一些简单的生成任务上与人类表现相当。但是,在需要生成创造性内容或理解复杂的语义特征和句法分析的任务中,它仍然表现不佳。
序列标注
序列标注是将标签分配给序列中的单词或短语,例如命名实体识别(NER)、词性标注和名词短语识别。传统的统计方法使用隐马尔可夫模型(HMM)或条件随机场(CRF)进行序列标注,当前的最先进方法依赖于具有CRF的深度表示。与分类或生成任务不同,序列标注任务的标签是针对局部文本片段的,并且文本片段的特征表示通常限制在一个小窗口内。[Xie等,2023]对zero-shot NER进行了实证研究,将NER任务分解为更简单的子问题,并通过标签对其进行了拆分,同时实验了句法提示和工具增强,在中英文场景以及领域特定和通用领域数据集上验证了他们方法的有效性。
信息检索
典型的信息检索系统包括两个步骤:在第一步给定一个query,在第二步搜索相关的文档并对返回的文档进行排序。许多工作已经将LLMs应用到信息检索过程中。LLMs可以辅助四个通用模块:重写器、检索器、重新排名器和阅读器。
重写器是一个重要的IR模块,旨在提高用户query的精确性和表达性。query重写在两种情况下起作用:一是即时检索,它弥合了query和文档之间的词汇不匹配,二是会话搜索,它根据不断演变的对话迭代地完善和调整系统响应。例如,Query2Doc [Wang et al., 2023c]通过少量提示LLMs生成伪文档,然后使用生成的伪文档扩展query。LLM4CS [Mao et al., 2023]利用ChatGPT作为基于文本的搜索意图解释器来帮助会话搜索,使用了三种提示方法生成多个query重写和假设响应,这些query重写被聚合成一个集成的用户query表示。
检索器通常用于IR的早期阶段以提高召回率,经典的词袋模型BM25在许多检索任务中表现出强大的鲁棒性。SGPT [Muennighoff, 2022]将GPT模型修改为跨或双编码器以进行语义搜索。GENRET [Sun et al., 2023c]通过离散自动编码方法学习将文档token为短离散表示。
重新排名器是另一个重要的模块,它返回一个相关文档的有序列表。它作为细粒度文档过滤的关键部分。UPR [Sachan et al., 2022]使用LLMs对检索到的段落进行评分,并根据问题上的对数似然得分对段落进行重新排序。
阅读器或内容生成可以被视为信息管理的最后过程,它可以将搜索到的文本压缩成用户友好的输出。GenRead [Yu et al., 2022]首先提示一个大语言模型根据给定的问题生成上下文文档,然后阅读生成的文档以产生最终答案。
尽管生成能力在LLMs的预训练目标和排名目标之间带来了一些差异,但两项最近的研究 [Zhang et al., 2023a]已经表明,与强基线相比,ChatGPT在IR任务上取得了有竞争力的结果。[Zhang et al., 2023a]在从专业和普通文档中检索需求信息方面对ChatGPT进行了实证评估,在zero-shot设置下,定量和定性结果均显示ChatGPT具有检索需求相关信息的良好能力(高召回率)和检索更具体需求信息的有限能力(低精确度)。类似地,[Sun et al., 2023b]探索了ChatGPT在各种段落重新排序基准上的指导方法,并验证了其对监督模型的能力。
分析
在统计时代的NLP中,解析是其支柱。许多高级NLP任务,如机器翻译和信息提取,都依赖于成分解析或依赖解析。在神经时代,解析步骤可以被跳过,因为文本的分布式表示可以直接馈送到下游任务中。因此,如今解析任务通常可以通过序列到序列学习来解决。[Sun et al., 2023a]比较了ChatGPT与其他五个开源LLMs在文本到SQL解析任务上的性能。发现与封闭源模型相比,开源模型的性能明显不足。然而,值得注意的是,即使是GPT-3.5在几个经典的文本到SQL解析数据集上也比较小的基线模型表现差。
推理
推理是人类智能的基本组成部分,它是根据过去的经验或背景以逻辑和系统的方式思考前提的过程。目前尚不清楚LLMs是否具有真正的推理能力。从“LLMs是少样本学习者”的早期主张开始,关于推理的其他类似主张包括“LLMs是体面的zero-shot推理者”,以及“LLMs在常见的规划/推理任务上仍然远未达到可接受的性能”,或者LLMs尚不能自我修正推理。在概述改进LLMs推理技能的技术以及评估推理能力的方法和基准之后,发现LLMs是否根据真实推理还是启发式进行预测还不清楚。它们逐步推理并返回原因可能是不正确和不一致的。
一些最近的工作分析了ChatGPT的具体推理能力。例如,[Jang和Lukasiewicz,2023]调查了逻辑推理中的四个属性:语义等价、否定、对称性和转移,并显示ChatGPT表现出增强的否定和传递一致性,但仍然会犯违反逻辑属性的错误。此外,当输入文本被改写或输入句子的顺序被改变时,ChatGPT经常会改变其答案。[Wang et al., 2023a]通过辩论探索了ChatGPT的推理能力:他们首先获得ChatGPT的初始解决方案,并对在其中获得正确答案的示例进行评估。然后,他们通过在错误的目标答案上进行条件推断来合成无效的解决方案。然后,他们在ChatGPT和用户之间(由ChatGPT条件化的无效解决方案模拟)开始了类似辩论的对话,以查看ChatGPT在辩论过程中是否能够坚持并捍卫其对真理的信念。结果发现,ChatGPT的信仰和怀疑并不稳健,并且很容易受到用户的干扰,它经常承认或被用户的无效回答/论点所误导,尽管它能够在开始时产生正确的解决方案。
[Qin et al., 2023a]对ChatGPT进行了算术、常识、符号和逻辑推理的实验,结果表明,在使用链式思维进行算术推理时,ChatGPT的表现优于GPT-3.5,但在常识推理中使用链式思维并不总是提供更好的性能,而且在许多情况下,它甚至比GPT-3.5的符号和逻辑推理表现更差。在法律应用中,[Kang et al., 2023]表明ChatGPT可以产生合理的答案,但大多数情况下未能提供与法律专家一致的正确推理路径。通过提供部分标注的推理路径,包括上下文学习的类似标注场景和将复杂问题分解为更简单问题,可以提高其性能。
总的来说,我们发现ChatGPT是否具有真正的推理技能还是仅基于记忆进行预测还不清楚。此外,诸如链式思维之类的技术会导致不一致的生成。提示和使用更大的语言模型可能不是解决推理问题的最终解决方案。我们建议将启发式和概率(例如贝叶斯网络)推理引入LLMs中,以增强它们的推理能力。
多语言能力
许多研究表明,当输入语言为英语时,ChatGPT的性能更好,一个重要原因是训练数据集严重偏向于英语。[Zhang et al., 2023b]采用了一种提示回译方法,并显示ChatGPT可以在翻译等价任务中返回一致的结果,但在翻译变体任务中难以提供准确的答案。[Khondaker et al., 2023]对44个阿拉伯语理解和生成任务对ChatGPT进行了评估,并发现它在总体上被一直被细调过的较小模型所超越,这些模型已经在阿拉伯语上进行了微调。
混合任务
有一些研究调查了ChatGPT是否是特定领域的通用求解器。[Jahan et al., 2023]表明,与生物医学领域的微调模型(如BioGPT和BioBART)相比,ChatGPT在生物医学领域的表现相当差,而在训练数据量较小的数据集上,它的表现则优于微调模型。[Li et al., 2023b]对ChatGPT进行了实证研究,并指出它在金融领域可以与微调模型竞争,但在需要更深层次的语义和结构分析的任务上仍然落后。
社会影响与安全
在下表2中列出了 ChatGPT 最近关于社会影响和安全问题的工作
社会影响:偏见和公平性源自哲学概念,即模型应该平等对待人类。然而,偏见可能是由于无意识行为引起的,来源包括训练数据收集、模型设计和人类交互与标注等。最近[Ra,2023]的研究将偏见分类为不同类别,如种族和性别偏见、语言偏见、文化偏见、地域偏见等。ChatGPT对英语表现出强烈的语言偏见,[Wang等人,2023年]研究了ChatGPT的首位效应,并显示ChatGPT的决策对提示中标签的顺序敏感,它更有可能选择在前几个位置的标签作为答案。
[España-Bonet,2023]发现了2023年ChatGPT的政治和语言偏见:在2023年2月至8月期间,ChatGPT从左翼转变为中立政治取向,在中间出现了向右倾斜的时期,而到2023年8月为止的当前版本在4种语言中一直呈现左倾。[Deshpande等人,2023]揭示了当ChatGPT被分配了一个角色时,与默认设置相比,它可能会显著地具有有毒和不安全的倾向。其他社会因素还考虑了伦理[Stahl和Eke,2024]、对就业的影响[George等人,2023]以及能源消耗[Rane,2023]。
安全:ChatGPT的隐私攻击是通过不断的提示修改来实施的。ChatGPT的训练数据隐私是通过多轮提示修改来提取的。一些研究调查了开源LLM的隐私保护,主要遵循两种方法:通过修改学习目标函数进行遗忘,或直接编辑选定的神经元。[Huang等人,2023b]发现kNN-LM比参数模型更容易从其私有数据存储中泄露私人信息,用于检索式语言模型。另一个安全问题是虚假信息的传播,[Li等人,2023a]表明ChatGPT可以植入数据并误导使用真实新闻训练的虚假新闻检测系统。与此同时,对ChatGPT的对抗性攻击可以通过向用户query附加特殊字符序列来进行,这将导致系统遵循用户命令,即使产生有害内容也是如此。
随着时间推移的表现
机器学习模型的泛化能力对于在未见数据上的应用至关重要。许多研究人员认为,大语言模型是几乎zero-shot学习者,因为一些大语言模型在预训练阶段已经接触过一系列任务示例,因此对于这些任务而言,它们不再是zero-shot或几乎zero-shot。此外,对于没有可能受到任务污染的分类任务,[Li和Flanigan,2023]显示,大语言模型在zero-shot和几乎zero-shot设置中很少表现出与简单的多数基线相比的统计显著改善。[Chen等人,2023]还证明,GPT-3.5和GPT-4的行为在相对较短的时间内有了显着变化,例如,2023年6月,GPT-4对回答敏感问题的意愿较3月份更低,而2023年6月,无论是GPT-4还是GPT-3.5,在代码生成方面的格式错误都比3月份更多。
挑战与机遇
还值得注意的是,最近的LLM排行榜,如AlpacaEval和Chatbot Arena Leaderboard,显示一些参数较少的开源模型已经实现了与gpt-3.5-turbo类似或更好的NLP能力。然而,公共模型是否存在测试数据污染尚不清楚。我们确定了封闭和开放式大语言模型评估的三个关键挑战:
可解释性提供有意义的解释是可信系统的关键部分。 ChatGPT可以提供带解释的答案。然而,一些研究表明,ChatGPT返回的解释在上下文中并不一致。我们在此说明了两种可解释LLM的方法:一种是构建多代理系统,并为解释功能分配特定代理,另一种方法是为说明性训练数据配备可解释项目,这可能会更昂贵。
持续学习随着新数据和任务的到来,持续学习能力变得越来越重要。 典型的持续学习方法,如记忆重播、正则化和模型架构重新设计,对于像ChatGPT这样的LLM来说并不可扩展。更有效的方法使用冻结和微调方法,例如Adapter[Pfeiffer等人,2020]和LoRA[Hu等人,2021]。最近的专家混合方法[Diao等人,2023]促进了学习和遗忘之间的权衡,并且可以是LLM持续学习的更应用方法。
轻量级建模ChatGPT的巨大规模限制了其在本地部署上的应用。 最近的研究涉及小型语言建模,包括从LLM中蒸馏模型、在更大数据集上训练小型LM和超参数化。然而,目前还不清楚在小模型上使用更大数据还是在更大预训练模型上使用更小数据对于生成式语言建模效果更好。
结论
大型语言建模的研究正在进行中,可靠的模型评估至关重要。本文回顾了ChatGPT在不同NLP任务上的实际表现水平,并发现在许多任务中它经常表现不及微调模型。其zero-shot或几乎zero-shot学习能力在很大程度上取决于其大量的训练数据,而这些数据对公众不可见。其性能随时间的降低可能会阻碍其广泛的应用。此外,其偏见显著且随时间变化。
参考文献
[1] A Survey on the Real Power of ChatGPT