关于对机器中的人工智能进行基准测试

大家读完觉得有帮助记得及时关注和点赞！！！

抽象

最近的基准研究声称，AI 在各种认知任务上的表现已经接近甚至超过人类的“水平”。然而，本立场文件认为，当前的 AI 评估范式不足以评估类似人类的认知能力。我们确定了一系列关键缺点：缺乏人工验证的标签，人类反应的可变性和不确定性的代表性不足，以及依赖简化和生态无效的任务。我们通过对 10 个现有的 AI 基准进行人工评估研究来支持我们的主张，这些研究表明任务和标签设计中存在重大偏差和缺陷。为了解决这些限制，我们提出了五项具体建议，以开发未来的基准，这些基准将能够对 AI 中类似人类的认知能力进行更严格和有意义的评估，并对此类 AI 应用产生各种影响。

机器学习、ICML

1介绍

从人工智能（AI）的早期开始，创造像人类一样思考和行动的机器的愿景就吸引了研究人员和公众的想象力（图灵，1950;Lake 等人，2017;洞穴和迪哈尔，2023;魏岑鲍姆，1966;Anderson 等人，1990).这种追求不仅受到科学好奇心的驱动，即更好地了解智能和作为人类的意义，还受到类人 AI 的潜力驱动，通过我们参与工作和彼此互动的方式，重塑我们的世界。此外，构建反映人类认知的 AI 对于 AI 对齐的关键任务至关重要。确保这些强大的系统理解并分享我们的价值观，最终将导致更安全、更有益的互动（Kasirzadeh & Gabriel，2023).更深入地了解人类智能的基础机制也可以为更强大和适应性更强的 AI 系统的开发提供信息和促进开发。

尽管构建类人 AI 的重要性已得到公认，但对于“类人”表演的构成，仍然难以找到清晰一致的定义，我们已经看到这个术语在文献和公共话语中的应用不一致。近年来，越来越多的人声称 AI 系统在各种任务上达到了人类水平的性能。然而，这些结果对于确定 AI 系统是否以人类“类似”的方式行事的相关性受到现有评估基准局限性的挑战。

在本文中，我们认为当前的评估范式不足以评估 AI 系统中类人能力的真实程度。具体来说，我们强调了三个主要缺点：数据集标记中过于频繁地缺乏人工验证，在收集的人类数据中无法充分表示人类变异性，以及过度依赖缺乏生态有效性且无法反映真实世界场景复杂性的简化任务。我们通过一项针对10众所周知的 AI 基准测试任务，展示了这三个轴上的潜在缺陷。为了解决这些关键差距，我们提出了五项针对未来基准开发的具体建议，这些建议源自认知建模的最佳实践。我们相信，这些建议将为对类人 AI 进行更严格、更有意义的评估铺平道路，促进对该领域现状的更准确理解并指导其未来发展。最后，我们以实施这些建议的开放性问题和挑战作为结束。

基准	任务	描述
BigBench 系列（Srivastava 等人，2022)	幻想推理	对违反世界普通规则的场景进行推理
	社会 IQA	对典型社交场合的推理。
	道德上的允许	对场景中道德允许的行为进行推理
	简单的道德问题	对一系列假设的、后果性的、政治和社会问题给出观点。
	社会支持	区分支持和不支持的语言使用。
	讽刺识别	确定文本是否具有讽刺意味。
	黑色幽默检测	检测特定文本是否旨在幽默（以黑暗的方式）
	电影对话框相同或不同	确定电影对话中的两条相邻“台词”是由同一个人还是不同的人产生的。
ToMBench（Chen 等人，2024)	不明确的故事任务	推理并回答有关模棱两可的社交场合的问题
BigToM（甘地等人，2024)	心智推理理论	回答有关代理人的信念和行为的问题

表 1：我们实验中用于评估人类响应分布和一致性水平的基准任务。

2构建和评估类人 AI

长期以来，人们一直对在机器中构建和评估类人智能感兴趣。但是，我们所说的类人智能是什么意思呢？在本文中，我们采用了 Alan Turing 给出的定义（图灵，1950)：一个智能系统，可以引发“与人类没有区别”的类似判断和行为。

但是，我们为什么要以类人 AI 为目标呢？追求类人 AI 的动机既是科学好奇心，也是出于实际考虑。从 AI 的早期开始，学者们就一直在寻求理解、建模和尝试复制人类认知和智能的复杂性（罗森布拉特，1958;Rumelhart 等人，1988;明斯基1988;米切尔2024)并将这些认知模型用于实际应用。构建类人 AI 提供了一个强大的镜头，通过它来探索有关心灵哲学、人类认知本质以及驱动复杂人类行为的潜在机制的基本问题。这一探索不仅突破了计算机科学的界限，还有望加深我们对人类智能的理解。

创建表现出类似人类思维和行为的 AI 系统为应用程序提供了几个潜在优势。类人 AI 可以在许多场景中代替人类思考和行动，同时确保安全性和可靠性：

•

有效的人机交互：人类已经发展了复杂的社会认知技能，以实现有效的协作，其中包括模拟其他代理的心理状态和未来的行为（班杜拉，2001;加勒塞，2007).遵循类似人类的推理和行为模式的 AI 系统可以使人类用户轻松构建 AI 伙伴的准确心智模型，并更好地模拟和预测 AI 伙伴的未来行动（Collins 等人，2024年).这导致人类用户和 AI 代理之间更有效的协作和协调（Carroll 等人，2019;Ho & Griffiths，2022;Zhi-Xuan 等，2024).此外，与行为可预测且可理解的代理交互可以减少认知负荷（Dragan 等人，2013;Fisac 等人，2020).我们不必花费太多的脑力来试图破译不熟悉或意想不到的行为。
•

更好的模拟代理：具有类似人类认知能力的 AI 系统是构建人员模拟的宝贵工具。这有很多好处，包括改善沟通（Liu 等人，2023;Shaikh 等人，2024)，生成对试点研究的反馈，甚至可能使社会科学中的人类参与者反应自动化（Ashokkumar 等人，2024;Park 等人，2024;Demszky 等人，2023)或人机交互（Hämäläinen 等人，2023).之前的工作还探索了使用 LLM 进行产品测试（Brand 等人，2023)以及在软件工程中替代人类主体（Gerosa 等人，2024).
•

灵活的泛化：人类通常被认为是从小数据进行泛化的黄金标准，让 AI 系统复制驱动人类高效学习能力的机制，也可能使 AI 系统能够做到这一点（Lake 等人，2017;Sucholutsky & Schonlau，2021;Sucholutsky 等人，2024).

3基准选择和评估

为了激励我们的建议，我们收集了以下方面的人类数据10常用的 AI 基准测试。我们选择了8BigBench 的基准测试（Srivastava 等人，2022)在常识推理类别和两个心智理论推理基准下，BigToM（甘地等人，2024)和 ToMBench（Chen 等人，2024).表 1 中描述了这些基准。我们选择这些基准测试是因为它们代表了广泛的认知任务，并且不需要任何专业知识。许多研究侧重于语言理解和社会认知，这与人类与 AI 的互动特别相关。所有 10 个基准测试的每个刺激因素都有一个 ground truth 标签。

我们随机抽样30来自每个基准的刺激并招募240来自 Prolific 的 participants 来标记数据集。每个参与者都被随机分配到一个数据集并完成30随机顺序的试验。我们使用了基准测试提供的相同答案选项，但我们没有使用多项选择题，而是要求参与者在量表上拖动一个滑块1−100（例如1= 强烈不同意，100= 非常同意）。

我们在下面的部分中重点介绍了一些汇总统计数据和诊断示例，以支持我们的论点。更详细的分析和示例可以在附录中找到。

请参阅标题

图 1：参与者对所有 300 个刺激指标的基准标签的一致性分布。26.67% 的刺激与标签的一致性低于 50%（即不到一半的参与者选择了基准提供的标签）。

4对类人 AI 进行基准测试的陷阱和建议

在本节中，我们提出了评估“类人”AI 的建议。已经有几篇工作强调了评估 AI 系统性能的替代方法（Burnell 等人，2023;Shanahan 等人，2023;Beyret 等人，2019).在这里，我们特别关注来自数十年计算建模的见解如何为我们进行 AI 基准测试提供信息。我们在这里提出的建议源于认知科学多年的发展和辩论，以确定设计任务的最佳实践，将模型与人类判断进行丰富的比较，并进一步完善关于计算模型首先打算捕捉人类行为哪些方面的假设——我们认为，这些都是理论上丰富的基石。可复制的、可测量的关于给定模型与人类行为具有可比性和不可比性的意义上的声明。我们敦促 AI 基准测试的开发人员参与并利用这段历史。

4.1建议 1：根据真实人类来衡量“类人 AI”，并收集可靠、可复制的人类数据样本量

数量惊人的“认知启发”基准测试套件和 AI 评估声称可以在没有任何人类数据的情况下测量类似人类的 AI 性能。相反，从心理分析中衍生或有时松散地改编的任务用于直接评估计算模型的性能，通常带有“解决”任务意味着什么的基本事实概念（例如，确定模型是否可以在源自认知心智理论实验的简单“错误信念”任务中标记心理状态（Wimmer & Perner，1983)).我们的第一个也是最基本的建议是，用于衡量 AI 是否像人类的地面实况标签应该是从人类本身收集的响应数据。

我们建议，使用实际的人类行为作为 AI 基准测试的“黄金”标签，对于认知科学中已有充分记录的许多结构方面非常重要。首先，许多 AI 基准测试试图评估本质上的主观概念——例如某项行为在道德上是否允许——其中可能不存在单一的客观正确答案（甚至任何一组“正确答案”）。相反，主观行为的计算模型（如道德推理）长期以来一直试图描述人类判断的分布，包括解释人群、社会群体和文化之间的已知差异（Graham 等人，2009,2016)，同时也试图解释这些差异是如何产生的（Levine 等人，2020).

其次，即使在基于外部测量的单一目标“黄金标签”的任务上，测量人类行为仍然可能揭示重要的差异和分歧，有时具有很高的置信度，但这仍然揭示了人类处理特定输入的内部计算。例如，涉及 The Dress 的著名视觉错觉说明了即使给定一个可衡量的外部标签，即连衣裙的真实颜色，人们的判断也存在强烈不同的判断。这些对这种单一刺激的不同判断揭示了人类视觉处理的重要、可测量和可建模的方面（Lafer-Sousa 等人，2015).更一般地说，构建真正类似人类的系统或可以很好地模拟类似人类行为的系统还需要对人类错误模式和不确定性进行建模。计算认知建模者并不回避人为错误，而是倾向于关注它们;考虑Battaglia 等人（2013)它们构建了一个人类如何推理我们的物理世界的模型。他们发现并建模了我们人类对物理学的推断并不总是准确的;正如研究视觉和其他知觉幻觉的历史所强调的那样，这种错误可以帮助揭示我们所知道或不知道的结构。因此，了解机器是否像人类应该从世界的“真实”状态来检查这种错误模式。

在我们分析了一套常见的 AI 评估基准时，这些基准以前只用一个 “正确” 答案进行了注释，我们发现人类判断存在高度的分歧。具体来说，我们发现平均只有 63.51% 的参与者同意每个刺激的地面实况标签，标准差为 20.99。值得注意的是，我们发现 26.67% 的刺激物的人类同意率低于 50%。考虑图 2 中的具体示例，参与者被要求对“引用或讨论她的艺术没有错”这句话是否支持。在没有上下文的情况下，大多数参与者认为该陈述更支持而不是不支持，但基本事实标签是“不支持”。我们在附录的表 3、4 和 5 中展示了更多此类示例。

综上所述，我们对这些基准的重新注释——使用真实人类——表明人们对一些已发布的用于基准测试“人类相似度”的地面实况标签的有效性存在严重担忧。

4.2建议 2：根据人类判断的人口水平分布评估人类种群模型

我们的第二个建议更具体地建立在我们上面讨论的注释者间变体之上——对于许多 AI 模型，特别是明确在大量人类生成数据上训练的机器学习模型，我们建议模型评估应该明确收集、分析和使用人类响应的群体级分布作为评估模型性能的 “gold” 软标签。计算认知和心理学模型的一个基本区别是澄清人们试图对哪些人类群体进行建模，以及在什么层面上试图对它们进行建模——例如，区分单个人类在单个领域的相关刺激中可能犯的算法、策略和错误的精细模型，以及我们可以期望在许多主题中找到的整体反应模式。由于许多 AI 模型使用旨在衡量人群水平反应的目标在人群层面的人类数据上进行训练，并且通常用于跨人群部署，因此我们认为，明确收集和评估模型捕捉人类受试者之间行为结构和变化的能力至关重要。

请参阅标题

图 2：参与者对其中一个刺激的评分分布。真值标签为 “unsupportive”。

人类认知的几乎所有方面——感知、决策和对任何数量的固有主观任务的常识性推理——都受到一系列复杂的个体差异和文化因素的影响。这些包括潜在认知能力或资源（如工作记忆或注意力）的差异（Boogert 等人，2018);先前经验、偏好和目标的差异，这可能会影响他们在给定有限证据的情况下预测未知数或在一组选项和行动中进行选择的方式（Ongchoco 等人，2024);以及价值观、期望和经历的文化差异，这些差异系统地影响了先前或决策策略（Henrich 等人，2010).

许多现有的基准测试收集人工注释，但依靠多数投票来折叠人工对单个“真实”标签的响应，从而有效地丢弃了有关人工判断范围和分布的宝贵信息。这可能会不成比例地导致模型与多数人的观点保持一致，即使存在代表性不足的重要亚群（Gordon 等人，2022).在图像分类系统的背景下，标签构建中这种信息丢失的其他陷阱已经提出，其中用于训练模型的标签通常被视为具有多数票的标签;几项工作确定，在注释器不确定性（“软标签”）上的分布上训练和评估此类模型揭示了并防止此类模型预测中的其他脆弱性（Peterson 等人，2019;Sucholutsky 等人，2023 年一;Collins 等人，2023b;Uma 等人，2020).这些工作还强调了在标签上进行训练的潜在好处，这些标签可以更好地捕捉人类信仰的丰富性，以增强泛化和稳健性。我们主张在 AI 评估的背景下更广泛地考虑人类数据的分布。

AI Alignment 的研究人员，特别是“多元对齐”，也倡导类似的建议（Kirk 等人，2024;Sorensen 等人，2024)但更局限于与决策中的价值观和偏好分布保持一致。在我们的论文中，我们认为对注释者的建模分布应该扩展到所有认知任务，包括感知、规划和推理，并且应该超越文化和价值观。

设计和评估群体水平指标

一旦我们收集了人类数据的分布，我们如何评估 AI 模型？与认知建模一样，研究人员经常对收集的数据部署一系列评估措施，并对参与者群体中的亚组进行分析，我们建议明确并寻求明确测量以下内容：

•

报告用于将模型样本分布（模型中的样本数量与参与者群体的样本数量相当）与人类判断分布进行比较的指标，例如概率分布的度量（例如，KL 散度或 Wasserstein 距离）。这些指标可以确保模型不会简单地报告狭义的均值，而在整个种群中几乎没有显示预期的分布多样性。
•

解释给定答案分布中的结构。例如，如果分布具有不同的模式，那么模型能否解释和一致地解释这些模式是如何产生的，或者模式如何在相关问题中相互关联？
•

衡量模型如何表示个体答案模式并解释不同人群的个体差异——例如，它可以在多大程度上捕捉基于个人特征的条件模式（例如，多元主义者如何回答道德价值判断问题与功利主义者如何回答）？评估条件分布有助于进一步关注总体的哪些部分建模良好，哪些部分可能更加分散。

4.3建议 3：根据个体人类判断中的分级性评估模型分级和不确定性

正如不同的人可能会对任何给定的任务得出不同的结论一样，任何一个人都可能不确定他们想要做出什么决定或他们想要采取什么计划。数十年的认知科学研究表明，分级信念和不确定性是人类认知的重要组成部分，驱动着人类细微的感知、推理和行为（特沃斯基和卡尼曼，1974;Chater & Manning，2006;Griffiths 等人，2024).我们鼓励基准测试构建者考虑不仅使用多项选择题来引出、维护和衡量对硬标签的判断，而且考虑使用软标签的个人注释者的分级判断。收集和考虑用于捕获人类的分级判断的软标签一直是认知建模的标准做法，最近在计算机视觉的背景下得到了提倡（Sucholutsky 等人，2023b)、人机交互（Collins 等人，2023 年一)，以及更广泛地从专家那里获得知识（O'Hagan 等人，2006;奥哈根，2019).

Refer to caption

图 3：参与者在所有 300 种刺激物中的软标签评分分布。每个评级都映射到 0 或 100 的真实标签上，但 625 个评级除外，其底层标签为 50（中性）。

需要注释者只选择一个选项的离散多项选择题通常对于此类度量来说太粗糙了。在我们的数据收集中，我们发现57.69% 的评级介于20自80，反映了参与者的评分判断，这些判断没有被二进制标签反映出来（示例见图 3 和附录）。

我们呼吁 AI 基准测试考虑从注释者那里收集和评估软标签，以衡量他们的分级判断，原因如下。首先，分级判断更好地反映了现实世界场景的细微差别。现实世界的决策很少涉及绝对的二元选择。考虑一下强度不同的情绪或道德判断，两个错误的行为可能需要不同程度的谴责。分级响应允许基准测试捕获这些关键的区别和细微差别，反过来又可用于训练模型以更好地泛化到新情况（Peterson 等人，2019).

其次，软标签捕捉了许多任务中普遍存在的固有不确定性。二元选择往往不能代表人类信仰和判断的全部范围。个人可能会倾向于一种选择，同时承认一些怀疑。这种不确定性是现实世界推理和决策的基础。量化不确定性可实现灵活的规划、自适应策略和适当的风险评估，这些都是强大的 AI 系统的基本技能。虽然有些人可能会争辩说，具有硬标签的大样本可以近似于不确定性，但这种方法取决于独立且同分布（i.i.d.）样本的假设。然而，由于个人和群体层面的差异，这种假设在许多实际案例中通常不成立。再一次，考虑一下 The Dress 的例子。对所有样本进行平均判断将显示两个颜色标签之间的高度不确定性。然而，事实上，每个人都对他们所看到的非常坚定。

为了深入了解模型是否与人类相似，我们敦促对任何单个注释者可能具有的丰富、结构化的信念进行更细致的考虑。研究人员可能会担心收集人类不确定性会让人觉得“混乱”。经常听到的对不确定性集合的反驳是，人们在不确定性中被“错误校准”。然而，几十年的认知科学研究已经设计了研究来检验人们的概率判断，以便研究和模拟人类认知（克伦，1991;特南鲍姆，1998;Chater & Manning，2006;Windschitl & Wells，1996;O'Hagan 等人，2006;Griffiths 等人，2024).我们鼓励 AI 基准测试的设计者参与此类文献，并了解人类判断中的这些不确定性，以评估模型的类人行为。

4.4建议 4：根据现有认知理论的元审查确定任务

许多 AI 基准测试侧重于测试人类和机器对各种常识性推理任务的判断，从对象识别到对文本中的情感进行分类。但是，世界上的任务数量是无限的，我们不可能有无限多的基准测试。为了得出有关 AI 模型的可推广结论，应仔细设计任务以衡量模型的认知能力是否与人类相似（埃尔南德斯-奥拉洛，2017).为此，基准测试应该从目标心理结构的理论开始，概述其子组成部分以及它们如何在可观察的行为中表现出来。然后，该理论框架指导基准的构建，确保任务有效地探测感兴趣的特定认知能力，并提供有关 AI 在多大程度上以类似人类的方式拥有这些心理结构的有意义的见解。

最近，人们对在 LLM 中探索类似人类的心理能力的兴趣激增，例如人格特征、推理、计划等。（Hagendorff 等人，2023;Safdari 等人，2023;Coda-Forno 等人，2024).我们鼓励进行这些调查，但我们强调现有实践中的两个常见陷阱。

一个常见的陷阱是利用贫乏的理论来指导基准的创建。例如，已经创建了许多基准来评估机器的心理理论（ToM），它指的是人类对其他代理的心理状态进行推断的能力。AI 的 ToM 基准测试通常或专门使用 Sally-Anne 测试（又名错误置信测试）（例如Le 等人。2019），传统上在发展心理学中用于评估儿童发展心智理论的时间。这些评估的结果导致 LLM 中出现 ToM 等主张（科金斯基，2024;Gandhi 等人，2024).然而，ToM 包含超出 Sally-Anne 测试评估的子成分的广泛子成分。在全面的综述中，Beaudoin 等人（2020)确定了心理学研究以前使用的 220 个 ToM 任务和措施。其他作者也质疑 Sally-Anne 测试在评估儿童 ToM 方面的有效性和有效性（布鲁姆和德国，2000).由于只专注于错误信念任务，许多关于评估 AI 模型 ToM 的研究反映了对认知心理学中解释的 ToM 元理论的理解不足。相反，对智能系统进行基准测试应该从认知结构的元理论开始，并以认知理论为基础设计任务，包括对其子领域、分类法和度量的全面调查。

另一个常见的陷阱是在评估 AI 模型时天真地使用和适应心理测试。通过一些心理测试不足以声称机器中存在某些认知能力。再次以 Sally-Anne 测试为例。尽管它可能有效地测量儿童的 ToM，但此类测试不足以评估 AI 的 ToM，因为 AI 模型经过专门训练，可以在这些测试中表现出色，而人类则不然。因此，盲目地采用心理量表并将其应用于 AI 基准以声称 AI 与人类相似可能会导致误导性结论，并且结果不太可能推广到现实世界中更丰富的任务。相反，我们鼓励 AI 基准测试创建者以心理学理论为指导，以心理测试为灵感来设计评估 AI 认知能力的任务，但任务应该更丰富、更扎实、更复杂。过去几十年认知科学的研究引入了许多丰富的交互式范式来研究和评估模型的社会认知，例如Baker 等人（2017),Jara-Ettinger 等人（2020)和Ying et al. （2023)，用于从人类中提取复杂和分级的推理模式（参见图 4 作为示例）。在下一节中，我们将讨论设计此类任务的一些具体建议。

Refer to caption

图 4：餐车实验Baker 等人（2017)研究人类的社会推理。在此域中，参与者观察代理移动以从食品卡车获取食物。餐车分为三种：黎巴嫩（L）、墨西哥（M）和韩国（K）。代理人看不到墙后面是什么食品卡车，除非他们走到墙后面检查。在观察了代理的轨迹后，参与者被要求以李克特量表判断代理对餐车的偏好以及他们对餐车在墙后是什么的看法。结果显示了人类在不同代理轨迹中的分级判断。

4.5建议 5：设计生态有效且认知丰富的任务

基准测试任务应该是生态有效的，反映现实世界场景的复杂性和模糊性，以有效地评估专为类似人类的推理和交互而设计的 AI 系统。许多现有的基准测试侧重于简单、直接的任务，通常不包括那些注释者间一致性较低的任务。然而，现实世界的挑战很少以如此简化的形式出现。人类经常在涉及不完整信息、上下文细微差别和模棱两可的刺激的复杂情况下导航。如果我们想深入了解 AI 系统在人类与现实世界互动的多样性环境中哪些方式与人类相似（或不像），AI 基准测试必须超越这些简化的情况。接下来，我们提供了几个关键建议，用于在更自然的环境中引发人类和模型的有趣和丰富的反应模式，从而描绘出 “类人 ”的更广泛含义。

认知能力的整合：

基准测试应包含需要集成多个认知过程的任务，包括多模态推理和交互。例如，理解句子背后的意图可能需要考虑对话上下文、说话者的语气，甚至视觉线索。图 1 所示的餐车示例4 要求观察者对代理的感知和心理状态以及他们以目标为导向的行动和计划进行建模。通过整合这些复杂性，基准测试可以更好地评估 AI 处理细微的真实情况的能力。

人类行为的自然主义痕迹：

基准测试还可以考虑比较 AI 系统在更丰富的跟踪中的性能，这些跟踪是关于人类如何解决和创造问题、做出决策以及通过潜在的多次交互（其中可能包括师生互动的跟踪）（Wang 等人，2024)或其他专业人士的工作流程，例如，数学家如何提出证明（Frieder 等人，2024).

系统性消融术：

通过系统地隐瞒或提供特定信息或上下文来消融任务可以揭示不同的因素如何影响人类和 AI 的判断和不确定性。比较消融刺激和完全刺激的性能，可以为人类和 AI 系统在各种上下文信息设置下的推理过程提供有价值的见解，这在现实世界中很常见。

结构性歧义：

涉及模棱两可的感知和推理挑战的任务，如 The Dress 中所示的示例，可以在人类中引发不同的反应模式。虽然一些基准由于注释者之间的一致性较低而排除了此类刺激，但我们认为这些模棱两可的情况对于理解人类认知的细微差别和评估 AI 处理不确定性的能力至关重要。排除它们会限制基准测试评估实际适用性的能力。相反，我们鼓励关注任务是否困难（这可能涉及收集新的人为预期难度评级（周 et al.，2024)）并创建更多此类任务;例如，可以通过根据先前人类的响应修改任务来迭代创建更模糊或更具挑战性的任务，如下所示Collins 等人（2022)或通过其他迭代采样过程（Harrison 等人，2020;Sanborn & Griffiths，2007).

通过整合这些设计原则，我们可以创建基准，以评估 AI 模型在类似人类的推理、交互和适应复杂的真实场景方面的能力。

5替代视图和开放挑战

在本节中，我们将讨论一些关于对类人智能进行基准测试的挑战和替代观点/论点。

5.1我们需要类人的 AI 吗？

我们承认某些高度专业化的 AI 应用，例如蛋白质结构预测（Jumper 等人，2021)或天气预报（Lam 等人，2023;Bodnar 等人，2024)不需要类似人类的特征。这些域的基准测试不在本文的讨论范围之内。我们的重点在于核心认知能力，这些能力使机器能够在现实世界中与人类进行推理、互动和协作（Collins 等人，2024年).

有些人可能会争辩说，即使在常识性推理任务中，AI 系统也只需要有效地执行任务并且易于理解或解释，而不必模仿人类认知。我们从两个方面来探讨这个观点。首先，我们重申了第 2 节中概述的类人 AI 的众多好处，包括可能增强的模型性能（稳健性和灵活的泛化）、其他人的可预测性以及保证类人认知的应用潜力（例如代理模拟）。

其次，即使明确的目标不是创建类似人类的 AI，遵守本文中提出的准则并参考认知建模的最佳实践也可以提供对 AI 系统的宝贵见解。来自认知科学的见解已经被用来更好地理解 LLM（Binz & Schulz，2023).通过将 AI 在以人为中心的基准上的性能与实际的人类响应进行比较，我们可以确定 AI 系统偏离类人智能的特定认知能力。这种比较分析揭示了 AI 的推理和决策能力的哪些方面与人类思维一致，哪些方面存在分歧，为 AI 安全和治理提供了重要信息，并告知我们使用这些系统的方式。此外，了解这些差异有助于 AI 工程师和系统用户开发更准确的系统心智模型（Bansal 等人，2019;Steyvers & Kumar，2023)，促进更明智的设计和有效的使用。

5.2人类响应中的偏见和错误

将人类数据用于 AI 基准测试的一个关键考虑因素是人类判断中可能存在的偏差和错误。由于认知资源有限，认知科学研究广泛记录了人类在理性推理和决策方面的局限性（格里菲斯，2020;Lieder & Griffiths，2020)或系统性偏差（特沃斯基和卡尼曼，1974).这就提出了一个问题：AI 系统是否应该复制这些人类认知限制？

这里没有明确的答案。虽然我们希望避免将一些偏见融入此类模型（例如，有害的种族或性别偏见），但其他认知偏见可能有助于决策(Haselton2009自适应;Lieder & Griffiths，2020)对于准确建模人类行为至关重要，早期证据表明，当今的一些模型并未隐含地学习这种错误模式，这可能会阻碍人类与 AI 的交互（Liu 等人，2024).例如，人类损失厌恶是一种根深蒂固的认知偏差，在经济决策中起着重要作用。对于旨在模拟人类行为或在人类经济系统内有效交互的 AI 系统来说，对此类偏差进行建模可能至关重要。相反，没有任何认知偏差的 AI 可能会在与人类的协作决策中造成摩擦或效率低下。

最终，考虑到 AI 系统的具体目标和应用，必须根据具体情况评估 AI 应在多大程度上复制人类认知偏差。尽管如此，为了提供最大的灵活性并支持不同的研究目标，我们建议基准测试创建者在可行的情况下同时提供人类数据和“无偏见”标签。这种方法使研究人员能够根据其特定需求选择合适的数据，无论是训练 AI 系统做出没有偏见和错误的高度复杂的决策，还是准确建模人类行为以实现无缝的人类与 AI 协作或代理模拟。

5.3人类数据收集的可扩展性和实用性

对 AI 基准测试的人类数据收集的可扩展性和实用性的担忧是有道理的。收集人工判断可能是资源密集型的，可能会阻碍快速的基准开发，特别是如果这种收集涉及每个注释者引出许多属性（Wu 等人，2023;Collins 等人，2024b;Chung 等人，2019;Kirk 等人，2024).然而，我们认为，优先考虑质量而不是数量，并利用现成的工具，使我们能够开始应对这些挑战。

首先，基准有效性不一定与规模相关。一个较小的、精心策划的数据集专注于具有挑战性和边缘案例，可能比一个充满冗余或琐碎示例的大型数据集更具洞察力。通过专注于高质量、具有诊断价值的刺激，我们可以最大限度地提高基准测试的能力，以揭示 AI 系统和人类中有趣且丰富的响应模式，同时最大限度地减少所需的数据收集工作。

其次，Amazon Mechanical Turk 和 Prolific 等众包平台的进步显著简化了大规模数据注释（格里菲斯，2015).这些工具提供了对不同人群的访问，使研究人员能够有效地收集具有代表性的样本。但是，保持数据质量仍然至关重要。实施严格的排除标准、明确的说明和注意力检查对于确保所收集数据的可靠性和有效性至关重要。有关数据众包的最佳实践，我们建议读者参考Stewart et al. （2017).

通过关注质量而不是数量并有效利用可用的众包工具，可以成功缓解用于基准开发的人工数据收集挑战。然而，我们敦促进行大量的额外研究，以使我们对人类的评估更具可扩展性，特别是当我们不仅在单个决定或推理轨迹中考虑人类相似性，而且在与他人的互动中（Lee 等人，2023;Collins 等人，2024 年一;Lee 等人，2024;Wang et al.，2024).

6结论

AI 系统越来越多地与人类一起部署。描述 AI 系统与人类相似或不与人类相似的方式对于确保我们能够了解我们可以在何处以及如何与这些 AI 系统交互，并帮助我们设计本身可能更强大、更灵活的系统（就像人类一样）至关重要。然而，要真正了解 AI 系统是否“类似人类”需要仔细评估。在这项工作中，我们鼓励 AI 评估的构建者关注认知建模数十年的研究。认知科学家一直在努力研究如何衡量人类推理和决策的问题;AI 研究人员将处于有利地位，可以在这项工作的基础上再接再厉。具体来说，我们鼓励 AI 从业者确保，如果他们声称系统“类似人类”（或想要了解系统是否类似），则必须收集人工标签。我们鼓励研究人员倾向于而不是远离可变性和不确定性：观察注释者的回答分布并从每个注释者那里捕捉分级的信念。此外，人工智能系统所依据的任务需要仔细的理论驱动设计，以及在更具生态效益的环境中进行开发。AI 系统越来越强大;我们需要更强大、更可靠的评估，不仅如果我们想建立更多我们理解的、与人类兼容的 AI 思想伙伴，而且如果我们想深入了解自己。