从理论到落地，大模型评测体系综合指南

1956年夏，“人工智能” 这一概念被提出。距今已有近70年的发展历史。中国科学院将其划分为六个阶段：起步发展期（1956年—1960s），反思发展期（1960s-1970s）,应用发展期（1970s-1980s),低迷发展期（1980s-1990s）,稳步发展期（1990s-2010）,以及蓬勃发展期（2011-）。真正的大模型历史还要从2006年Deep Learning首次在Science上发表开始，然而在2012年之前，大模型的探索与学习的关注度并不是很高。直到2022年11月，OpenAI推出了搭载GPT3.5的ChatGPT，人类因其的诞生而宣布进入强人工智能时代，其划时代意义也得到广泛认可。他所引发的人工智能“地震”，便是“群模起舞”。根据赛迪顾问发布的《2023大模型现状调查报告》显示，截至2023年7月底，国外累计发布大模型138个，中国则累计有130个大模型问世。相关科技企业更是将大模型运用于各个领域，如办公，金融，医疗，文娱，教育，交通，能源等等。在技术进步和创新喷涌的热潮中，人们关注的焦点集中于，我们究竟需要什么样的大模型？何种大模型是通向人工智能的最终答案？这也就是今天的主题：大模型评测的力量。

大模型评测的必要性与挑战

评测的意义

对于大模型研发人员来说，大模型效果的对比，反映出了背后不同技术路线和技术方法的实效性。这提供了非常重要的参考意义。一方面，大家既能把握当下的发展水平、与国外顶尖技术的差距，更加清晰地看明白未来的努力方向，而不被资本热潮、舆论热潮所裹挟。另一方面，模型开发方面的相互参考与借鉴，帮助大家选择最佳的技术手段，避免重复实验带来的资源浪费，有助于整个大模型生态圈的良性高效发展。

对于产业界来说，研究测评可以更好的为人类与大模型的交互进行指导和帮助。尤其是对于不具备大模型研发能力的公司，熟悉大模型的技术边界、高效而有针对性地做大模型技术选型尤为重要。大模型评测领域的第一篇综述文章《A Survey on Evaluation of Large Language Models》更是指出，在安全性和可靠性方面，评测可以更好地统筹和规划大模型未来的发展的演变、防范未知和可能的风险。

但是国内大模型百花齐放，能力参差不齐。研究者和大模型爱好者们对谁是国产大模型界的扛把子争论不休。于是就像手机测评、汽车测评一样，各路测评机构、评测基准应运而生。各大模型也争相在排行榜上一显身手，于是开始夸大其词，避重就轻，捎带上GPT 3.5/4.0 进行对比，来凸显自己的能力。所以业界急需一个公开、公正、公平的大模型评测系统，让大家摒弃浮躁，静下心来打磨前沿技术，真真正正用技术实力说话。

评测的挑战性

首先我们必须要承认，到底怎么测评大模型的能力，没有人能给出准确的答案。想要全面、客观、准确的测出一个大模型的能力，且让所有人认可、达成共识，这件事本身具有非常大的难度。这里我们列举出一些公认的难点：

1.能力考核点的覆盖性与正交性

一方面，对于覆盖性来说，大模型的能力不再限制于传统NLU（Nature Language Understanding）的下游任务，那么一个完整的测试项清单应该包括哪些能力？另一方面，对于我们能想到的一些常提及的大模型能力。比如理解能力，代码能力，推理能力，写作能力，多轮对话能力，说起来字面意思很好理解，可是如果想整理出一个技能树，每个任务对应的技能能力基本是一对多的关系。比如文本分类可能涉及到在文本中找到对应信息，再进行一些逻辑运算得出结论。那么它对应的是理解能力还是推理能力。

2.测试集中case的多样性和复杂性

模型的差异在复杂程度低的时候往往差距不大，比如，几乎所有模型都可以正确回答出"1+1等于几"，但是如果问题的难度超过一定阈值，就有机会看出明显的差距，比如，问题是"5648261563 / 7711是多少 "，高下立见。当指令从单种语言“中国的首都是哪里？”变成中英文夹杂 "中国的capital是哪里？"，就可以更好测评模型的双语能力。所以测试case的复杂性和多样性能帮助提高结论的可靠性。

3.公平性与透明性的权衡

就算是解决了以上两个问题，仍然有一个棘手的问题，就是开源和闭源之间的选择，也就是公平性和透明性之间的权衡问题。如果闭源，就会引起公众对公平性和权威性的质疑，可是如果开源，就有可能造成数据泄露，导致受试模型提前训练以提高分数。比如一篇极具讽刺意味的论文《Pretraining on the Test Set Is All You Need》中的尝试，用huggingface上的众多评估基准数据创建了一个高质量数据集，并借助这一数据集完成了一个基于 Transformer 的语言模型的预训练，这个模型被命名为 phi-CTNL。phi-CTNL 在各类学术基准测试中表现得相当完美，胜过了所有已知的模型。

4.结果的量化

所有的评测最后都需要需要一个量化的结论，这也是现在比较多的做法是让模型做选择题的原因。但是正常使用情况下，模型和人的交互形式往往不是选择题。所以测评测评也还需要主观开放题。对于主观开放题的打分，理论来说，人工评估是最保险的，但是这样一方面引入了潜在的人类偏见。另一方面，效率低下且成本过高。目前业界做法通常是chatgpt或者gpt4去打分，这样难度就转换了打分prompt的写法，它需要考虑的点有两个，一个是怎么写使得gpt4能够更好的理解当前的，另外一个是怎么约束好输出。

测评体系的多维度

评估大模型的通用能力不仅是对其在特定任务上的准确性能进行度量，还应当探究大模型在广泛、多样化的任务和场景中的适应性、安全性和鲁棒性。

- 多任务学习评测能够检测模型是否能在多种任务上保持其性能，从而真实地反映其泛化能力：我们用一些知名的数据集做举例说明：BIG-bench（谷歌公开的由 204 项任务组成的数据集，任务主题涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等等领域的问题。包含了 204 项任务CMMLU（上海交通大学，微软亚洲研究院合作开的中文大模型基准，涵盖了 67 个主题，涉及自然科学、社会科学、工程、人文、以及常识等），C-Eval（由上海交通大学，清华大学，爱丁堡大学共同完成。覆盖人文、社科、理工、其他四个大方向，52 个学科），M3KE（Massive Multi-Level Multi-Subject Knowledge Evaluation基准。涵盖了中国教育体系的所有主要层次，从小学到大学，以及包括人文学科、历史、政治、法律、教育、心理学、科学、技术、艺术和宗教等各种学科。）AGIEval（由微软发布，包括20种面向普通人类考生的官方、公开、高标准往常和资格考试，如普通大学入学考试（中国高考和美国 SAT 考试）、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等等。）FlagEval（由智源研究院联合多个高校团队打造的天秤数据集，包括 5 种任务，30 多种能力），SuperCLUE（综合性大模型评测基准，聚焦于四个能力象限，细化出基础能力12项）。

- 特别适配大语言模型agent能力的基准：比如AgentBench，一个多维演进基准测试，包括8个不同环境，用于评估大型语言模型（LLMs）在多回合开放式生成环境中的推理和决策能力。

- 零样本或少样本学习评估可以揭示模型在面对少量或没有标注数据的任务时的快速适应性：很多测评平台都考虑到这一点，除了支持多种数据集之外，都还支持支持零样本、小样本及思维链评测，结合标准型或对话型提示词模板。比较有代表性的测评平台如OpenCompass （提供 70+ 个数据集的模型评测方案），CLEVA（包括31个任务，也就是11个应用评估+20个能力评测任务），HELM（支持119个场景测评）。

- 对抗性测试可以评估模型对输入扰动的鲁棒性，比如，promptbench,探究了大模型在处理对抗提示的鲁棒性。

- 安全性：在中国市场中，大模型必须遵守中国的数据安全法规、考虑中文语言的特殊性、以及本地化应用的需求。例如，safetybench（涵盖了7个不同的安全风险领域，同时包括了中文和英文数据，便于双语评估）TRUSTGPT(毒性、偏见和价值对齐三大方面的测评基准)，以及TRUSTWORTHY LLMS(提出LLM对齐的分类法和评估LLM对齐能力的评估方法，包括如何构建评估的数据集）。

主流测评体系的现状与意义

仍然缺少统一标准：上文提及的测评平台和很多综合的测评体系如HELM，OpenCompass和FlagEval等等，在某些数据集上有所交集，例如C-Eval、CMMLU和MMLU，但它们也都有各自独特的测评项。这种多样性意味着每个榜单都可能对模型的某些方面进行更深入的评估。
评测策略的多变性：同一数据集可能因为评测策略的不同而导致模型得分的巨大差异。例如，prompt构建时轻微区别，例如多一个回车后者冒号，都会导致不同的测评结果不同。以及开源模型的最终答案是按照最终输出的字符还是按照选项的概率确定。这些策略都会导致得分不同。
数据泄露：这里我直接引用ceval官网上写的一段话”任何评测都有其局限性，以及任何的榜单都可以被不健康的刷榜“，为了模型排名高，有的人就会选择走捷径，比如让能力强的模型知识蒸馏喂给自己的模型以及将基准直接混进训练集。这样得到的测评出的能力并不是模型真正的泛化能力，同时也很大机会加剧模型幻觉。
人工评测的主观性：尽管Chatbot Arena 这种基于竞技场的评测方式试图实现公正性，但其仍然受到人工评价的影响。人的评价往往带有主观性，这可能会对评测结果产生不同程度的偏见。大模型评测的核心目的是确定模型的“聪明”程度，深入探讨其性能、特点和局限性，为行业应用提供方向。通过评测，我们可以更好地了解模型的性能、特点、价值、局限性和潜在风险，并为其发展和应用提供支持。

大模型落地，评测体系应如何设计

“千模大战”的今天，不仅技术层面的 CIO、CDO和 CTO表现出浓厚的兴趣，企业的各个业务单元、包括 CEO在内的高级决策层，几乎都在第一时间启动了密切地关注与讨论，也都在思考，如何把大模型技术应用到自己企业场景中，为业务经营带来更多降本增效。所以根据现有的业务场景，用正确的方法比较和选择大模型是很关键的。比如在流程自动化要求高的场景下就应该使用测评agent能力的基准评测模型的agent能力，如果是客服与营销环节，专业服务要求高，容错性低，对安全合规的要求，就需要一些评测幻觉的基准，比如TruthfulQA、HADES、HalluQA、ChineseFactEval、UHGEval等等，同时也要对模型的价值观和伦理道德等安全稳定性进行评测。换句话说，一个完整的测评体系还要有端到端任务评估能力或者根据业务场景抽象出所对应的模型能力项，将业务场景能力转化为模型基础能力的集合。

同时针对通用大模型往往不能满足企业应用场景下的不同需求，市场上出现了不少行业大模型，以及用企业的私有数据做训练和微调的做法。所以测评模型微调前后能力对比也是重要的一环。模型经过微调之后在专业上是否能力真的得到了提高便是重点。另外，与生物神经网络相比较，现有的深度神经网络存在一个显著缺陷：人工智能体缺乏像生物一样不断适应环境以及增量式（持续）学习的能力，具体体现就是学习了新的知识之后，几乎彻底遗忘掉之前习得的内容，也被称为灾难性遗忘。所以微调后的模型通用能力是否丧失原有的通用能力也是一项评估重点。

在最后的落地部署方面也还有两大要素需要考虑：一个是工程化层面，需要对系统的稳健性和效率进行评测，可能包括的指标：平均报错率、llm agent与底层 API 交互的次数等。另一个是系统设计方面，需要考虑整个系统的性能评测，这里就涉及到业务场景完成时端到端的运行效率、延时以及成本等。

综上所述，人们常说的大模型落地的最后一公里，有半公里在于落地测评体系的搭建。

大模型评测的未来趋势与挑战

1.权威性和认可度：对于大模型的测评，缺少像旧时NLU领域被学者机构广泛认可的GLUE数据集。（GLUE包含九项NLU任务，语言均为英语。GLUE九项任务涉及到自然语言推断、文本蕴含、情感分析、语义相似等多个任务。像BERT、XLNet、RoBERTa、ERINE、T5等知名模型都会在此基准上进行测试。）目前，很需要一个中立的角色出现做出一个统一认可的基准。

2.可解释性：现有的评测方法主要通过问答的方式对大模型进行评测，一方面难以全面评估大模型在特定场景或特定环境下的能力，另一方面，无法深入揭示这些风险产生的内在原因。大模型本身仍是一个黑盒，再加上大多数大模型往往不会详细透露其训练数据来源或公开其训练数据，所以对于模型的输出可解释性仍是挑战。

3.动态评测：现有的评测方法通常是静态评测。一方面，大模型的训练数据来源广泛且规模庞大，静态测试样本可能已经包含在其训练数据中。另一方面，知识每时每刻都在迭代更新，静态评测的数据中的知识有可能会过时。随着大模型的能力不断的增强，原有的静态评测数据的难度可能无法满足大模型的能力需求。这些因素都削弱了静态评测的公平性。因此，动态测评法才更能全面公正的对大模型进行评测，持续更新测试样本，引入开放式问题，并探索评测新方法，如使用多个大模型通过辩论的方式进行评测。

4.以优化大模型为目标的评测：与前文提到的走捷径相对的就是困难但正确的路，也就是自己自主开发。这就涉及到超参数搜索，微调结果对比等动作。但现有的评测方法主要使用具体的评分量化大模型在某些特定任务或某些特定维度的能力，虽然这些评分便于模型之间的比较和选择，但它们包含的信息难以指导模型的进一步优化。因此，需要以优化大模型为目标的评测方法，这种方法不仅给出模型的能力评分，同时也提供对应的能力分析和改进建议。

写在最后

目前行业内缺乏统一评测标准，尚未出现一个广泛认可的大模型评测标准或方法，各评测机构和组织可能会提出不同的评测标准和方法。尽管如此，行业普遍认为评测为用户提供了选择大模型的选择参考，同时为研发者提供了改进的方向。我们殷切期待大模型的评测技术可以早日在技术性能、行业应用、安全性和行业认知等多个维度综合评估大模型。大模型本身就是耗时耗力的事，GPT 系列从 GPT-3 走到 GPT-4，从 2019 到 2023，一共花了四年的时间。Anthropic 团队，即使有离开OpenAI之前 GPT-3 的经验，重新做一遍 Claude 也花了一年的时间。我们也殷切期待，国产大模型有朝一日真正超越ChatGPT。