从理论到落地,大模型评测体系综合指南

 1956年夏,“人工智能” 这一概念被提出。距今已有近70年的发展历史。中国科学院将其划分为六个阶段:起步发展期(1956年—1960s),反思发展期(1960s-1970s),应用发展期(1970s-1980s),低迷发展期(1980s-1990s),稳步发展期(1990s-2010),以及蓬勃发展期(2011-)。真正的大模型历史还要从2006年Deep Learning首次在Science上发表开始,然而在2012年之前,大模型的探索与学习的关注度并不是很高。直到2022年11月,OpenAI推出了搭载GPT3.5的ChatGPT,人类因其的诞生而宣布进入强人工智能时代,其划时代意义也得到广泛认可。他所引发的人工智能“地震”,便是“群模起舞”。根据赛迪顾问发布的《2023大模型现状调查报告》显示,截至2023年7月底,国外累计发布大模型138个,中国则累计有130个大模型问世。相关科技企业更是将大模型运用于各个领域,如办公,金融,医疗,文娱,教育,交通,能源等等。在技术进步和创新喷涌的热潮中,人们关注的焦点集中于,我们究竟需要什么样的大模型?何种大模型是通向人工智能的最终答案?这也就是今天的主题:大模型评测的力量。

图片

大模型评测的必要性与挑战


评测的意义

    对于大模型研发人员来说,大模型效果的对比,反映出了背后不同技术路线和技术方法的实效性。这提供了非常重要的参考意义。一方面,大家既能把握当下的发展水平、与国外顶尖技术的差距,更加清晰地看明白未来的努力方向,而不被资本热潮、舆论热潮所裹挟。另一方面,模型开发方面的相互参考与借鉴,帮助大家选择最佳的技术手段,避免重复实验带来的资源浪费,有助于整个大模型生态圈的良性高效发展。 

    对于产业界来说,研究测评可以更好的为人类与大模型的交互进行指导和帮助。尤其是对于不具备大模型研发能力的公司,熟悉大模型的技术边界、高效而有针对性地做大模型技术选型尤为重要。大模型评测领域的第一篇综述文章《A Survey on Evaluation of Large Language Models》更是指出,在安全性和可靠性方面,评测可以更好地统筹和规划大模型未来的发展的演变、防范未知和可能的风险。 

    但是国内大模型百花齐放,能力参差不齐。研究者和大模型爱好者们对谁是国产大模型界的扛把子争论不休。于是就像手机测评、汽车测评一样,各路测评机构、评测基准应运而生。各大模型也争相在排行榜上一显身手,于是开始夸大其词,避重就轻,捎带上GPT 3.5/4.0 进行对比,来凸显自己的能力。所以业界急需一个公开、公正、公平的大模型评测系统,让大家摒弃浮躁,静下心来打磨前沿技术,真真正正用技术实力说话。

图片

评测的挑战性

    首先我们必须要承认,到底怎么测评大模型的能力,没有人能给出准确的答案。想要全面、客观、准确的测出一个大模型的能力,且让所有人认可、达成共识,这件事本身具有非常大的难度。这里我们列举出一些公认的难点:

1.能力考核点的覆盖性与正交性

    一方面,对于覆盖性来说,大模型的能力不再限制于传统NLU(Nature Language Understanding)的下游任务,那么一个完整的测试项清单应该包括哪些能力?另一方面,对于我们能想到的一些常提及的大模型能力。比如理解能力,代码能力,推理能力,写作能力,多轮对话能力,说起来字面意思很好理解,可是如果想整理出一个技能树,每个任务对应的技能能力基本是一对多的关系。比如文本分类可能涉及到在文本中找到对应信息,再进行一些逻辑运算得出结论。那么它对应的是理解能力还是推理能力。 

2.测试集中case的多样性和复杂性 

    模型的差异在复杂程度低的时候往往差距不大,比如,几乎所有模型都可以正确回答出"1+1等于几",但是如果问题的难度超过一定阈值,就有机会看出明显的差距,比如,问题是"5648261563 / 7711是多少 ",高下立见。当指令从单种语言“中国的首都是哪里?”变成中英文夹杂 "中国的capital是哪里?",就可以更好测评模型的双语能力。所以测试case的复杂性和多样性能帮助提高结论的可靠性。

3.公平性与透明性的权衡 

    就算是解决了以上两个问题,仍然有一个棘手的问题,就是开源和闭源之间的选择,也就是公平性和透明性之间的权衡问题。如果闭源,就会引起公众对公平性和权威性的质疑,可是如果开源,就有可能造成数据泄露,导致受试模型提前训练以提高分数。比如一篇极具讽刺意味的论文《Pretraining on the Test Set Is All You Need》中的尝试,用huggingface上的众多评估基准数据创建了一个高质量数据集,并借助这一数据集完成了一个基于 Transformer 的语言模型的预训练,这个模型被命名为 phi-CTNL。phi-CTNL 在各类学术基准测试中表现得相当完美,胜过了所有已知的模型。 

4.结果的量化

    所有的评测最后都需要需要一个量化的结论,这也是现在比较多的做法是让模型做选择题的原因。但是正常使用情况下,模型和人的交互形式往往不是选择题。所以测评测评也还需要主观开放题。对于主观开放题的打分,理论来说,人工评估是最保险的,但是这样一方面引入了潜在的人类偏见。另一方面,效率低下且成本过高。目前业界做法通常是chatgpt或者gpt4去打分,这样难度就转换了打分prompt的写法,它需要考虑的点有两个,一个是怎么写使得gpt4能够更好的理解当前的,另外一个是怎么约束好输出。

图片

测评体系的多维度


    评估大模型的通用能力不仅是对其在特定任务上的准确性能进行度量,还应当探究大模型在广泛、多样化的任 务和场景中的适应性、安全性和鲁棒性。

    - 多任务学习评测能够检测模型是否能在多种任务上保持其性能,从而真实地反映其泛化能力:我们用一些知名的数据集做举例说明:BIG-bench(谷歌公开的由 204 项任务组成的数据集,任务主题涉及语言学、儿童发展、数学、常识推理、生物学、物理学、社会偏见、软件开发等等领域的问题。包含了 204 项任务CMMLU(上海交通大学,微软亚洲研究院合作开的中文大模型基准,涵盖了 67 个主题,涉及自然科学、社会科学、工程、人文、以及常识等),C-Eval(由上海交通大学,清华大学,爱丁堡大学共同完成。覆盖人文、社科、理工、其他四个大方向,52 个学科),M3KE(Massive Multi-Level Multi-Subject Knowledge Evaluation基准。涵盖了中国教育体系的所有主要层次,从小学到大学,以及包括人文学科、历史、政治、法律、教育、心理学、科学、技术、艺术和宗教等各种学科。)AGIEval(由微软发布,包括20种面向普通人类考生的官方、公开、高标准往常和资格考试,如普通大学入学考试(中国高考和美国 SAT 考试)、法学入学考试、数学竞赛、律师资格考试、国家公务员考试等等。)FlagEval(由智源研究院联合多个高校团队打造的天秤数据集,包括 5 种任务,30 多种能力),SuperCLUE(综合性大模型评测基准,聚焦于四个能力象限,细化出基础能力12项)。

    - 特别适配大语言模型agent能力的基准:比如AgentBench,一个多维演进基准测试,包括8个不同环境,用于评估大型语言模型(LLMs)在多回合开放式生成环境中的推理和决策能力。

    - 零样本或少样本学习评估可以揭示模型在面对少量或没有标注数据的任务时的快速适应性:很多测评平台都考虑到这一点,除了支持多种数据集之外,都还支持支持零样本、小样本及思维链评测,结合标准型或对话型提示词模板。比较有代表性的测评平台如OpenCompass (提供 70+ 个数据集的模型评测方案),CLEVA(包括31个任务,也就是11个应用评估+20个能力评测任务),HELM(支持119个场景测评) 。

- 对抗性测试可以评估模型对输入扰动的鲁棒性,比如,promptbench,探究了大模型在处理对抗提示的鲁棒性。

- 安全性:在中国市场中,大模型必须遵守中国的数据安全法规、考虑中文语言的特殊性、以及本地化应用的需求。例如,safetybench(涵盖了7个不同的安全风险领域,同时包括了中文和英文数据,便于双语评估)TRUSTGPT(毒性、偏见和价值对齐三大方面的测评基准),以及TRUSTWORTHY LLMS(提出LLM对齐的分类法和评估LLM对齐能力的评估方法,包括如何构建评估的数据集)。

主流测评体系的现状与意义


  • 仍然缺少统一标准:上文提及的测评平台和很多综合的测评体系如HELM,OpenCompass和FlagEval等等,在某些数据集上有所交集,例如C-Eval、CMMLU和MMLU,但它们也都有各自独特的测评项。这种多样性意味着每个榜单都可能对模型的某些方面进行更深入的评估。 

  •  评测策略的多变性:同一数据集可能因为评测策略的不同而导致模型得分的巨大差异。例如,prompt构建时轻微区别,例如多一个回车后者冒号,都会导致不同的测评结果不同。以及开源模型的最终答案是按照最终输出的字符还是按照选项的概率确定。这些策略都会导致得分不同。 

  • 数据泄露:这里我直接引用ceval官网上写的一段话”任何评测都有其局限性,以及任何的榜单都可以被不健康的刷榜“,为了模型排名高,有的人就会选择走捷径,比如让能力强的模型知识蒸馏喂给自己的模型以及将基准直接混进训练集。这样得到的测评出的能力并不是模型真正的泛化能力,同时也很大机会加剧模型幻觉。

  • 人工评测的主观性:尽管Chatbot Arena 这种基于竞技场的评测方式试图实现公正性,但其仍然受到人工评价的影响。人的评价往往带有主观性,这可能会对评测结果产生不同程度的偏见。大模型评测的核心目的是确定模型的“聪明”程度,深入探讨其性能、特点和局限性,为行业应用提供方向。通过评测,我们可以更好地了解模型的性能、特点、价值、局限性和潜在风险,并为其发展和应用提供支持。

大模型落地,评测体系应如何设计


    “千模大战”的今天,不仅技术层面的 CIO、CDO和 CTO表现出浓厚的兴趣,企业的各个业务单元、包括 CEO在内的高级决策层,几乎都在第一时间启动了密切地关注与讨论,也都在思考,如何把大模型技术应用到自己企业场景中,为业务经营带来更多降本增效。所以根据现有的业务场景,用正确的方法比较和选择大模型是很关键的。比如在流程自动化要求高的场景下就应该使用测评agent能力的基准评测模型的agent能力,如果是客服与营销环节,专业服务要求高,容错性低,对安全合规的要求,就需要一些评测幻觉的基准,比如TruthfulQA、HADES、HalluQA、ChineseFactEval、UHGEval等等,同时也要对模型的价值观和伦理道德等安全稳定性进行评测。换句话说,一个完整的测评体系还要有端到端任务评估能力或者根据业务场景抽象出所对应的模型能力项,将业务场景能力转化为模型基础能力的集合。

    同时针对通用大模型往往不能满足企业应用场景下的不同需求,市场上出现了不少行业大模型,以及用企业的私有数据做训练和微调的做法。所以测评模型微调前后能力对比也是重要的一环。模型经过微调之后在专业上是否能力真的得到了提高便是重点。另外,与生物神经网络相比较,现有的深度神经网络存在一个显著缺陷:人工智能体缺乏像生物一样不断适应环境以及增量式(持续)学习的能力,具体体现就是学习了新的知识之后,几乎彻底遗忘掉之前习得的内容,也被称为灾难性遗忘。所以微调后的模型通用能力是否丧失原有的通用能力也是一项评估重点。

    在最后的落地部署方面也还有两大要素需要考虑:一个是工程化层面,需要对系统的稳健性和效率进行评测,可能包括的指标:平均报错率、llm agent与底层 API 交互的次数等。另一个是系统设计方面,需要考虑整个系统的性能评测,这里就涉及到业务场景完成时端到端的运行效率、延时以及成本等。

    综上所述,人们常说的大模型落地的最后一公里,有半公里在于落地测评体系的搭建。

大模型评测的未来趋势与挑战

    1.权威性和认可度:对于大模型的测评,缺少像旧时NLU领域被学者机构广泛认可的GLUE数据集。(GLUE包含九项NLU任务,语言均为英语。GLUE九项任务涉及到自然语言推断、文本蕴含、情感分析、语义相似等多个任务。像BERT、XLNet、RoBERTa、ERINE、T5等知名模型都会在此基准上进行测试。)目前,很需要一个中立的角色出现做出一个统一认可的基准。

    2.可解释性:现有的评测方法主要通过问答的方式对大模型进行评测,一方面难以全面评估大模型在特定场景或特定环境下的能力,另一方面,无法深入揭示这些风险产生的内在原因。大模型本身仍是一个黑盒,再加上大多数大模型往往不会详细透露其训练数据来源或公开其训练数据,所以对于模型的输出可解释性仍是挑战。

    3.动态评测:现有的评测方法通常是静态评测。一方面,大模型的训练数据来源广泛且规模庞大,静态测试样本可能已经包含在其训练数据中。另一方面,知识每时每刻都在迭代更新,静态评测的数据中的知识有可能会过时。随着大模型的能力不断的增强,原有的静态评测数据的难度可能无法满足大模型的能力需求。这些因素都削弱了静态评测的公平性。因此,动态测评法才更能全面公正的对大模型进行评测,持续更新测试样本,引入开放式问题,并探索评测新方法,如使用多个大模型通过辩论的方式进行评测。

    4.以优化大模型为目标的评测:与前文提到的走捷径相对的就是困难但正确的路,也就是自己自主开发。这就涉及到超参数搜索,微调结果对比等动作。但现有的评测方法主要使用具体的评分量化大模型在某些特定任务或某些特定维度的能力,虽然这些评分便于模型之间的比较和选择,但它们包含的信息难以指导模型的进一步优化。因此,需要以优化大模型为目标的评测方法,这种方法不仅给出模型的能力评分,同时也提供对应的能力分析和改进建议。

写在最后

    目前行业内缺乏统一评测标准,尚未出现一个广泛认可的大模型评测标准或方法,各评测机构和组织可能会提出不同的评测标准和方法。尽管如此,行业普遍认为评测为用户提供了选择大模型的选择参考,同时为研发者提供了改进的方向。我们殷切期待大模型的评测技术可以早日在技术性能、行业应用、安全性和行业认知等多个维度综合评估大模型。大模型本身就是耗时耗力的事,GPT 系列从 GPT-3 走到 GPT-4,从 2019 到 2023,一共花了四年的时间。Anthropic 团队,即使有离开OpenAI之前 GPT-3 的经验,重新做一遍 Claude 也花了一年的时间。我们也殷切期待,国产大模型有朝一日真正超越ChatGPT。

图片

*本文插图使用 AI 生成 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/419568.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

数据库 与 数据仓库

OLTP 与 OLAP OLTP(On Line Transaction Processing,联机事务处理) 系统主要针对具体业务在数据库联机下的日常操作,适合对少数记录进行查询、修改,例如财务管理系统、ERP系统、交易管理系统等。该类系统侧重于基本的、日常的事务处理&#…

CentOS 7开启Web服务

之前有写过用kali开启web服务方法,这次写个用cendos7开启服务的步骤! 1、安装httpd yum install -y httpd 若显示安装失败,报错原因为找不到httpd的安装包,可参考这篇文件更新yum源:CentOS 7更换yum源|详细步骤-CSDN…

(每日持续更新)jdk api之PipedInputStream基础、应用、实战

博主18年的互联网软件开发经验,从一名程序员小白逐步成为了一名架构师,我想通过平台将经验分享给大家,因此博主每天会在各个大牛网站点赞量超高的博客等寻找该技术栈的资料结合自己的经验,晚上进行用心精简、整理、总结、定稿&…

双通道 40V 160mΩ车规级高侧电源开关带诊断功能反向电池保护功能

概述 PC8916是双通道、高功率具有集成NMOS功率FET的开关,以及电荷泵。该设备集成了高级 保护功能,例如负载电流限制,通过功率限制进行过载主动管理带可配置闭锁的超温停机。全面诊断和高精度电流感应这些功能实现了对负载的智能控制。有源漏…

零售经营“新赛道” ——基于手机银行APP专区调研的客群精细化运营分析报告

随着银行业竞争的不断深入及新客户增量日渐“到顶”,各家银行的客群竞争逐渐由“跑马圈地”进入“精耕细作”的新阶段,在客群精准化服务方面不断深入。目前,国内主要商业银行均已在手机银行上建立了相应的用户专区(或对应版本APP&…

敏捷开发模型:一种灵活、协作和持续的软件开发方法

敏捷开发模型:一种灵活、协作和持续的软件开发方法 引言 在软件开发领域,随着市场需求的不断变化和技术的迅速发展,传统的瀑布模型逐渐暴露出其局限性。为了应对这些挑战,敏捷开发模型应运而生。敏捷开发模型强调灵活、协作和持…

EasyRecovery2024免费无需付费版电脑数据恢复软件

一、功能概述 EasyRecovery数据恢复软件是一个功能全面的数据恢复工具,其主要功能包括: 文件恢复:能够恢复各种文件类型,如文档、图片、视频、音频等,满足用户多样化的数据恢复需求。分区恢复:当硬盘分区…

Bert-as-service 实战

参考:bert-as-service 详细使用指南写给初学者-CSDN博客 GitHub - ymcui/Chinese-BERT-wwm: Pre-Training with Whole Word Masking for Chinese BERT(中文BERT-wwm系列模型) 下载:https://storage.googleapis.com/bert_models/…

推荐一个屏幕上鼠标高亮显示的小工具

在视频录制等特定场景下,很多人希望在点击鼠标时能够在屏幕上及时进行显示,便于别人发现,提高别人的注意力。 因此,很多录屏软件中都内含显示鼠标点击功能。那如果不支持该怎么办呢?其实,也是可以通过其他工…

JavaScript-关于事件、事件流(捕获、冒泡)、事件源、常用事件

1.如何注册事件(如何绑定事件) ​ 何为注册事件,就是给元素添加事件,其方式有传统注册事件、方法监听注册事件。 0、1级事件(传统注册事件)不允许多个响应程序 我们在元素内或js内使用on的方式就是传统注册事件,这种形…

lv20 QT 常用控件 2

1 QT GUI 类继承简介 布局管理器 输出控件 输入控件 按钮 容器 2 按钮示例 #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QCheckBox> #include <QLineEdit> #include <QPushButton>class Widget : public QWidget {Q_OBJECTpublic…

第1篇 Linux Docker安装rabbitmq

Docker安装RabbitMq 1、搜索rabbitmq镜像 docker search rabbitmq2、下载rabbitmq镜像 docker pull rabbitmq3、运行rabbitmq服务 docker run -d --name rabbitmq --restart always -p 15672:15672 -p 5672:5672 rabbitmq4、访问rabbitmq http://192.168.1.x:15672 5、rab…

彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进

视觉三维重建 定位定姿 稠密重建 surface reconstruction 纹理贴图。三维重建技术是计算机视觉的重要技术之一&#xff0c;基于视觉的三维重建技术通过深度数据获取、预处理、点云配准与融合、生成物体表面等过程&#xff0c;把真实场景刻画成符合计算机逻辑表达的数学模型。…

数据结构—>带你深入了解单链表(基础篇)

✅作者简介&#xff1a;大家好&#xff0c;我是橘橙黄又青&#xff0c;一个想要与大家共同进步的男人&#x1f609;&#x1f609; &#x1f34e;个人主页&#xff1a;橘橙黄又青-CSDN博客 前面我们学习了顺序表&#xff0c;今天我们来学习与顺序表类似的单链表 1.&#x1f3…

乐吾乐Web可视化RTSP播放

背景 乐吾乐致力于物联网和智能制造等场景的Web可视化平台和解决方案&#xff0c;其中摄像头播放必不可少。 当前国内摄像头都以RTSP协议为主&#xff0c;而HTML不能直接读取RTSP协议&#xff0c;因此需要一个转流服务。乐吾乐Web可视化播放RTSP也是如此&#xff1a; RTSP协…

鸿蒙Harmony应用开发—ArkTS声明式开发(组件快捷键事件)

开发者可以设置组件的自定义组合键&#xff0c;组合键的行为与click行为一致&#xff0c;组件在未获得焦点状态下也可以响应自定义组合键&#xff0c;每个组件可以设置多个组合键。 说明&#xff1a; 从API Version 10开始支持。后续版本如有新增内容&#xff0c;则采用上角标单…

Facebook的元宇宙实践:数字化社交的新前景

近年来&#xff0c;元宇宙&#xff08;Metaverse&#xff09;这一概念备受瞩目&#xff0c;被认为是数字化社交的未来趋势之一。而在众多科技巨头中&#xff0c;Facebook&#xff08;现更名为Meta&#xff09;一直处于元宇宙发展的前沿。在本文中&#xff0c;我们将深入探讨Fac…

SpringCloud搭建微服务之Consul服务注册与发现

1. Consul介绍 Consul是由HashiCorp公司使用Go语言开发的一款开源工具&#xff0c;主要用于实现分布式系统的服务发现和服务配置&#xff0c;其内置了服务注册与发现框架、分布式一致性协议实现、健康检查、Key-Value存储、多数据中心方案。Consul具有高可移植性&#xff0c;支…

螺旋模型——软件开发过程中的灵活迭代之道

螺旋模型——软件开发过程中的灵活迭代之道 引言&#xff1a; 在软件开发领域&#xff0c;项目管理对于确保项目的成功至关重要。随着软件行业的快速发展&#xff0c;传统的瀑布模型逐渐暴露出其局限性。为了满足不断变化的需求&#xff0c;并提高软件开发的灵活性和适应性&am…

(案例贴2) html+css 倒计时器

欢迎大家使用这个计时器噢 老哥直接附代码咯. timer.html <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0">&l…