Arena-Hard:开源高质量大模型评估基准

开发一个安全、准确的大模型评估基准通常需要包含三个重要内容:1)稳定识别模型的能力;2)反映真实世界使用情况中的人类偏好;3)经常更新以避免过拟合或测试集泄漏。

但传统的基准测试通常是静态的或闭源的,同时大模型的技术发展和功能迭代比较,这凸显了建立具有高可分离性评估基准的必要性。

大模型研究组织Lmsys Org则开源了Arena-Hard。这是一个全新高质量大模型评估基准。

开源地址:https://github.com/lm-sys/arena-hard

图片

Lmsys将新的基准测试平台 Arena Hard v0.1 与当前领先的聊天 大模型基准测试 MT Bench 进行比较。

结果显示,Arena Hard v0.1 相对于 MT Bench 提供了明显更强的可分离性,且置信区间更窄。它还与 Chatbot Arena(仅限英文)的人类偏好排名具有更高的一致性(89.1%)。

图片

Arena-hard-v0.1与广泛采用的大模型基准相比显示出最高的可分离性 (87.4%),并且也便宜且运行速度快(25 美元)。

图片

Arena-hard-v0.1构建了一个管道,可以从通过 Chatbot Arena 收集的 200,000 个用户查询的数据集中自动提取高质量提示。这包括多样性,提示集应涵盖广泛的现实世界主题;提示质量,每个提示都应具有高质量来衡量大模型的水平。

图片

为了确保提示多样性,Lmsys在BERTopic中采用主题建模管道,首先使用 OpenAI 的嵌入 (text-embedding-3-small) 转换每个提示,使用 UMAP 降维,并使用基于层次的聚类算法 (HDBSCAN) 来识别聚类然后使用 GPT-4-turbo 进行总结。这有助于Lmsys识别涵盖广泛领域的 4000 多个主题。

但主题集群在大模型基准测试中具有不同的质量和可分离性。Lmsys为大模型开发了一个经过校准的系统提示,帮助其根据七个关键标准例如,特异性、领域知识、问题解决能力等选择高质量的用户查询。

图片

大模型Judge(GPT-3.5-Turbo、GPT-4-Turbo)对每个提示进行注释,从 0 到 7,以指示满足多少个标准。然后,Lmsys根据提示的平均得分对每个簇进行评分。

下面,Lmsys展示了从低到高平均分数的主题集群示例。例如,游戏开发或数学证明。另一方面,得分较低的集群指向琐碎或模糊的问题,例如“设计风格和影响”。

图片

为了了解提示分数是否与可分离性相关,Lmsys对每个分数采样 50 个提示,并比较 GPT-4 和 Llama-70b 的响应,并以 GPT-4-Turbo 作为判断。

Lmsys表示高潜在得分与 GPT-4 对 Llama-70b 的胜率之间存在很强的相关性。在其他模型对中也观察到类似的趋势,例如Claude Sonnet 与 Haiku 以及Mistral-large 与 Mixtral。

图片

本文素材来源Lmsys Org官网,如有侵权请联系删除

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/568328.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

程序员缓解工作压力小技巧

文章目录 1. 规划时间和任务2. 学会放松和调节情绪3. 培养兴趣爱好4. 保持健康的生活方式总结 当面对程序员这样需要高度精神集中和持续创新的工作时,缓解工作压力是至关重要的。下面分享一些我个人的经验和方法,希望能对大家有所帮助: 1. 规…

如何让AI生成自己喜欢的歌曲-AI音乐创作的正确方式 - 第507篇

历史文章 AI音乐,8大变现方式——Suno:音乐版的ChatGPT - 第505篇 日赚800,利用淘宝/闲鱼进行AI音乐售卖实操 - 第506篇 导读 在使用AI生成音乐(AI写歌)的时候,你是不是有这样的困惑: &…

线性模型算法

简介 本文章介绍机器学习中的线性模型有关内容,我将尽可能做到详细得介绍线性模型的所有相关内容 前置 什么是回归 回归的就是整合+预测 回归处理的问题可以预测: 预测房价 销售额的预测 设定贷款额度 可以根据事物的相关特征预测出对…

模型部署的艺术:让深度学习模型跃入生产现实

模型部署的艺术:让深度学习模型跃入生产现实 1 引言 1.1 部署的意义:为何部署是项目成功的关键 在深度学习项目的生命周期中,模型的部署是其成败的关键之一。通常,一个模型从概念构思、数据收集、训练到优化,最终目的…

【UML建模】用例图

1 参与者 参与者的概念: 指系统以外的、需要使用系统或与系统交互的外部实体 可以分为:人、外部设备、外部系统 参与者的图形符号: 例 3.1 在一个银行业务系统中,可能会有以下参与者 客户 :在银行业务系统中办理…

详细分析MySQL中的distinct函数(附Demo)

目录 前言1. 基本知识2. 基础Demo3. 进阶Demo 前言 该函数主要用于去重,对于细节知识,此文详细补充说明 1. 基本知识 DISTINCT 是一种用于查询结果中去除重复行的关键字 在查询数据库时,可能会得到重复的结果行,但有时只需要这…

奇妙的探索——偶然发现的bug

今天想在腾讯招聘官网找几个前端的岗位投一下,最近自己也在找工作,结果简历还没有投出去,就发现了腾旭招聘官网的3个前端bug。 1.有时候鼠标hover还没有滑倒下拉选框的菜单上,就消失了,消失的太快了,根本点…

揭秘App广告变现,如何轻松赚取额外收入?

揭秘App广告变现,如何轻松赚取额外收入? 在移动互联网高速发展的今天,APP广告变现已经成为了众多开发者和公司的主要盈利方式。但是,如何让一个APP实现高效的广告变现呢?这是一门大学问,需要我们用心去揣摩…

聚观早报 | TCL召开电视新品发布会;OceanBase 4.3发布

聚观早报每日整理最值得关注的行业重点事件,帮助大家及时了解最新行业动态,每日读报,就读聚观365资讯简报。 整理丨Cutie 4月22日消息 TCL召开电视新品发布会 OceanBase 4.3发布 科大讯飞推出耳背式助听器 F1联想中国大奖赛开赛 蔚来展…

个人博客建设必备:精选域名和主机的终极攻略

本文目录 🌏引言🌏域名的选择🌕域名的重要性品牌识别营销和宣传可访问性和易记性信任和权威感搜索引擎优化(SEO)未来的灵活性和扩展性保护品牌 🌕如何选择域名🌕工具与资源分享国内的主流域名注…

C++ 性能分析的实战指南(gperftools工具)[建议收藏]

文章目录 使用gperftools进行 C 性能分析的实战指南一、编译安装 gperftools1. 下载源代码:2. 编译和安装: 二、编写测试程序三、使用 gperftools 代码示例四、查看分析结果五、一份实际代码实例及实操1.代码实例2.操作命令3.结果分析根据上述数据&#…

我有一种不完美的完美主义,必须要有缺点,没有缺点就是不完美的

《程客有话说》是我们最新推出的一个访谈栏目,邀请了一些国内外有趣的程序员来分享他们的经验、观点与成长故事,我们尝试建立一个程序员交流与学习的平台,也欢迎大家推荐朋友或自己来参加我们的节目,一起加油。 本期我们邀请的程…

App Inventor 2 如何预览PDF文档?

预览PDF文档的方式 你可以使用Activity启动器查看已存储在你的设备上的 pdf 文档,也可以使用Web客户端通过网址URL打开 pdf 文档。 App Inventor 2 可以使用 .pdf 扩展名从程序包资产中查看 pdf 文件,不再需要外部 pdf 查看器! 代码如下&a…

二进制,八进制,十六进制 开头的标识符号

1、引言 每个进制开头的标识符号容易忘,写篇小小博客,拯救一下俺的小脑袋瓜子。 2、进制开头标识符号

Ts类型体操详讲 之 extends infer (下)

目录 1、函数 (1)提取参数类型 (2)提取返回值类型 2、构造器 (1)提取构造器返回值 (2)提取构造器参数类型 3、索引类型 本章我们继续上节的内容继续,展示我们对ex…

干货教程【AI篇】| 文字生成视频工具图文详细使用教程及整合包下载

需要这个工具整合包的小伙伴可以关注一下文章底部公众号,回复关键词【wzsp】即可获取,双击即可使用无需本地部署。 使用教程 首先我们从链接下载到这个zip压缩文件: 然后我们解压之后进入文件夹,出现下面的界面: 我…

自然语言处理: 第二十八章大模型基底之llama3

项目地址: meta-llama/llama3: The official Meta Llama 3 GitHub site 前言 LLaMa系列一直是人们关注的焦点,Meta在4月18日发布了其最新大型语言模型 LLaMA 3。该模型将被集成到其虚拟助手Meta AI中。Meta自称8B和70B的LLaMA 3是当今 8B 和 70B 参数规模的最佳模…

OceanBase 开发者大会 - 见闻与洞察

文章目录 前言主论坛见闻技术专场见闻产品技术专场技术生态专场 同行论道启发互动展区写在最后 前言 4 月 20 日,我有幸受邀参加了第二届 OceanBase 开发者大会。 50 余位业界知名数据库大咖和数据库爱好者,与来自全国近 600 名开发者相聚。共同探讨一体…

【ks爬虫软件】把快手评论API接口封装成GUI采集工具

用Python开发爬虫采集软件,可自动抓取快手评论数据,且包含二级评论。 快手的评论接口URL: # 请求地址 url https://www.kuaishou.com/graphql开发者模式分析过程: 进而封装成GUI界面软件,如下: 软件效…

排序算法:顺序查找

简介 顺序查找(也称为线性查找)是一种简单直观的搜索算法。按照顺序逐个比较列表或数组中的元素,直到找到目标元素或搜索完整个列表。 应用场景 数据集比较小,无需使用复杂的算法。数据集没有排序,不能使用二分查找…