Llama 3 是怎么回事?Arena 数据分析

4 月 18 日,Meta 发布了他们最新的开放权重大型语言模型 Llama 3。从那时起,Llama 3-70B 就在 English Chatbot Arena 排行榜上迅速上升,拥有超过 50,000 次对战。Meta 的这一非凡成就对开源社区来说是个好消息。在这篇博文中,我们旨在深入探讨为什么用户将 Llama 3-70b 与 GPT-4-Turbo、Gemini 1.5 Pro 和 Claude 3 Opus 等顶级模型相提并论。

我们调查了以下内容:

  1. 用户在问什么类型的提示?用户是否更喜欢 Llama 3 的某些类型的提示?
  2. 这些提示有多具有挑战性?如果提示更容易/更难,排名是否会改变?
  3. 某些用户或提示是否过度代表?重复的提示或少数用户的排名是否会影响胜率?
  4. Llama 3 是否有让用户更喜欢它的定性差异?

我们专注于 Llama 3-70b 与 5 个顶级模型(claude-3-opus-20240229、gpt-4-0125-preview、gpt-4-1106-preview、gpt-4-turbo-2024-04-09、gemini-1.5-pro-0409-preview)的对战,得出以下结论:

  • Llama 3 在开放式写作和创意问题上击败了其他顶级模型,但在更封闭的数学和编码问题上失利。

  • 随着提示变得更难,Llama 3 对顶级模型的胜率显着下降。

  • 去重或异常值不会显著影响胜率。

    定性地说,Llama 3 的输出比其他模型更友好、更具对话性,这些特征在 Llama 3 获胜的对战中更频繁出现。

在这里插入图片描述
图 1.Llama 3-70b 在不同提示主题上对五大模型的胜率(不包括平局)。* 表示该类别包含的对战不足 50 个。

分析不同类型提示的胜率

主题分析。我们利用 LLM 标注器(Llama 3-70b)将用户提示分类为预先建立的主题分类法(来自 Reka 的论文),并在图 1 中可视化 Llama 3-70b 与其他顶级模型的胜率。我们看到,Llama 3 在头脑风暴和写作等开放式和创造性任务上的胜率最高,在数学和翻译等更封闭的技术任务上的胜率最低。有趣的是,Llama 3 在数据处理任务(主要包括解析和数据框操作)上获得了最高的胜率,但由于该类别只有 19 个样本,这仍然是不确定的。

胜率与提示难度。我们采用了最近发布的评分提示难度的流程,以确定随着提示变得更难,Llama 3 与其他顶级模型相比如何。我们定义了一套"困难程度"标准,并使用 GPT-4-turbo 对每个提示进行 0 到 7 的标注,以表明满足这些标准中的多少个(分数越高表示提示越难)。我们的 7 个标准是:

1.具体性:提示是否要求具体的输出?
2.领域知识:提示是否涵盖一个或多个特定领域?
3.复杂性:提示是否具有多个层次的推理、组成部分或变量?
4.解决问题:提示是否直接涉及 AI 展示积极的解决问题的技能?
5.创造力:提示在解决问题的方法上是否涉及一定程度的创造力?
6.技术准确性:提示是否需要在回答中保持技术准确性?
7.真实世界应用:提示是否与现实世界应用相关?

我们对排行榜前 3 名模型的 1000 场对战进行评分,并在图 2 中绘制它们的胜率与提示得分的关系。我们观察到,与其他顶级模型相比,Llama 3 的性能显着下降,从 50% 的高胜率下降到 40% 的低胜率。我们得出结论,随着这些"困难程度"标准中的更多标准得到满足,与其他模型相比,Llama 3 的胜率迅速下降。请注意,这些标准可能并不详尽,更多讨论请参见博客。
在这里插入图片描述

图 2.几个顶级模型在满足关键标准数量区间内对最强 6 个模型的胜率。*最强模型之间的英语对战:llama-3-70b-chat、claude-3-opus-20240229、gpt-4-0125-preview、gpt-4-1106-preview、gpt-4-turbo-2024-04-09、gemini-1.5-pro-api-0409-preview。

在这里插入图片描述
图 3.在 3.5K 个 arena 对战样本中,满足困难程度标准数量的提示百分比。我们观察到,相当一部分对战被归类为困难(约 27%)。

我们可以进一步分析哪些类型的提示会影响胜率,方法是在表示给定提示是否满足上述每个标准的 7 个二元列上拟合决策树。从这棵决策树中,我们可以将提示分成标准子集,使得 Llama 3-70b-Instruct 要么表现非常好,要么表现非常差。图 4 所示的树告诉我们,当以某些条件为前提时,哪些子集会最大程度地改变模型的胜率。

在这里插入图片描述

图 4.使用标准决策树算法拟合的分层提示标准子集上的 Llama 3-70b-Instruct 胜率。

首先要注意的是,"具体性"是树的根节点,这表明该标准已经将 Llama 3-70b-Instruct 的性能划分为其优势和劣势。它支持我们之前的初步发现,即 Llama 3-70b-Instruct 在开放式提示(非特定)上比在更客观的任务上更强。我们可以进一步遍历树,看到 Llama 3-70b-Instruct 在开放式创意提示上相当强大(参见蓝色路径),对这些顶级模型达到约 60% 的胜率。沿着橙色路径,我们注意到,在回答特定的基于推理的提示时,Llama 3-70b-Instruct 对顶级模型的胜率要低得多。

过度代表的提示和评委的影响

重复提示的影响。使用模糊字符串匹配,我们发现 Llama 3 和其他顶级模型之间的对战中约 9%(6658/7327)的用户提示是重复的,并在表 1 中显示,去重并不显着影响 Llama 3 的胜率。

表 1:Llama 3-70b 对战统计。
在这里插入图片描述

表 2.LLM 的详细参与指标(时间范围:2023 年 4 月 24 日 - 5 月 1 日)

在这里插入图片描述
为了限制投票次数多的用户的影响,我们可以取每个评委胜率的平均值,从而限制每个评委的影响。在这种情况下,我们发现表 3 中所示的分层胜率仍然与原始胜率非常相似,这表明非常活跃的评委并没有扭曲结果。

表 3.模型胜率(时间范围:2023 年 4 月 24 日 - 5 月 1 日)。最新和详细版本请点击此处。请注意,平局计为 0.5,胜利和失败分别计为 1 和 0。

在这里插入图片描述
Llama 3 输出与其他模型的定性差异。从 Llama 3 和其他模型输出的定性分析中,我们观察到 Llama 3 的输出通常比其他模型更兴奋、积极、对话性和友好。

测量情绪。为了衡量兴奋度,我们根据感叹号的存在为每个输出分配一个二元标签。对于积极性、友好性和对话性,我们使用 GPT-3.5 作为评委,对每个输出进行 1-5 分的评分。在给定的对战中,如果 Llama 3 的输出得分高于对手,则标记为更兴奋、积极、对话性或友好。图 5 显示了不同模型中这些品质的分布,揭示了与对手相比,Llama 3 的输出通常表现出更高水平的兴奋、积极、友好和对话性。

在这里插入图片描述图 5:Llama 3 在 arena 提示中比对手更积极/友好/对话/感叹的比例。

情绪与胜率有关吗?图 6 比较了 Llama 3 在获胜对战和失败对战中输出的情绪品质。我们看到,所有特征在获胜对战中出现得更多,在失败对战中出现得更少,但这种差异相对较小,尤其是在积极性和友好性方面。这表明,虽然这些特征可能在竞争成功中发挥作用,但要得出更确定的见解,还需要进一步探索它们的影响。

在这里插入图片描述

图 6:当 Llama 3 比对手更积极/友好/对话/感叹时,Llama 3 的情绪与其胜率的关系。

结论

从一开始,我们的使命就是推进 LLM 的发展和理解。虽然过去我们一直专注于高层次的排名和基准设计,但展望未来,我们希望扩展这里的分析,并对人类偏好和模型行为的变化进行更深入的分析。

心得:

我认为这是一篇高质量的分析博文,对Llama 3的表现进行了全面而细致的评估。以下几点给我留下了深刻印象:

  1. 多角度的数据分析:作者不仅比较了Llama3在不同任务领域的胜率,还考察了提示难度、重复提示、评委行为等因素的影响。这种多维度的分析有助于更准确地理解模型的优劣势

  2. 定性与定量相结合:除了各种数据统计,文章还总结了Llama3输出的定性特点,如更友好、更有对话感等。定性分析与定量结果相佐证,让读者对Llama 3的特点有更直观的认识。

  3. 客观中立的态度:文章没有回避Llama3在数学、编码等任务上的不足,而是如实呈现了其局限性。同时也充分肯定了它在开放式写作等方面的优势。这种客观的评价让人感到分析的可信度。

  4. 展望未来的分析方向:作者指出当前分析的局限,并展望了未来可以深入探索的问题,如人类偏好的变化等。这种对研究方向的思考很有启发性。

  5. 可复现性:文中详细描述了分析使用的标注方法、评估指标的定义等,便于其他研究者复现或扩展相关工作。

参考博文: https://lmsys.org/blog/2024-05-08-llama3/
作者:Lisa Dunlap, Evan Frick, Tianle Li, Isaac Ong, Joseph E. Gonzalez, Wei-Lin Chiang,2024 年 5 月 8 日

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/612209.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【第17章】spring-mvc之日志和拦截器

文章目录 前言一、整合log4j1. 引入库2. log4j2.xml 二、拦截器1.拦截器类2.注册拦截器 三、过滤器和拦截器顺序总结 前言 【第2章】整合log4j2框架 在前面的spring中已经完成了对日志框架log4j的整合,这里我们直接拿过来用就行。 场景描述:每个接口请…

JVM基础之垃圾回收

垃圾回收 1. Base 内存泄漏:不再使用的对象在系统中未被回收 内存溢出:内存泄漏的积累 手动触发垃圾回收:System.gc(),该方法不一定会立即回收垃圾,仅仅是向JVM发送一个垃圾回收请求,具体是否需要垃圾回收由JVM自行…

Web实时通信的学习之旅:轮询、WebSocket、SSE的区别以及优缺点

文章目录 一、通信机制1、轮询1.1、短轮询1.2、长轮询 2、Websocket3、Server-Sent Events 二、区别1、连接方式2、协议3、兼容性4、安全性5、优缺点5.1、WebSocket 的优点:5.2、WebSocket 的缺点:5.3、SSE 的优点:5.4、SSE 的缺点&#xff1…

实用的Chrome命令 帮你打开Chrome浏览器的隐藏功能

前言 Chrome作为主力浏览器,支持相当丰富的第三方扩展,其实浏览器本身也内置了大量实用的命令。许多实用的功能并没有直接显示在Chrome的菜单上。在这篇文章中,我们将介绍几个实用的chrome:// commands。 通过下面整理的 Chrome 命令&#x…

nginx_01

1.安装 yum install epel-release -y # 安装yum的扩展包 yum install nginx -y systemctl start nginx.service #启动nginx systemctl enable nginx.service # netstat -lntup # 查看端口占用情况 # 可以看到nginx默认占用了80端口 2.nginx配置 # 注意配置文件的语法格式…

macOS Sonoma 无法打开分段式Dmg文件的解决办法

在macOS Sonoma 14.X及更高版本的系统中,用户可能会遇到一个棘手的问题:无法直接打开“分段式”DMG(磁盘映像)安装包文件。这种情况通常发生在尝试安装一些大型软件或游戏时,尤其是那些因为文件体积巨大而采用分段压缩…

开源AI大模型测评网站

1、排行榜 多个 AI 模型的排行榜和详细的性能评估,包括总排行榜、基础能力排行榜、安全类模型排行榜、金融领域应用排行榜、汽车领域应用排行榜以及工业领域应用排行榜 地址:SuperCLUEhttps://www.superclueai.com/ 2.报告合集 内容体系:代表性的数据集、基线(预训练)模型…

Kivy UI界面

一、版本介绍 Ubuntu:18.04.6 LTS Conda:4.5.12 Python:3.6.15 Kivy:2.0.0 二、安装Kivy # 更新系统包列表 sudo apt-get update# 安装Kivy的依赖项 sudo apt-get install -y python-pip libsdl2-dev libsdl2-image-dev li…

【JavaWeb】网上蛋糕商城后台-商品管理

概念 本文讲解和实现网上蛋糕商城的后台管理系统中的商品管理功能。 商品列表 点击后台管理系统的head.jsp头部的“商品管理”功能选项,向服务器发送请求/admin/goods_list 因此需要在servlet包中创建AdminGoodsListServlet类,用于获取商品信息列表 …

TDM(BPM)-MIMO-FMCW雷达MATLAB仿真

本文通过对车载毫米波雷达信号流程和链路的仿真,建立基本的算法框架,可用于算法性能的验证。并提供基础MATLAB仿真代码,作为分享和参考。 一、信号的产生 车载毫米波雷达广泛使用线性调频连续波雷达,也即发射信号频率随时间线性变…

C++ | Leetcode C++题解之第79题单词搜索

题目&#xff1a; 题解&#xff1a; class Solution { public:bool exist(vector<vector<char>>& board, string word) {rows board.size();cols board[0].size();for(int i 0; i < rows; i) {for(int j 0; j < cols; j) {if (dfs(board, word, i, …

面向对象设计之套路——设计模式

1、总则 面向对象的分析设计编程思想&#xff0c;通过封装、继承、多态把程序的耦合度降低&#xff0c;用设计模式使得程序更加灵活&#xff0c;容易修改&#xff0c;并且易于复用。 让业务逻辑与界面逻辑分开&#xff0c;让它们的耦合度下降&#xff0c;只有分离&#xff0c;…

jenkins部署想定报错

报错&#xff1a; 解决办法&#xff1a; 登录被编译的设备&#xff0c;清楚旧代码&#xff0c;在重新执行

亲测有效!关键点检测——COCO格式转YOLO格式代码!!!

话不多收&#xff0c;直接上代码&#xff0c;这个我也是找了好久的&#xff0c;分享不易&#xff0c;给个鼓励&#xff01;&#xff08;记得点赞收藏&#xff09; 大家可以直接使用此代码转换你自己的数据集&#xff0c;路径换成你自己的就行了&#xff0c;注意路径格式&#x…

Springboot集成SpringbootAdmin实现服务监控管理-10

SpringbootAdmin Spring Boot Admin是一个用于管理和监控Spring Boot应用程序的开源软件。 概要介绍 Spring Boot Admin可以监控Spring Boot单机或集群项目&#xff0c;它提供了详细的健康&#xff08;Health&#xff09;信息、内存信息、JVM系统和环境属性、垃圾回收信息、…

AI自动生成PPT工具上新

AI大模型能力持续增强&#xff0c;零一万物&#xff08;李开复领导的团队&#xff09;推出的万知只是其中的一个缩影&#xff0c;生成PPT也只是其中一个能力。 如果你还没用WPSAI的PPT自动生成能力&#xff08;WPS Office AI实战总结&#xff0c;智能化办公时代已来&#xff09…

web安全之登录框渗透骚姿势,新思路

不管漏洞挖掘还是挖SRC&#xff0c;登录框都是重点关注对象&#xff0c;什么漏洞都有可能出现&#xff0c; 本篇文章做个总结&#xff0c;后面发现新思路后会继续更新 万能密码 or 弱口令 SQL注入 水平越权 垂直越权 逻辑漏洞 短信轰炸 邮箱轰炸 信息泄露 验证码DOS XSS万能密…

【C++模板入门】

C模板入门 泛型编程函数模板格式原理函数模板的实例化 类模板 泛型编程 如何实现一个通用的交换函数呢&#xff1f; void Swap(int& left, int& right) {int temp left;left right;right temp; } void Swap(double& left, double& right) {double temp l…

信安标委发布16项网络安全国家标准:8项为旧标准替代,8项标准为新发布

1. 背景 根据2024年4月25日国家市场监督管理总局、国家标准化管理委员会发布的中华人民共和国国家标准公告&#xff08;2024年第6号&#xff09;&#xff0c;全国网络安全标准化技术委员会归口的16项国家标准正式发布。 2. 标准清单 本次国家标准涵盖了信息技术安全评估准则、…

【oj题】环形链表

目录 一. OJ链接&#xff1a; 环形链表 【思路】 快慢指针 ​编辑【扩展问题】 为什么快指针每次走两步&#xff0c;慢指针走一步可以解决问题&#xff1f; ​编辑【扩展问题】快指针一次走3步&#xff0c;走4步&#xff0c;...n步行吗&#xff1f; 二. OJ链接&#xff1a…