2024年5月LLM最新排名:GPT-4o出道即巅峰!国内3个大模型榜上有名!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

大语言模型Large Language Model,简称LLM)是当下生成式AI应用的核心,可以理解为一辆汽车的“引擎”,一个应用程序的“大脑”。LLM模型的通用基础能力是AI工具性能表现的基础。今天是2024年5月25日,我们来聊一聊当前LLM模型的最新排名情况。

全球LLM模型综合排名

本排名的数据来源为LMSYS Chatbot Arena Leaderboard。LMSYS全称为LMSYS Organization,由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立,是一个专注于LLM模型研究和评估的组织。他们开发了Chatbot Arena,这是一个开放的LLM模型测评平台,旨在通过收集用户反馈来评估和比较不同LLMs的性能。Chatbot Arena的核心功能包括模型对战(Arena Battle),实时聊天(Direct Chat),排行榜(Leaderboard)。

LMSYS采用了类似于国际象棋等竞技游戏中广泛使用的Elo评分系统,通过众包方式进行匿名、随机对抗测评。在Chatbot Arena中,系统会随机选择两个不同的大型语言模型进行比较,用户在与这些模型的互动中进行评估,并在匿名的情况下选择哪款模型的表现更佳。这种评测方式旨在提供一个公正、透明的评估环境,帮助研究者和开发者了解和改进他们的模型。

截至目前,LMSYS共有99个大语言模型参与测评,总投票数已超百万。

排名模型综合得分投票数组织知识截止日期
🥇 1GPT-4o-2024-05-13128720156OpenAI2023/10
🥈 2GPT-4-Turbo-2024-04-09125262203OpenAI2023/12
🥉 3GPT-4-1106-preview125082286OpenAI2023/4
4Gemini 1.5 Pro API-0409-Preview124862929Google2023/11
5Claude 3 Opus1246121218Anthropic2023/8
6GPT-4-0125-preview124476435OpenAI2023/12
7Yi-Large-preview12361567101 AI未知
8Llama-3-70b-Instruct1203129016Meta2023/12
9Claude 3 Sonnet119997268Anthropic2023/8
10Bard (Gemini Pro)120812387Google在线
11Reka-Core-20240501119537076Reka AI未知
12GPT-4-0314118855378OpenAI2021/9
13Command R+118862689Cohere2024/3
14Qwen-Max-0428118623568Alibaba未知
15Claude 3 Haiku118186889Anthropic2023/8
16GLM-4-011611756167Zhipu AI未知

GPT-4系列模型

几乎是毫无疑问地,GPT-4系列模型夺得前三甲,尤其是5月13日刚推出的GPT-4o模型,更是在刚发布就直接登顶,可谓是“出道即巅峰”,而排在第二和第三的分别是GPT-4-Turbo-2024-04-09GPT-4-1106-preview。值得一提的是,本次排名的依据是LLM竞技场的综合得分,从上面的得分可以看到,GPT-4o和后面的模型在得分上差距还是非常明显的,领先第二名35分之多。

谷歌Gemini系列模型

在这个最新的排行榜里,谷歌的Gemini 1.5 Pro以微弱的优势打败了Claude 3 Opus,位居第四。在之前我也写了不少的文章来介绍Gemini 1.5 Pro模型,首先是它的上下文长度,达到了惊人的100万(确切的说是104万tokens),而5月份的谷歌I/O开发者大会上,更是宣布Gemini 1.5 Pro的上下文长度已经达到了200万,但这个长度需要提交申请排waitlist才能体验。其次是它的多模态能力。最重磅的是它支持视频输入,直接就能够分析视频内容。

根据谷歌最新的通知邮件,Gemini 1.5 ProAPI将于5月30日开始正式收费,但在Google AI Studio中使用该模型仍然免费。想体验的小伙伴可以看我这篇介绍文章:谷歌Gemini 1.5 Pro向所有人开放,无需waitlist!阿里通义千问升级1000万字长文档处理功能!。

Claude 3系列模型

Claude 3系列模型共有3档:Claude 3 OpusClaude 3 SonnetClaude 3 Haiku。这三挡模型的能力依次降低,响应速度依次提高,价格依次降低。这其实也很好理解,推理能力越强的模型需要更多的时间来理解、推断,所以响应速度也就相对较慢。值得一提的是,Claude 3 Opus曾经超越GPT-4,登顶这个排行榜,后来又被反超。

目前Claude 3 Opus排在第5名,Claude 3 Sonnet第9,而Claude 3 Haiku则位列第15名。

国产模型:Yi-Large-preview

第7名,这是目前国产LLM模型在LMSYS榜单中的最高排名,来自零一万物的Yi-Large-preview。不得不说,这是国内AI领域的荣耀时刻。在此之前,仅有阿里的通义大模型跻身进入过前10名。

零一万物公司由创新工场创始人兼CEO李开复领导,成立于2023年,短短几个月内就发布了首款中英双语大模型Yi系列。Yi-Large模型是Yi系列模型的最新力作,是一款拥有千亿参数的闭源大模型。除了本文提到的LMSYS排行榜,在斯坦福大学最新的AlpacaEval 2.0评估中,Yi-Large在全球大模型的胜率排名第三,仅次于GPT-4oGPT-4-Turbo,在中文SuperCLUE评估中则位于国产大模型的榜首​。

国产模型:Qwen-Max-0428

来自阿里的通义系列模型之一的Qwen-Max-0428,当前排名为第14名。不得不说,最为去年才开始爆发的新兴领域,AI大模型真是卷的厉害。通义千问的这个模型前几天还是排名第10,过了几天就被打到了第14名。当然,卷意味着技术的进步,对我们用户来说是件好事。

注意,这里的Qwen-Max-0428是通义系列模型中的一个闭源的商用模型,而不是开源模型。

国产模型:GLM-4-0116

GLM-4-0116模型来自智谱AI,就是开发智谱清言这款AI工具的主体公司。目前GLM-4-0116排名第16名。智谱AI这家公司源自清华大学计算机系的技术成果转化,致力于打造新一代认知智能通用模型。根据公开资料,GLM-4-0116是智谱AI最新发布的第四代基座大模型,其性能逼近GPT-4,具备强大的多模态能力、长文本处理能力和智能体定制能力。该模型支持128K的上下文窗口长度,可以在一次提示词中处理高达300页的文本。在长文本处理能力测试中,GLM-4在128K文本长度内的精度召回率几乎达到100%。


精选推荐

  1. 使用GPT-4o模型的5种方法,总有一种适合你!

  2. 关于最新模型GPT-4o的14条总结,都在这里!

  3. 免费的GPT4终于要来了!OpenAI直播发布会详细解读!

  4. 春日暖阳,何不来看一场OpenAI的发布会


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/644880.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

设计模式 17 组合模式 Composite Pattern

设计模式 17 组合模式 Composite Pattern 1.定义 组合模式(Composite Pattern),又叫部分整体模式,是用于把一组相似的对象当作一个单一的对象。组合模式依据树形结构来组合对象,用来表示部分以及整体层次。这种类型的设…

Java进阶学习笔记21——泛型概念、泛型类、泛型接口

泛型&#xff1a; 定义类、接口、方法的时候&#xff0c;同时声明了一个或者多个类型变量&#xff08;如: <E>&#xff09;,称之为泛型类、泛型接口、泛型方法&#xff0c;我们统称之为泛型。 说明这是一个泛型类。 如果不使用泛型&#xff0c;我们可以往ArrayList中传…

浅谈网络安全态势感知

前言 网络空间环境日趋复杂&#xff0c;随着网络攻击种类和频次的增加&#xff0c;自建强有力的网络安全防御系统成为一个国家发展战略的一部分&#xff0c;而网络态势感知是实现网络安全主动防御的重要基础和前提。 什么是网络安全态势感知&#xff1f; 态势感知一词来源于对…

文心智能体大赛:百度文心智能体平台初体验

写在前面 博文内容涉及&#xff1a;文心智能体大赛:文心智能体初体验理解不足小伙伴帮忙指正 &#x1f603;,生活加油 我徒然忘记了热闹&#xff0c;却来不及悟透真正的清冷(《四喜忧国》) 前言 徒然忘记了热闹&#xff0c;却来不及悟透真正的清冷(《四喜忧国》)&#xff0c;在…

前端日志收集(monitor-report v1)

为什么 为什么自己封装而不是使用三方 类似 Sentry 这种比较全面的 因为 Sentry 很大我没安装成功&#xff0c;所有才自己去封装的 为什么使用 可以帮助你简单解决前端收集错误日志、收集当前页面访问量&#xff0c;网站日活跃&#xff0c;页面访问次数&#xff0c;用户行…

Linux/Ubuntu 中安装 ZeroTier,实现内网穿透,2分钟搞定

相信很多人都有远程连接家中设备的需求&#xff0c;如远程连接家中的NAS、Windows等服务&#xff0c;所以会涉及到一个内网穿透工具的使用&#xff0c;如果没有公网IP的情况下&#xff0c;推荐大家使用ZeroTier&#xff0c;这是一款强大的内网穿透工具。 mac和windows版的操作…

梦幻西游手游挂机脚本,搬砖挂机赚米项目,号称单窗口日收益60+(教程+软件)

一、项目背景 随着智能手机的普及&#xff0c;手游市场逐渐成为人们娱乐生活的重要组成部分。其中&#xff0c;《梦幻西游》作为一款经典的国产手游&#xff0c;吸引了大量的玩家。然而&#xff0c;许多玩家因为工作、学习等原因&#xff0c;无法长时间在线游戏。因此&#xf…

Autodl服务器中Faster-rcnn(jwyang)复现(一)

前言 在做实验时需要用到faster-rcnn做对比,本节首先完成代码复现,用的数据集是VOC2007~ 项目地址:https://github.com/jwyang/faster-rcnn.pytorch/tree/pytorch-1.0 复现环境:autodl服务器+python3.6+cuda11.3+Ubuntu20.04+Pytorch1.10.0 目录 一、环境配置二、编译cud…

深度神经网络——什么是生成式人工智能?

1.引言 生成式人工智能最近引起了很大的关注。 该术语用于指依赖无监督或半监督学习算法来创建新的数字图像、视频、音频和文本的任何类型的人工智能系统。 麻省理工学院表示&#xff0c;生成式人工智能是过去十年人工智能领域最有前途的进展之一。 通过生成式人工智能&#…

【gradle】MAC下用gradle构建部署springboot项目

MAC下用gradle构建部署springboot项目 前言下载安装配置gradle下载安装下载可能出现的问题 &#xff08;zsh: command not found: brew&#xff09; 配置环境变量配置国内下载源全局配置单个项目配置 通过idea构建项目构建后的项目结构 小结延伸 前言 好久以前就听说gradle了&…

MongoDB(介绍,安装,操作,Springboot整合MonggoDB)

目录 MongoDB 1 MongoDB介绍 MongoDB简介 MongoDB的特点 MongoDB使用场景 小结 2 MongoDB安装 安装MongoDB 连接MongoDB MongoDB逻辑结构 MongoDB数据类型 小结 3 MongoDB操作 操作库和集合 操作文档-增删改 操作文档-查询 MongoDB索引 小结 4 SpringBoot整合…

【竞技宝】英超:滕哈格命真硬!足总杯夺冠获欧联资格

足总杯决赛结束,曼联爆冷2比1击败联赛冠军曼城夺冠,滕哈格再一次用顶级理解带队拿到杯赛冠军。赛前曼彻斯特当地有媒体爆料,曼联管理层已经决定要在足总杯决赛之后解雇滕哈格,这个消息让不少球迷都很担心滕哈格的状态。但是荷兰主帅凭借强大的内心,带领球队击败了不可一世的曼城…

深度神经网络——什么是决策树?

决策树 决策树是一种强大的机器学习算法&#xff0c;它通过模拟人类决策过程来解决分类和回归问题。这种算法的核心在于它如何将数据集细分&#xff0c;直至每个子集足够“纯净”&#xff0c;即包含的实例都属于同一类别或具有相似的数值范围。 开始于根节点&#xff1a;决策…

项目管理-人力资源管理

目录 一、概述 二、人力资源计划编制 2.1 概述 2.2 层次结构图 2.3 分配任务矩阵 三、组建项目团队 3.1 概述 3.2 内部谈判 3.3 事先分派 3.4 外部招聘 3.5 虚拟团队 3.6 总结 四、项目团队建设 4.1 概述 4.2 团队发展过程 4.2.1 概述 4.2.2 形成期 4.2.3 震…

华为造车布局全曝光,对标奔驰、迈巴赫等

文 | Auto芯球 作者 | 雷慢 这一刻&#xff0c;我承认我格局小了&#xff0c; 就在刚刚&#xff0c;余承东曝光了华为智选车的布局计划&#xff0c; 华为问界、智界、享界等&#xff0c;将全面对标奔驰、迈巴赫、劳斯莱斯等车系&#xff0c; 这布局&#xff0c;确实是世界…

英语学习笔记26——Where is it?

Where is it? 它在那里&#xff1f; 课文部分

【云原生】K8s 管理工具 kubectl 详解(三)

金丝雀发布/灰度发布&#xff08;Canary Release&#xff09; 一、金丝雀发布简介 Deployment控制器支持自定义控制更新过程中的滚动节奏&#xff0c;如“暂停&#xff08;pause&#xff09;”或“继续&#xff08;resume&#xff09;”更新操作。比如等待第一批新的Pod资源创…

AtCoder Beginner Contest 355 A~F

A.Who Ate the Cake?(思维) 题意 已知有三个嫌疑人&#xff0c;有两个证人&#xff0c;每个证人可以指出其中一个嫌疑人不是罪犯&#xff0c;如果可以排除两个嫌疑人来确定犯人&#xff0c;输出犯人的身份&#xff0c;如果无法确定&#xff0c;输出"-1"。 分析 …

PostgreSQL基本使用

参考文档&#xff1a;PostgreSQL基本使用与数据备份_postgresql 数据备份-CSDN博客 一、数据库的操作 1. 本机登录 2.创建新用户来访问 PostgreSQL 3 重启数据库服务 4.创建数据库并查看数据库 5.连接数据并删除数据库 6.建表插入数据&#xff0c;查看数据库下所有的表&#…

核函数的介绍

1.核函数的介绍&#xff1a; 1、用线性核等于没有用核。 2、多项式核&#xff1a;随着d越大&#xff0c;则 fai(X) 对应的维度将越高。&#xff08;可以通过d得到对应的fai(X)函数&#xff09;。 3、高斯核函数&#xff1a;无限维度。 4、tanh核。 2.如何选择核函数的参数&am…