大模型高考数学测评结果,国内AI大模型成绩超GPT-4o!

每年高考都是备受全社会关注的一件大事,而今年略有不同,因为除了鱼跃龙门的高三学子们,还多了许多陪他们一同参加考试的 AI 大模型。

在所有的考试科目中,数学显然一直都是最难的那一门,不论是对考生还是对大模型。因为数学最考验逻辑思维和计算能力,而大模型是从自然语言训练,即便是公认最强的 ChatGPT 也被诟病不懂数学。

去年高考,国产大模型还远不像今天这样生机勃勃。今年就不一样了,一年多的百模大战让国产大模型也能凑满一整个考场。考试刚结束网上就有很多 AI 大战高考的文章。

不过其中一些测试显然太过简单粗暴,比如直接上传数学试卷的截图,然后就下结论说国产 AI 不如 GPT-4o,因为这就不是在比数学能力了,而是在比 OCR 能力,能做出这种测试的自媒体我想大概连 LaTeX 是什么都不知道…

而复旦大学NLP实验室的测试就更加严谨准确了,以高考数学真题单选、多选、填空的客观题为测评集,采取文本转义或 LaTeX 格式对国内外主流大模型进行了考试。先看一下考试结果吧(LaTeX版):

新课标I卷:新课标II卷:从结果可以看出:

1、少数大模型已经能在高考数学题目中拿到70%以上正确率;且模型之间拉开了较为显著的差距,一些主攻文本的模型显然数学能力不足;

2、在两张试卷的测试中,GPT-4o、Gemini-1.5都没能打赢国产大模型;

3、如果把GPT-4o、Gemini-1.5作为两个大模型数学能力的基准划分为优、中、差三等,能稳定优于GPT-4o则为优,介于GPT-4o和Gemini-1.5之间则为中,否则为差。以此可以将国产大模型划分为三档,优档中则只有Qwen2-72B和讯飞星火两个模型。

这个结果说实话挺出乎意料的:

一来是因为大模型之间明显拉开了差距。我上次拿公务员行测考试的题目测试国产大模型,而行测中语文和常识题比较多,区分度不够,大家上下也不过相差几分,看来数学能力依然很多大模型的短板弱项;

二来是像Qwen-72B这样的开源模型在两次考试中分别位居一二,要知道这可不是1+1=2那样的简单计算,也不是鸡兔同笼那种被训烂了的二元一次方程组,而是实实在在涵盖了集合、虚数、向量、根式、函数、曲线等高难度题目的高考真题啊。

Qwen2-72B作为一个开源模型,怎么就能拿到这么好的成绩?强的有点不真实了…莫非选择题是蒙对的?所以我们还是得自己动手测几道题吧。

第一题:第二题:第三题:前三道简单题显然没什么问题,过程也是对的。时间关系我直接从后面再测两道题。第12题:一顿操作还是算错了。第13题:能解出正确答案 a=ln⁡(2)a = {\ln(2)}a = {\ln(2)} 可以看出,测评结果跟复旦NLP的结果基本一致。压轴的选择题可能存在蒙的成分,但中等、简单题目是可以给出比较准确的解答思路和计算结果的。

最后,再聊聊大模型测评吧。现在市面上的大模型越来越多,随之而来的是大家对大模型能力比较的需要。我们可以看到,不论哪个模型,在发布时都会贴出一大堆测评分数,来佐证自己的能力。

但是问题在于:

就像高考真题和模拟试卷的关系一样,测评数据集难免会发生泄漏,也难免会有人针对性地进行刷榜。现在的大模型都是通用对话型,不再像过去是针对某个非常具体的分类任务设计,所以需要综合地评价模型在不同方面的能力。现在的模型相比于过去,能力还是有长足增长的。

所以一些比较老的测试集就会出现区分度不够的问题,就好比一张考试试卷,大家都能考到85分以上,这样的测试结果意义其实也不太大。

所以为什么 Lmsys ChatBot Arena 火起来了,就是因为它引入了排位赛 Elo 分数的机制,通过让海量的真实对话去打分决出胜负,来评测模型排名。

针对测评区分度的问题,前段时间 Lmsys ChatBot Arena 还专门发了一篇文章,提供了一个 Arena-Hard 测试集,相比于 MT Bench,Arena Hard Auto v0.1 提供了更强的区分度:在排行榜中也专门提供了 Hard Prompts 分类,Qwen2-72B 和 Llama3-70B 一起上榜前10,和GPT-4-0314 并列:

所以从测评的角度,高考数学真题真的是非常难得的测试题目,因为高考真题严格保密,绝不存在泄题或者刷榜的因素,同时数学和推理能力完全可以作为 Hard 题目,来区分模型的能力排名。

总之,我觉得今年国产大模型的高考表现是超出预期的,特别是通义千问 Qwen2 这样的开源模型能做到第一、第二的成绩,真的非常优秀了。我也很期待国产大模型们明年高考的表现,一定会有更大的变化和进步。

可能大家都想学习AI大模型技术,也想通过这项技能真正达到升职加薪,就业或是副业的目的,但是不知道该如何开始学习,因为网上的资料太多太杂乱了,如果不能系统的学习就相当于是白学。为了让大家少走弯路,少碰壁,这里我直接把全套AI技术和大模型入门资料、操作变现玩法都打包整理好,希望能够真正帮助到大家。

👉AI大模型学习路线汇总👈
大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)
在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈
光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。
在这里插入图片描述

👉大模型视频和PDF合集👈
观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述

在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/705177.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

管理敏感数据

敏感数据泄露是指意外或故意泄露关键信息,例如个人身份信息(PII)、支付卡信息(PCI)、受保护的电子健康信息(ePHI)和知识产权(IP),数据保护措施不足的组织会在…

2024 Java 异常—面试常见问题

目录 一、异常的分类 二、throw和throws都是异常处理的关键字,二者区别。 三、try-catch-finally 中,如果 catch 中 return 了,finally 还会执行吗? 四、try-catch-finally 中哪个部分可以省略? 五、常见的 Runti…

neo4j-官网学习

1、cypher 代码学习文档 https://neo4j.com/docs/cypher-cheat-sheet/5/auradb-enterprise 2、APOC函数包安装(desktop) 直接点击就可以安装,安装完之后重启一下,Cypher查询中使用CALL apoc.help(‘apoc’)来检查APOC插件是否已…

全网自动观影一条龙!一步到位的极空间nas-tools搭建教程

全网自动观影一条龙!一步到位的极空间nas-tools搭建教程 哈喽小伙伴们好,我是Stark-C~,前几天为大家分享的《极空间全自动小雅Alist以及Emby全家桶部署教程》大家都反映没用上极空间自己强大的“极影视”有点可惜,所以今天再教大…

JasperReport-合并单元格

合并单元格是做报表时经常会遇到的需求。下面列举两种合并单元格的方式。 一、示例一 合并单元格在Subject。 1.1 创建5列的表 1.2 合并Column4和 Column5 按住Ctrl键点击Column4和 Column5,同时选中。然后右键,选择“Group Columns”。 1.3 合并成功 二、示例二 示例一…

VirtualBox 虚拟机中的 centos7 系统拉取 docker 镜像常见报错及解决方法

一、拉取镜像时报错:Error response from daemon: Get "https://registry-1.docker.io/v2/": tls: failed to verify certificate: x509: certificate signed by unknown authority 原因:(文心一言给出的原因) 这个错误…

产品经理研读:Agent的九种设计模式(图解+代码)

引言 上周五我在一个特工宇宙的社群里做了一次分享,题目是《从 YC 项目看 AI 趋势以及 AI agent 开发工具类产品该如何设计》,收到了大家不错的反馈,不过回看视频后还是发现不少可以提升的地方,感兴趣的朋友公众号回复“分享”获…

了解AIGC:让AI创造内容,改变未来

人不走空 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌赋:斯是陋室,惟吾德馨 目录 什么是AIGC? 定义和概念 🧠 关键技术 🤖 AIGC的发展历程 &#x1f…

android studio过滤日志

荣耀手机的日志有很多乱七八糟的输出 在logcat设置过滤 filter name:过滤名称随意 log tag不知道是什么 log message设置过滤的内容或者设置显示的内容 需要过滤的内容: ^(?!.*(gralloc4|InputMethodManager|tagSocket|dataspace)).*$以|分割要过滤的内容 要显…

基于51单片机8x8点阵设计

基于51单片机8x8点阵设计 (仿真+程序) 功能介绍 具体功能: 1.用74HC138驱动8x8点阵; 2.按键可以切换模式; 3.一共4种模式,0~9数字闪出、动态爱心、坦克走动、数字依次向上平移; …

[天翼杯 2021]esay_eval

[天翼杯 2021]esay_eval <?php class A{public $code "";function __call($method,$args){eval($this->code);}function __wakeup(){$this->code "";} }class B{function __destruct(){echo $this->a->a();} } if(isset($_REQUEST[poc]…

减治法思想-二分查找图解案例

减治法介绍 减治法思想 ​ 分治法是将一个大问题划分为若干个子问题&#xff0c;分别求各个子问题&#xff0c;然后把子问题的解进行合并得到原问题的解。 ​ 减治法同样是把一个大问题划分为若干个子问题&#xff0c;但是并不是求解所有的子问题&#xff0c;因为原问题的解…

182.二叉树:二叉搜索树的最小绝对差(力扣)

代码解决 /*** Definition for a binary tree node.* struct TreeNode {* int val;* TreeNode *left;* TreeNode *right;* TreeNode() : val(0), left(nullptr), right(nullptr) {}* TreeNode(int x) : val(x), left(nullptr), right(nullptr) {}* Tre…

剧本新纪元:探索短剧系统的魔力

在现代社会&#xff0c;随着科技的迅猛进步和生活节奏的不断加快&#xff0c;传统的长篇电视剧和电影已不能完全满足所有人的需求。短剧&#xff0c;由于其简短、快速、直接的特性&#xff0c;正在逐步成为一种文化新趋势。短剧系统正是这一趋势的典型代表&#xff0c;它以独特…

Ansys Mechanical|使用Trace Mapping建立PCB板的有限元模型

Trace Mapping需要使用ECAD的方法 传统方法 vs ECAD方法 传统方法既繁琐又费时。以下是一些数据&#xff1a; 导出电路板布局的step文件大约需要30分钟。 导入Ansys SpaceClaim中大约需要10分钟。 进行布尔运算和共享拓扑操作大约需要24小时甚至更久。 而ECAD方法更加快速且…

CV每日论文--2024.6.12

1、PGSR: Planar-based Gaussian Splatting for Efficient and High-Fidelity Surface Reconstruction 中文标题&#xff1a;PGSR&#xff1a;基于平面的高斯溅射&#xff0c;用于高效、高保真表面重建 简介&#xff1a;这项研究关注于3D高斯喷洒(3DGS)技术,该技术因其高质量渲…

探索生成式AI的未来:Chat与Agent的较量与融合

近年来&#xff0c;生成式人工智能&#xff08;AI&#xff09;不仅在技术界引起了广泛关注&#xff0c;更成为了推动多个行业革新的关键力量。这种技术之所以备受瞩目&#xff0c;不仅在于其独特的创造性和高效性&#xff0c;还在于它对未来商业模式和社会结构可能产生的深远影…

Java的Mybatis框架中#{}与${}使用心得

Java的Mybatis框架中#{}与${}使用心得 在MyBatis框架中&#xff0c;#{}和${}都是用来动态地向SQL语句中插入值的&#xff0c;但它们的处理方式和用途有所不同 #{} 安全&#xff1a;#{}是预编译处理&#xff0c;能够有效防止SQL注入。它会将参数看作一个占位符&#xff0c;在…

servlet梦想酒店管理系统

梦想酒店管理系统 酒店管理系统分为管理端&#xff0c;和用户端&#xff0c; 用户端可以查看酒店客房&#xff0c;预定酒店系统&#xff0c;查询预定信息。 管理端&#xff1a;用户管理&#xff0c;类型&#xff0c;房间管理&#xff0c;业务管理&#xff0c;统计分析。 技术&…

无文件落地分离拆分-将shellcode从文本中提取-file

马子分为shellcode和执行代码. --将shellcode单独拿出,放在txt中---等待被读取执行 1-cs生成python的payload. 2-将shellcode进行base64编码 import base64code b en_code base64.b64encode(code) print(en_code) 3-将编码后的shellcode放入文件内 4-读取shellcod…