大模型的高考数学成绩单:及格已经非常好了

让考生头皮发麻的高考数学,可难倒了顶尖 AI 大模型。

一年一度的高考即将落幕,衷心希望各位考生都超常发挥,考出满意的好成绩!!

和往年一样,除了让 AI 大模型写写高考作文,我们也选取了六家国内头部大模型公司的产品与考生们一同参与一场客观且公平(让众多考生头皮发麻)的高考数学考试(新课标 Ⅰ 卷),其中包括 GPT-4o、GLM-4、文心一言 4.0、豆包、百小应(百川 4)以及通义千问 2.5。

先来瞧一瞧这份「大模型成绩单」:

图片

令人惊讶的是,在这次模拟考试中,大模型(产品)的表现并未达到预期,甚至出现了几乎全部不及格的情况,只有智谱最新发布的 GLM-4-0520 模型超过了及格线。

对大模型产品来说,高考语文作文可以直接测试它们的创造性写作技巧,包括构思、组织和表达观点的能力。

而在数学考试测试中,除了基本的计算能力、对数学知识的掌握,更能体现大模型在逻辑推理、抽象思维和问题解决方面的高级能力。大模型必须理解并运用数学概念、公式和定理,这要求它具备深厚的数学知识基础。同时,逻辑推理能力是解答数学题目的关键,大模型需要通过严密的逻辑推导来解决问题。

具体测试环节:

我们将评测的重点放在了高考数学的前 14 个客观题上,这些题目覆盖了基础的数学知识和计算能力,满分为 73 分。在测试时,我们将题目直接输入产品,不做 System Prompt 引导,直接输出结果;同时也没有触发搜索,没有来自外界的干扰。

分数计算方法依照高考真实判分原则:

  • 单选题 8 道,每道 5 分,选项正确计分,错误不得分;
  • 多选题 3 道,每道 6 分,全对计 6 分,漏选按正确答案数量计分,如答案为 ABCD,漏选其一扣 1.5 分,错选不得分;
  • 填空题,3 道,每道 5 分,填空正确计分,错误不得分。

图片

图|8 个模型对 14 道数学题的回答结果,绿色为正确、红色为错误、黄色为部分正确

具体而言,在满分 73 分、及格线为 43.8 分(60%)的情况下,六家大模型产品的分数结果分别为:GLM-4-0520 (63 分) > 智谱清言 (43 分) > GPT-4o (41 分) > 豆包 (40 分) > 文心 4 (30 分) = 百川 4 (30 分) > 通义千问 2.5 (29 分)

多说一句,每年的第 8 道单选题往往是高考数学卷中最难的一道题,被测试的大模型都 “全军覆灭” 了

完整测试结果如下:

单选题一

(6个模型回答正确,1个回答错误)

GPT-4o:正确

图片

通义千问 2.5:正确

图片

GLM-4-0520:正确

图片

智谱清言:正确

图片

豆包:正确

图片

文心 4:错误

图片

百川 4:正确

在这里插入图片描述

单选题二

(3个模型回答正确,4个回答错误)

GPT-4o:错误

图片

通义千问 2.5:正确

图片

GLM-4-0520:正确

图片

智谱清言:正确

图片

豆包:错误

图片

文心 4:错误

图片

百川 4:错误

图片

单选题三

(全部回答正确)

GPT-4o:正确

图片

通义千问 2.5:正确

图片

GLM-4-0520:正确

图片

智谱清言:正确

在这里插入图片描述

豆包:正确

图片

文心 4:正确

图片

百川 4:正确

图片

单选题四

(全部回答正确)

GPT-4o:正确

图片

通义千问 2.5:正确

图片

GLM-4-0520:正确

图片

智谱清言:正确

图片

豆包:正确

在这里插入图片描述

文心 4:正确

图片

百川 4:正确

图片

单选题五

(6个模型回答正确,一个无响应)

GPT-4o:正确

图片

通义千问 2.5:无响应,最终提示系统超时

图片

GLM-4-0520:正确

图片

智谱清言:正确

图片

豆包:正确

图片

文心 4:正确

图片

百川 4:正确

图片

单选题六

(6个模型回答正确,一个回答错误)

GPT-4o:错误

图片

通义千问:正确

图片

GLM-4-0520:正确

图片

智谱清言:正确

图片

豆包:正确

图片

文心 4:正确

图片

百川 4:正确

图片

单选题七

(6个模型回答正确,一个回答错误)

GPT-4o:正确

图片

通义千问 2.5:错误

图片

GLM-4-0520:正确

图片

智谱清言:正确

图片

豆包:正确

在这里插入图片描述

文心 4:正确

在这里插入图片描述

百川 4:正确

图片

单选题八

(7个模型无一得出正确答案)

GPT-4o:错误

图片

通义千问2.5:错误

图片

GLM-4-0520:错误

图片

智谱清言:错误

图片

豆包:错误

在这里插入图片描述

文心 4:错误

图片

百川 4:错误

图片

多选题一

(3个回答正确,2个部分正确,2个错误)

GPT-4o:正确

图片

通义千问 2.5:错误

图片

GLM-4-0520:正确

图片

智谱清言:部分正确

图片

豆包:正确

图片

文心 4:部分正确

在这里插入图片描述

百川 4:错误

在这里插入图片描述

多选题二

(*2个模型回答部分正确,5个回答错误*

GPT-4o:错误

图片

通义千问 2.5:错误

图片

GLM-4-0520:部分正确

在这里插入图片描述

智谱清言:部分正确

图片

豆包:错误

在这里插入图片描述

文心 4:错误

图片

百川 4:错误

图片

多选题三

5个模型回答部分正确,2个回答错误

GPT-4o:错误

在这里插入图片描述

通义千问 2.5:部分正确

在这里插入图片描述

GLM-4-0520:部分正确

图片

智谱清言:部分正确

图片

豆包:部分正确

图片

文心 4:部分正确

图片

百川 4:错误

图片

填空题一

(*2个模型回答正确,5个回答错误*

GPT-4o:正确

图片

通义千问 2.5:错误

图片

GLM-4-0520:正确

图片

智谱清言:错误

在这里插入图片描述

豆包:错误

图片

文心 4:错误

图片

百川 4:错误

在这里插入图片描述

填空题二

1个模型回答正确,6个回答错误

GPT-4o:错误

在这里插入图片描述

通义千问 2.5:错误

图片

GLM-4-0520:正确

图片

智谱清言:错误

图片

豆包:错误

图片

文心 4:错误

在这里插入图片描述

百川 4:错误

图片

填空题三

(*2个模型回答正确,5个回答错误*

GPT-4o:正确

图片

通义千问 2.5:错误

图片

GLM-4-0520:正确

图片

智谱清言:错误

图片

豆包:错误

图片

文心 4:错误

图片

百川 4:错误

图片

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/698759.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

超级会员小程序积分商城源码系统 前后端分离 带完整的安装代码包以及搭建部署

系统概述 在数字化时代,积分商城作为企业增强用户粘性、促进消费的重要工具,其重要性不言而喻。为了帮助企业快速构建高效、易用的积分兑换平台,我们特别推出了“超级会员小程序积分商城源码系统”,采用前后端分离架构设计&#…

硬盘危机:磁盘损坏无法打开的应对策略

在数字化时代,磁盘作为数据存储和传输的核心设备,其稳定性和安全性至关重要。然而,在日常使用过程中,我们时常会面临磁盘损坏无法打开的困境。这不仅会影响我们的工作效率,还可能造成重要数据的丢失。本文将深入探讨磁…

java中toCharArray用法详细分析(全)

将字符串中的字符转换为字符数组 public char[] toCharArray()括号内没有参数 返回值是一个字符数组接收 1.函数代码: package com.ithehema;public class Test {public static void main(String[] args) {String b"ss123456";char []cb.toCharArray()…

SCI三区快速检索——期刊推荐IEEE Access

IEEE Access 是一个综合性的、开放获取的多学科工程和技术期刊,由美国电气电子工程师协会(IEEE)出版。以下是关于IEEE Access期刊的一些关键信息: 1. 开放获取【即开源】 IEEE Access 是开放获取(Open Access&#x…

【Linux】生产者消费者模型——阻塞队列BlockQueue

> 作者:დ旧言~ > 座右铭:松树千年终是朽,槿花一日自为荣。 > 目标:理解【Linux】生产者消费者模型——阻塞队列BlockQueue。 > 毒鸡汤:有些事情,总是不明白,所以我不会坚持。早安!…

【Git】Windows下使用可视化工具Sourcetree

参考:[最全面] SourceTree使用教程详解(连接远程仓库,克隆,拉取,提交,推送,新建/切换/合并分支,冲突解决,提交PR) 1.Git工具–sourcetree 之前文章介绍过Linux系统中的Git工具&…

C++ 11 【可变参数模板】【lambda】

💓博主CSDN主页:麻辣韭菜💓   ⏩专栏分类:C修炼之路⏪   🚚代码仓库:C高阶🚚   🌹关注我🫵带你学习更多C知识   🔝🔝 目录 前言 一、新的类功能 1.1默认成员函数—…

78%的中小企业担心网络攻击会导致其业务中断,中小企业如何确保网络安全?

在当今数字化时代,网络攻击手段层出不穷,网络安全事件不断增加,根据ConnectWise的一项调查数据显示,94%的中小企业至少经历过一次网络攻击,78%的中小企业担心网络攻击会导致其业务中断,企业声誉受损。由此&…

opencv-python(七)

import cv2img cv2.imread(view.jpg) cv2.imshow(view.jpg, img) img_rgb cv2.cvtColor(img, cv2.COLOR_BGR2RGB) # BGR转RGB cv2.imshow(RGB Color Space, img_rgb) img_bgr cv2.cvtColor(img_rgb, cv2.COLOR_RGB2BGR) # RGB转BGR cv2.imshow(BGR Color Space, img_bgr) c…

javaspringbootmysql小程序的竞赛管理系统71209-计算机毕业设计项目选题推荐(附源码)

摘 要 随着社会的发展,社会的方方面面都在利用信息化时代的优势。互联网的优势和普及使得各种系统的开发成为必需。 本文以实际运用为开发背景, 运用软件工程原理和开发方法,它主要是采用java语言技术和mysql数库来完成对系统的设计。整个开发过程首先对竞赛管理系统进行需求分…

【网络编程开发】11.IO模型 12.IO多路复用

11.IO模型 什么是IO: IO 是 Input/Output 的缩写,指的是输入和输出。在计算机当中,IO 操作通常指将数据从一个设备或文件中读取到计算机内存中,或将内存中的数据写入设备或文件中。这些设备可以包括硬盘驱动器、网卡、键盘、屏幕等。 通常用…

FiRa标准UWB MAC实现(三)——距离如何获得?

继续前期FiRa MAC相关介绍,将FiRa UWB MAC层相关细节进一步进行剖析,介绍了UWB技术中最重要的一个点,高精度的距离是怎么获得的,具体使用的测距方法都有哪些,原理又是什么。为后续FiRa UWB MAC的实现进行铺垫。 3、测距方法 3.1 SS-TWR SS-TWR为Single-Sided Two-Way Ra…

01 Linux网络设置

目录 1.1 查看及测试网络 1.1.1 查看网络配置 1. 查看网络接口地址 1. 查看活动的网络接口设备 2. 查看指定的网络接口信息 2. 查看主机名称 3. 查看路由表条目 4. 查看网络连接情况 1.1.2 测试网络连接 1. 测试网络连通性 2. 跟踪数据包的路由途径 3. 测试DNS域名解析 1.2 设…

[leetcode]将二叉搜索树转化为排序的双向链表

. - 力扣(LeetCode) /* // Definition for a Node. class Node { public:int val;Node* left;Node* right;Node() {}Node(int _val) {val _val;left NULL;right NULL;}Node(int _val, Node* _left, Node* _right) {val _val;left _left;right _rig…

小型气象站:现代气象监测的便携化解决方案

TH-QC12在气象监测领域,技术的不断创新和进步推动了监测设备的多样化和便携化。小型气象站作为这一趋势下的产物,以其体积小、功能全、操作简便等特点,受到了广泛的关注和应用。 小型气象站的技术特点 小型气象站集成了多种气象传感器&…

ChatGPT做2024高考数学题能得多少分?

文章目录 1. 前言2. AI答题2.1 第一部分试题图2.2 第二部分试题图2.3 第三部分试题图 3. 结论 1. 前言 2024年高考基本上落下帷幕(特殊省份除外),我们关注下曾经“最喜欢”的数学用 AI 能得多少分?当前采用 ChatGPT-4o 模型&…

说说医院网间文件传输的进化之路

作为一家大型综合医院的信息科管理人员,我亲眼见证了跨网间文件交换技术的不断进步。每一个阶段都伴随着不同的挑战和惊喜,以下是我的一些经历和感悟,希望能对同行们有所帮助。 在2000年代初期,我们医院采用物理隔离和手动传输的方…

固态硬盘格式化后能恢复数据吗?四种数据恢复方法,赶紧收藏!

格式化的固态硬盘能恢复吗?硬盘是电脑里面的储存配件,虽然说当前种类比较多,但是在平常使用的过程中,也会遇到一些数据丢失的问题。而当前造成数据丢失的很多,例如:手动误删、清空回收站、磁盘格式化等。 …

【ppyoloe+】19届智能车完全模型组非官方基线

基于十九届智能车百度完全模型组线上赛baseline修改 调整参数最高能到0.989吧 一、环境准备 1.安装PaddleDetection In [1] # 解压PaddleDetection压缩包 %cd /home/aistudio/data/data267567 !unzip -q PaddleDetection-release-2.6.zip -d /home/aistudio /home/aistud…