让AI做2024新高考1卷数学最后一题:AI智商横向对比!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

一些结论

即使是当下最先进的AI模型,在面对高难度数学推理题时,仍有很大的提升空间。

模型名称题目理解解答过程总体评价
GPT-4o完全正确输出大量内容,但大部分不正确,仅成功给出一组答案题目理解强,但解答过程不准确
GPT-4 turbo理解与题目要求不符解答与题目无关,推理和计算不准确题目理解和解答均存在较大问题
Kimi Chat理解较为准确解答中出现AI幻觉,第一小问解答不正确题目理解较好,但解答过程出现错误
通义千问初步理解正确,但未详细解释题目思路正确,但详细解答过程中出现错误初步理解正确,详细解答不够准确

牵动着无数家长和学子们的一年一度的高考刚刚落下帷幕,那么,今年的高考数学难吗?有考生吐槽:一出考场就哭了。

之前我曾经用高考语文作文横向对比过部分AI模型/工具的创意写作能力,并且做了后续的AI互评,让AI来评价AI写的文章。感兴趣的小伙伴可以翻看这里:

  1. 让AI写高考作文:GPT-4、Kimi、通义千问“创意写作”能力横向测评!

  2. AI文章互评:得分最高的竟然不是GPT-4!

今天,让我们继续。今天我将以2024年新高考数学一卷的最后一题为基准,来测试各大AI模型/工具的表现。

2024年新高考数学一卷最后一题

这道题目是一道数列大题,对于AI来说应该算是很难的级别了,因为这并不是考察AI的知识积累,而是单纯的考察AI的推理能力,包括对题目的理解,知识点的定位,以及解答方法的分析推理。

其次,由于是数学题目,包括很多数学公式,所以我只能以图片的方式来发送给AI模型,这对于AI的多模态支持也是一个挑战,能够看出AI对图片的解析是否正确。

提示词:中文详细解释这道题目,然后写出详细完整的解答计算过程。

题目

答案

下面测评开始。

GPT-4o模型

回答速度极快,大概几秒钟就开始响应我的问题。题目理解完全正确,但后面的解答过程中,虽然洋洋洒洒输出了一大堆,但基本都不正确,即使是第一小问。第一小问中,答案应该是三组:(1,2),(1,6),(5,6),GPT-4o成功给出了一组。

GPT-4 turbo模型

GPT-4o不同,GPT-4 turbo模型在题目的理解上就出现了很大的问题,基本上牛头不对马嘴,更不用提后续的解答过程了。

这样的测试结果和OpenAI官方发布的GPT-4oGPT-4 turbo的对比测评结果是相符的。

Kimi Chat

Kimi的表现可圈可点,可以说对题目的理解方面,是明显强于GPT-4 turbo模型的。虽然这可能与提示词/题目都是中文的有关系,Kimi这种中文大模型会天然有一定的优势,但足以说明,Kimi在图片内容识别和题目的理解上是不错的。

但同样的,在后续的问题解析部分,Kimi也出现了AI幻觉,从第1问开始就不是很正确。我后续又追问了几个问题,让Kimi来写出具体的第1小问的解答,均未得到正确的结果。

通义千问

通义千问并没有遵循我在提示词里说的先详细解释题目,而是简单地写了一段初步理解。但从通义千问的简述来看,它对这道题目的理解是基本正确的。但同样在后续的解答中出现了幻觉,只能说是有思路,但没有做对。

结语

让AI做高考数学题目,离回答正确还有不小的距离。


精选推荐

  1. 使用GPT-4o模型的5种方法,总有一种适合你!

  2. 关于最新模型GPT-4o的14条总结,都在这里!

  3. 免费的GPT4终于要来了!OpenAI直播发布会详细解读!

  4. 春日暖阳,何不来看一场OpenAI的发布会


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/696081.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

动手学深度学习4.10 实战Kaggle比赛:预测房价-笔记练习(PyTorch)

以下内容为结合李沐老师的课程和教材补充的学习笔记,以及对课后练习的一些思考,自留回顾,也供同学之人交流参考。 本节课程地址:实战 Kaggle 比赛:预测房价_哔哩哔哩_bilibili 本节教材地址:4.10. 实战Ka…

Keil软件仿真的使用

一、软件的初始化设置 初始设置可以按照下图,这里我使用的是STM32F103C8T6,所以单片机型号为STM32F103C8,这个设置在Debug目录下。然后进行时钟的设置,我们板上晶振为8M,这里将时钟改为8. 或许有人想问如果是别的型号单…

Vue3学习记录第三天

Vue3学习记录第三天 背景说明学习记录Vue3中shallowReactive()和shallowRef()Vue3中toRaw()和markRaw()前端...语法Vue3中readonly()和shallowReadonly()函数 背景 之前把Vue2的基础学了, 这个课程的后面有简单介绍Vue3的部分. 学习知识容易忘, 这里仅简答做一个记录. 内容都很…

# RocketMQ 实战:模拟电商网站场景综合案例(一)

RocketMQ 实战:模拟电商网站场景综合案例(一) 一、内容介绍 1、案例介绍: 1.1 业务分析 1)下单业务 2)支付业务 1.2 问题分析 2、技术分析 2.1 技术选型: 1)SpringBoot 2&…

Zynq7000 系列FPGA模块化仪器

• 基于 XilinxXC7Z020 / 010 / 007S • 灵活的模块组合 • 易于嵌入的紧凑型外观结构 • 高性能的 ARM Cortex 处理器 • 成熟的 FPGA 可编程逻辑 ,基于 IP 核的软件库 FPGA 控制器 Zynq7000 系列模块是基于 Xilinx XC7Z020/010/007S 全可编程片上系统 (SoC) 的…

【PPT技巧】PPT文件设置了修改权限,如何取消权限编辑文件?

不知道大家在使用PPT文件的时候,是否遇到过下面的提示框,这就是PPT文件设置了修改权限,只有输入密码才可以编辑文件。 如果我们没有输入密码,以只读方式进入,那么我们会发现功能栏中的按钮全是灰色,无法使用…

Vue3【二】 VSCode需要安装的Vue语法插件

VSCode需要安装的 适配Vue3的插件 Vue-Official插件安装

DeepSORT(目标跟踪算法)中的马氏距离详解(很详细)

DeepSORT(目标跟踪算法)中的马氏距离详解(很详细) flyfish 马氏距离的公式是由印度统计学家【普拉萨纳钱德拉马哈拉诺比斯(Prasanta Chandra Mahalanobis)】)(好长的名字&#xff…

STM32F103C8T6 HAL库 USART1 DMA方式接收数据

前言: 前面的两篇文章都说关于发送的,HAL库发送数据可以调用现成的函数,而接收数据,现成函数不太好用。这里为了记录了一下自己参考了网上几个大佬的代码,整理了一下USART1 DMA方式接受数据的代码,…

【python】OpenCV—Histogram Matching(9.2)

学习来自OpenCV基础(17)基于OpenCV、scikit-image和Python的直方图匹配 文章目录 直方图匹配介绍scikit-image 中的直方图匹配小试牛刀风格迁移 直方图匹配介绍 直方图匹配(Histogram Matching)是一种图像处理技术,旨…

一文详解大模型微调全流程

节前,我们星球组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学. 针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。 汇总合集&…

11-数组与指针深入理解——题型理解

11-数组与指针深入理解——题型理解 文章目录 11-数组与指针深入理解——题型理解一、理解题1二、理解题二三、理解题三四、理解题四五、理解题五六、理解题六 一、理解题1 #include <stdio.h>int main(void) {int (*p)[5] NULL; // 定义一个指向 拥有5个整型数据的数组…

Tessy学习系列(三):单元测试——官方例程isValueInRange

一、工程创建 &#xff08;1&#xff09;新建工程 注意&#xff1a;工程名称以及路劲不能包含空格和中文 &#xff08;2&#xff09;新建测试集与单元测试模块 新建测试集 新建单元测试模块 设置测试模块为单元测试模块并选择GNU GCC编译器如果需要其他的编译器&#xff0c;…

力扣每日一题 6/10

881.救生艇[中等] 题目&#xff1a; 给定数组 people 。people[i]表示第 i 个人的体重 &#xff0c;船的数量不限&#xff0c;每艘船可以承载的最大重量为 limit。 每艘船最多可同时载两人&#xff0c;但条件是这些人的重量之和最多为 limit。 返回 承载所有人所需的最小船…

kubesz(一键安装k8s)

引言 Kubernetes&#xff08;K8s&#xff09;是一个开源的容器编排系统&#xff0c;用于自动化部署、扩展和管理容器化应用程序。kubeasz 是一个用于快速搭建 Kubernetes 高可用集群的项目&#xff0c;它基于 Ansible&#xff0c;通过提供一套简单、易用的配置&#xff0c;使得…

杨校老师项目之基于SpringBoot的理发店的预约管理系统

原系统是SSMJSP页面构成&#xff0c;先被修改为SpringBoot JSP页面 自助下载渠道: https://download.csdn.net/download/kese7952/89417001&#xff0c;或 点我下载 理发师信息&#xff1a; 理发师详细信息 公告信息 员工登录&#xff1a; 管理员登录

94、二叉树的迭代遍历

实现对二叉树的前后序非递归遍历 题解&#xff1a; 递归的实现就是&#xff1a;递去&#xff0c;归来。每一次递归调用都会把函数的局部变量、参数值和返回地址等压入调用栈中&#xff0c;然后递归返回的时候&#xff0c;从栈顶弹出上一次递归的各项参数&#xff0c;所以这就是…

有点好玩的python运维脚本

python运维脚本 1. 常用端口扫描2. 文件整理 1. 常用端口扫描 在计算机网络中&#xff0c;端口是一个通信端点&#xff0c;允许不同的进程或服务通过网络连接和交换数据。端口通过数值来标识&#xff0c;并与特定的协议相关联。未采取适当安全措施而保持端口开放&#xff0c;可…

上位机图像处理和嵌入式模块部署(f407 mcu vs h750)

【 声明&#xff1a;版权所有&#xff0c;欢迎转载&#xff0c;请勿用于商业用途。 联系信箱&#xff1a;feixiaoxing 163.com】 在目前工业控制上面&#xff0c;f103和f407是用的最多的两种stm32 mcu。前者频率低一点&#xff0c;功能少一点&#xff0c;一般用在低端的嵌入式设…

搞懂银行的各类号码 — Account Number, Routing Number 和 Swift Code

1. 前言2. 名词解释 2.1. Debit Card Number 储蓄卡卡号2.2. Account Number 账户号码2.3. Routing Number 路由号码2.4. SWIFT Code SWIFT 号码3. 查找信息 3.1. 支票3.2. 网上银行3.3. 手机银行4. SWFIT Code 4.1. 看懂 SWIFT Code4.2. 询问银行4.3. Google 大神4.4. 部分常用…