最新版的GPT-4.5-Turbo有多强

OpenAI再次用实力证明了,GPT依然是AI世界最强的玩家!在最新的AI基准测试中,OpenAI几天前刚刚发布的GPT-4-Turbo-2024-04-09版本,大幅超越了Claude3 Opus,重新夺回了全球第一的AI王座:

fce2c36bc37b326ee5415a3460ae351a.jpeg

值得一提的是,这个版本不是一个普通的测试版本,而是作为一个正式版本GPT-4-Turbo发布的。

这也是GPT-4-Turbo系列首次发布正式版,足以看出这个版本的份量。网友甚至纷纷直接将其改名为GPT-4.5-Turbo了。

笔者第一时间通过国内最稳、更新最快的AI镜像站AskManyAI进行了GPT-4.5-Turbo体验。

51c8b9b15db732a147e73facf982d689.jpeg

附AskManyAI地址(GPT-4、Claude3、Gemini都是最新版本):

https://askmanyai.cn

值得一提的是,AskManyAI的有个独特的AI混战模式,你的一个问题,可以指定多个最强的AI同时给你回答,简直就是做大模型测试的理想环境:

ab1b90da66f12fce0edde911144eeed0.jpeg

好了,话不多说,我们这就开始测评了!

最新版GPT-4.5-Turbo 大战 Claude 3 Opus

代码能力测试

首先我们来看看代码debug方面的表现:

f251520def619bc3098dd7610e6c7da2.jpeg

4a50fe68adef4a035c4e49e905b858e8.jpeg

4bc19e3c2bd5c5396f44898af635c68e.jpeg

这是一个很隐蔽的bug,Claude 3 Opus完全没找到bug在哪,其实这个bug,以前的GPT-4也找不到。但是刚刚更新的这个GPT-4.5-Turbo竟然找到了bug!

而且给到了非常正确的修复bug后的代码!

简直惊呆我了,这是第一个能修复这个bug的AI。

附AskManyAI地址(以上案例可在AskManyAI直接复现):

https://askmanyai.cn

科研学术能力测试

然后我们来看看专业学术问题的表现。

我们这次加大难度,上传一个生物样品图片给AI:

3769cc649255c727a2985fd5f240bcaa.jpeg

然后我们在AskManyAI网站同时选中Claude、GPT和Gemini这三个地表最强的多模态AI,看他们对这个图片分析的结果:

2dfb2899cb18eae9727081043c8452dc.jpeg

这个case在旧版的GPT-4-Turbo里是个回答错误的badcase,当时明显不如Claude-3 Opus。但几天前的GPT-4-Turbo更新后,竟然回答对了!

不得不表扬下,AskManyAI这个网站的更新速度也真的够快啊!跟官方基本同速了。

附AskManyAI地址(以上案例可在AskManyAI直接复现):

https://askmanyai.cn

我们再换一个专业问题:

31eafd5e08ae514a6181d19e91319da4.jpeg

b94f954cc551dfce57882c86e6a2ff4d.jpeg

de998272ef999fe1270c33a5a663f386.jpeg

5bb8ef5d163b603c7d22fef535cf9c3c.jpeg

关于Sora技术原理的解释,所有的AI中,只有最新的GPT-4没有出现知识性的错误,Kimi和Gemini的错误是最离谱的,竟然说Sora是GAN的架构。。。而Claude-3的视频片段选择这个地方的讲解出现了错误——Sora是生成式的,不是检索式的。

我猜测这可能是因为只有GPT-4的知识库已经更新到了2024年的4月份。而Sora是2月份刚发布的,所以只有GPT-4学到了这方面的知识。

最新版GPT-4完胜!

附AskManyAI地址(以上案例可在AskManyAI直接复现):

https://askmanyai.cn

营销能力测试

这次测试加大难度,直接丢给AI一个产品文档PDF,让他去生成一篇营销文案和搜索SEO的标题。

e624462922e4712fec5b0c76b11460bb.jpeg

同样,这次GPT-4完胜!

AI写作能力测试

最后测试下AI写作能力!

9ac28870c0bfcc83539c64a64c49cfe3.jpeg

5974d2bfa1c5dc2adc56f13c1fba84bc.jpeg

7432ea5b2801eefaed197e556d5abbd7.jpeg

671d373aadd03a6f103e2da9c6034437.jpeg

9bbb366cf9962965f1d06aec7ab57945.jpeg

82ff3526d8e4d0d9175f6c4ed4187fcb.jpeg

2ad6b2598cfeb574e534fb4c3f819d38.jpeg

写作的测试结果就要见仁见智了,每个人的看法都可能不一样。

这里面我最喜欢的是GPT-4和Claude-3写的文章,但Gemini Pro的写作速度非常快,不到5秒就写完了全篇。而GPT-4和Claude-3则写了一分钟不止。

附AskManyAI地址(以上案例可在AskManyAI直接复现):

https://askmanyai.cn

好了,今天的评测就到这里了。你们更喜欢哪个AI呢?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/563470.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【机器学习】重塑汽车设计与制造:实例与代码探索

机器学习重塑汽车设计与制造 一、机器学习在汽车设计中的应用二、机器学习在智能制造与生产中的应用 在数字化浪潮的推动下,机器学习技术正逐步成为汽车行业的创新引擎。从概念设计到智能制造,机器学习正以其独特的优势助力汽车产业的革新与发展。本文将…

实现基于RAG的QA应用程序

实现基于RAG的Q&A应用程序 LLM 支持的最强大的应用程序之一是复杂的 问答 (Q&A) 聊天机器人。这些应用程序可以 回答有关特定来源信息的问题。这些应用程序 使用一种称为检索增强生成 (RAG) 的技术。 什么是检索增强生成…

Golang | Leetcode Golang题解之第43题字符串相乘

题目: 题解: func multiply(num1 string, num2 string) string {if num1 "0" || num2 "0" {return "0"}m, n : len(num1), len(num2)ansArr : make([]int, m n)for i : m - 1; i > 0; i-- {x : int(num1[i]) - 0fo…

设计模式之访问者模式(上)

访问者模式 1)概述 1.概念 访问者模式包含访问者和被访问元素两个主要组成部分。 处方单中的各种药品信息就是被访问的元素,而划价人员和药房工作人员就是访问者,被访问的元素通常具有不同的类型,且不同的访问者可以对它们进行…

上位机图像处理和嵌入式模块部署(树莓派4b处理类muduo网络编程)

【 声明:版权所有,欢迎转载,请勿用于商业用途。 联系信箱:feixiaoxing 163.com】 既然是linux编程,那么自然少不了网络编程。在linux平台上面,有很多的网络编程库可以选择,大的有boost、qt&…

免费PNG素材网站推荐:设计效率倍增!

一、即时设计 新一代协同设计工具即时设计,内置丰富社区资源,可以在此获得设计前线的各类PNG图像,以及矢量图标,包括毛玻璃、3D混搭、全息投影、单色、平面化等,都是符合目前市场的主流风格。通过最近更新、作品、资源…

影响钕铁硼磁钢性能的因素及方法

钕铁硼永磁材料自问世以来,就以其优越的磁性能而备受关注,被称为“磁王“,在市场需求的不断地增长下,钕铁硼生产工艺及磁体性能也不断发展和提升。我们一般用剩磁、矫顽力和最大磁能积这几个指标来衡量磁性材料的磁性能。 剩磁 B…

【C++】:类和对象(上)

目录 一,面向过程和面向对象初步认识二,类的引入三,类的定义3.1 **类的说明**3.2 **类的访问限定符**3.3 **类的两种实现方式**3.4 **成员变量的命名规则 --- 加下划线** 四,类的作用域4.1 **类域的说明**4.2 **类域与命名空间域的…

分析经过j2k压缩的dicom文件经验分享

最近碰到一个问题,在网上搜到是用JPEG 2000压缩的DICOM文件 JPEG 2000对应的transfer syntax UID为 1.2.840.10008.1.2.4.91 参考:https://dicom.nema.org/medical/dicom/current/output/chtml/part18/sect_8.7.3.html 该文件是用专业德国老牌开发库DCMTK生成的 (…

虚拟机VMware安装与Ubuntu

1.虚拟机安装 链接:百度网盘 请输入提取码 提取码:2fr6 CG54H-D8D0H-H8DHY-C6X7X-N2KG6 2.Ubuntu下载 Download Ubuntu Desktop | Ubuntu 3.设置 如后续要下一些软件越大越好

Diffusion Model原理剖析

目录 前言1. DDPM演算法初览2. 图像生成模型共同目标3. VAE: Lower bound of l o g P ( x ) logP(x) logP(x)4. Diffusion Model背后的数学原理5. 为什么需要Sample?6. Diffusion Model的应用7. Diffusion Model成功的关键总结参考 前言 接着上篇文章 图像生成模型浅析&#…

15.C++常用的算法_拷贝和替换算法

文章目录 遍历算法1. copy()代码工程运行结果 2. replace()代码工程运行结果 3. replace_if()代码工程运行结果 4. swap()代码工程运行结果 遍历算法 1. copy() 代码工程 copy()函数不要因为使用而使用#define _CRT_SECURE_NO_WARNINGS #include<iostream> #include&l…

dremio支持设置

Dremio 支持提供可用于诊断目的的设置。这些设置通过 Dremio UI&#xff1a;设置>支持启用&#xff08;或禁用&#xff09; 使用 Client Tools 可以配置当用户查看数据集中的数据时&#xff0c;Dremio 项目的工具栏上显示哪些客户端应用程序按钮。用户可以通过单击相应的工具…

免费ssl泛域名/泛解析证书获取教程

泛域名SSL证书&#xff0c;也称为通配符证书&#xff0c;它可以保护一个主域名下的所有子域名。这意味着&#xff0c;无论你有多少个子域名&#xff0c;只要安装了一个泛域名SSL证书&#xff0c;就可以实现全部子域名的安全保护。这种证书非常适合大型企业或有大量子域名的网站…

数电复习(五)半导体存储电路

半导体存储电路 5.1 概述5.2 SR锁存器5.3 触发器5.3.1电平触发的触发器5.3.2 边沿触发器5.3.3 脉冲触发(主从) 触发器5.3.4 触发器逻辑功能的转换 5.4 寄存器5.4.1 数码寄存器5.4.2 移位寄存器 5.5 存储器5.5.1 ROM5.5.2 随机存储器RAM5.5.3 存储器容量的扩展5.5.4 用存储器实现…

怎么申请免费SSL证书,如何安装

什么是SSL证书&#xff0c;SSL&#xff0c;即Secure Sockets Layer&#xff08;安全套接层&#xff09;&#xff0c;它是一种安全协议&#xff0c;用于在互联网通信中为数据提供加密保护&#xff0c;从而防止数据被窃听或篡改。而SSL证书则是由权威的数字证书认证机构&#xff…

数据结构面试常见问题:什么是哈希表?它的工作原理是什么?

哈希表的基本概念 在我们的日常生活中&#xff0c;我们经常需要存储和查找各种信息&#xff0c;这些信息可能是电话号码&#xff0c;地址&#xff0c;或者是商品的价格等等。这些信息的存储和查找&#xff0c;就像是我们在一个巨大的仓库中存放和寻找物品。这个仓库就是数据结…

机器学习中的过拟合问题及应对策略:深入剖析与实战指南

在机器学习的领域中&#xff0c;过拟合是一个普遍而又棘手的问题。过拟合指的是模型在训练数据上表现优秀&#xff0c;但在未知或测试数据上表现不佳的现象。这通常是因为模型过于复杂&#xff0c;以至于“记住”了训练数据的噪声和细节&#xff0c;而非学习其内在规律和结构。…

立创·实战派ESP32-C3开发板 with lv_micropython

一、lv_micropython对驱动芯片的支持 ESP32-C3开发板的Display drivers:ST7789&#xff0c;Input drivers:FT6336&#xff0c;从LVGL的官方文档了解到lv_micropython包含了这两颗IC的驱动。 参考文档&#xff1a; lv_micropython already contains these drivers: 链接:Micro…

使用Python进行容器编排Docker Compose与Kubernetes的比较

&#x1f47d;发现宝藏 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。【点击进入巨牛的人工智能学习网站】。 随着容器化技术的普及&#xff0c;容器编排成为了管理和部署容器化应用程序的重要环节。在容…