GPT-4o vs. GPT-4 vs. Gemini 1.5 性能评测,谁更胜一筹!

OpenAI 最近推出了 GPT-4o,OpenAI有一次火爆了,其图像、音频、视频的处理能力非常强。

最令人印象深刻的是,它支持用户与 ChatGPT 实时互动,并且能够处理对话中断。

而且,OpenAI 免费开放了 GPT-4o API 的访问权限。

在本文中,我将分析比较 GPT-4o、GPT 4 和谷歌的 Gemini 和 Unicorn 模型在英文数据集上的分类能力。看看这些模型中哪个最强?

GPT-4o 的新特性是什么?

GPT-4o最大特性是能更好地无缝理解和处理文本、音频和视频。

OpenAI 的重点似乎转向了将 GPT-4 级别的智能开放给大众,使即使是免费用户也能访问 GPT-4 级别的AI大模型。

OpenAI 还宣布 GPT-4o 在超过 50 种语言上都提高了质量和速度,承诺提供更具包容性和全球可访问性的 AI 体验,而且价格更便宜。

他们还提到,付费用户将获得比非付费用户多五倍的容量。

此外,他们发布了 ChatGPT 的桌面版本,以便为用户提供跨音频、视觉和文本接口的实时推理。

如何使用 GPT-4o API?

新的 GPT-4o 模型遵循 OpenAI 现有的聊天完成 API,使其向后兼容且易于使用。

from openai import OpenAI


OPENAI_API_KEY = "<your-api-key>"


def openai_chat_resolve(response: dict, strip_tokens = None) -> str:
    if strip_tokens is None:
        strip_tokens = []
    if response and response.choices and len(response.choices) > 0:
        content = response.choices[0].message.content.strip()
        if content is not None or content != '':
            if strip_tokens:
                for token in strip_tokens:
                    content = content.replace(token, '')
            return content
    raise Exception(f'Cannot resolve response: {response}')


def openai_chat_request(prompt: str, model_name: str, temperature=0.0):
    message = {'role': 'user', 'content': prompt}
    client = OpenAI(api_key=OPENAI_API_KEY)
    return client.chat.completions.create(
        model=model_name,
        messages=[message],
        temperature=temperature,
    )


response = openai_chat_request(prompt="Hello!", model_name="gpt-4o-2024-05-13")
answer = openai_chat_resolve(response)
print(answer)

GPT-4o 也可以通过 ChatGPT 界面使用:

OpenAI官方评估

OpenAI 官网发布了各种主流大模型,针对已知数据集(如 MMLU 和 HumanEval)的评估分数。


从图表中可以看出,GPT-4o 的性能是这一领域的最先进水平 —— 考虑到这个新模型更便宜、更快,这看起来已经很牛了。

然而,在过去的一年里,我见过多个声称在已知数据集上具有最先进语言性能的模型。

实际上,其中一些模型部分训练(或过度拟合)在这些开放数据集上,导致在排行榜上的分数不切实际。

因此,使用不太知名的数据集独立分析这些模型的性能非常重要 —— 比如我创建的这个 😄

我的评估数据集

我新建了一个主题数据集,我们可以用它来衡量不同大型语言模型(LLMs)的分类性能。

数据集包含 200 个句子,分为 50 个主题,其中一些主题密切相关,旨在使分类任务更具挑战性。

我手动创建并标记了整个数据集的英文版本。

然后我使用 GPT4 (gpt-4–0613) 将数据集翻译成多种语言。

然而,在这次评估中,我们只会评估数据集的英文版本 —— 这意味着结果不应受到使用相同语言模型进行数据集创建和主题预测可能带来的偏见的影响。

测试性能结果

这次我评估了以下模型:

  • GPT-4o: gpt-4o-2024-05-13
  • GPT-4: gpt-4-0613
  • GPT-4-Turbo: gpt-4-turbo-2024-04-09
  • Gemini 1.5 Pro: gemini-1.5-pro-preview-0409
  • Gemini 1.0: gemini-1.0-pro-002
  • Palm 2 Unicorn: text-unicorn@001

给到语言模型的任务是将数据集中的每个句子与正确的主题匹配。

这使我们能够计算每种语言和每个模型的准确率以及错误率。

由于模型大多数情况下都能正确分类,我正在为每个模型绘制错误率。

记住,错误率越低表示模型性能越好。


从图表中我们可以得出,GPT-4o 在所有模型中错误率最低,只有 2 个错误。

我们还可以看到,Palm 2 Unicorn、GPT-4 和 Gemini 1.5 与 GPT-4o 非常接近 —— 展示了它们强大的性能。

有趣的是,GPT-4 Turbo 的性能与 GPT-4–0613 类似。

最后,Gemini 1.0 落后了,这是意料之中的。

多语言

比较 gpt4o 与其他大型语言模型(如 Claude Opus 和 Gemini 1.5)的多语言能力。


gpt-4o-2024-05-13在多语言的处理能力最强,gpt-4-0613垫底。

结论

通过使用独特制作的英文数据集进行的这项分析,揭示了这些先进语言模型的最先进能力。

GPT-4o,OpenAI 的最新产品,在测试模型中错误率最低,这证实了 OpenAI 关于其性能的声明。

AI 社区和用户都必须继续使用不同的数据集进行独立评估,因为这些有助于提供比单一标准化基准测试所建议的更清晰的模型实际效果。

请注意,数据集相当小,结果可能会根据数据集的不同而变化。

来自:medium Lars Wiik

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/668883.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

[ROS 系列学习教程] 建模与仿真 - 使用 Xacro 优化 urdf

ROS 系列学习教程(总目录) 本文目录 一、使用属性表示常量二、使用公式三、使用宏定义四、include 其他文件五、优化实践 对于前文介绍的 urdf 模型&#xff0c;我们可以使用 xacro 来优化&#xff0c;使其更易于维护。 优化点&#xff1a; 多次用到的尺寸用常量定义计算使用…

嵌入式linux系统中图片处理详解

大家好,今天给大家分享一下,嵌入式中如何进行图像处理,常见的处理方式有哪几种?这次将详细分析一下 第一:BMP图形处理方式 图形的基本特点,所有的图像文件,都是一种二进制格式文件,每一个图像文件,都可以通过解析文件中的每一组二进制数的含义来获得文件中的各种信息…

Scriptings Tracker

"Scriptings Tracker"&#xff08;脚本追踪器&#xff09;可能是一个用于追踪脚本&#xff08;scriptings&#xff09;的工具或系统。它可以用于记录和管理脚本的创建、修改、版本控制和执行情况。这种工具可能被用于软件开发、自动化任务、电影制作、戏剧等领域。 …

ubuntu系统下安装mysql的步骤详解

一、下载安装包 下载地址&#xff1a; https://dev.mysql.com/downloads/repo/apt 跳转到这个页面&#xff1a; 直接点击Download。 直接点击最下面的开始下载安装包即可。 二、将安装包下载到ubuntu系统中 先将用户切换成root用户&#xff0c;把下载好的安装包复制到桌面上&…

windows配置dns访问git , 加快访问速度保姆级教程

设置 DNS 访问 Git 需要修改电脑的 DNS 配置。下面是具体的操作流程&#xff1a; 第一步&#xff1a;打开命令提示符或终端窗口 在 Windows 系统中&#xff0c;可以按下 Win R 组合键&#xff0c;然后输入 “cmd”&#xff0c;按下 Enter 键打开命令提示符窗口。在 macOS 或 …

TCP/IP(网络编程)

一、网络每一层的作用 &#xff0a;网络接口层和物理层的作用&#xff1a;屏蔽硬件的差异&#xff0c;通过底层的驱动&#xff0c;会提供统一的接口&#xff0c;供网络层使用 &#xff0a;网络层的作用&#xff1a;实现端到端的传输 &#xff0a;传输层:数据应该交给哪一个任…

[数据集][目标检测]老鼠检测数据集VOC+YOLO格式4107张1类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;4107 标注数量(xml文件个数)&#xff1a;4107 标注数量(txt文件个数)&#xff1a;4107 标注…

测试工具fio

一、安装部署 fio是一款优秀的磁盘IO测试工具&#xff0c;在Linux中比较常用于测试磁盘IO 其下载地址&#xff1a;https://brick.kernel.dk/snaps/fio-2.1.10.tar.gz 或者登录其官网&#xff1a;http://freshmeat.sourceforge.net/projects/fio/ 进行下载。 tar -zxvf fio-…

RabbitMQ延时队列

一、RabbitMQ下载并使用插件 1、查看RabbitMQ插件的文件路径 docker inspect rabbitmq 找到Mounts下面Name:rabbitmq_plugin的Source即为插件路径 使用 cd 进入到该目录 2、下载插件 wget https://github.com/rabbitmq/rabbitmq-delayed-message-exchange/releases/download…

vue前端Echars

<template><div :class"className" :style"{height:height,width:width}" /> </template><script> import * as echarts from echarts require(echarts/theme/macarons) // echarts theme 柱状图 import resize from ./mixins/re…

win10环境下nodejs安装过程

打开 https://nodejs.org/en/官网下载node.js 2.下载完成后的安装文件为node-v16.16.0-x64.msi&#xff0c;双击进行安装即可。 3.一直默认安装&#xff0c;记得可以更改安装路径 4.其他不用打勾&#xff0c;一直next&#xff0c;安装完成即可。 5.安装完成后&#xff0c;wi…

AI在线UI代码生成,不需要敲一行代码,聊聊天,上传图片,就能生成前端页面的开发神器

ioDraw的在线UI代码生成器是一款开发神器&#xff0c;它可以让您在无需编写一行代码的情况下创建前端页面。 主要优势&#xff1a; 1、极简操作&#xff1a;只需聊天或上传图片&#xff0c;即可生成响应式的Tailwind CSS代码。 2、节省时间&#xff1a;自动生成代码可以节省大…

【论文复现|智能算法改进】融合黑寡妇思想的蜣螂优化算法

目录 1.算法原理2.改进点3.结果展示4.参考文献5.代码获取 1.算法原理 【智能算法】蜣螂优化算法&#xff08;DBO&#xff09;原理及实现 2.改进点 ICMIC混沌映射 z n 1 sin ⁡ ( α z n ) , α ∈ ( 0 , ∞ ) (1) z_{n1}\sin(\frac{\alpha}{z_n}),\alpha\in(0,\infty)\ta…

3D目标检测入门:探索OpenPCDet框架

前言 在自动驾驶和机器人视觉这两个飞速发展的领域中&#xff0c;3D目标检测技术扮演着核心角色。随着深度学习技术的突破性进展&#xff0c;3D目标检测算法的研究和应用正日益深入。OpenPCDet&#xff0c;这个由香港中文大学OpenMMLab实验室精心打造的开源工具箱&#xff0c;…

【六一儿童节】的科技奇幻旅程:解锁【机器学习】与【人工智能】的无限创意

目录 一、机器学习与人工智能简介 二、六一儿童节的特殊意义 三、项目概述&#xff1a;智能绘画助手 四、技术栈和工具 五、数据准备 六、模型训练 1. 数据预处理 2. 构建和训练模型 七、智能绘画助手的实现 1. 搭建Flask应用 2. 客户端界面 八、扩展功能与优化 1…

SQL面试题001--图文并茂解答连续登录问题

连续登录问题是经典问题&#xff0c;今天做下总结。首先对原数据进行处理成客户和日期是不重复的&#xff0c;且日期是 yyyy-MM-dd 格式&#xff0c;这样好使用日期相关的函数。 本文参考在文末&#xff0c;增加了图表&#xff0c;更加容易理解。 表&#xff1a;temp01_cust_…

从0开始制作微信小程序

目录 前言 正文 需要事先准备的 需要事先掌握的 什么是uniapp 平台应用的分类方式 什么是TypeScript 创建项目 项目文件作用 源码地址 尾声 &#x1f52d; Hi,I’m Pleasure1234&#x1f331; I’m currently learning Vue.js,SpringBoot,Computer Security and so on.&#x1…

[数据集][目标检测]旋风检测数据集VOC+YOLO格式157张1类别

数据集格式&#xff1a;Pascal VOC格式YOLO格式(不包含分割路径的txt文件&#xff0c;仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数)&#xff1a;159 标注数量(xml文件个数)&#xff1a;159 标注数量(txt文件个数)&#xff1a;159 标注类别…

代码随想录算法训练营第十一天| 20. 有效的括号、1047. 删除字符串中的所有相邻重复项、150. 逆波兰表达式求值

20. 有效的括号 题目链接&#xff1a;20. 有效的括号 文档讲解&#xff1a;代码随想录 状态&#xff1a;so easy 思路&#xff1a; 使用栈&#xff0c;如果是左括号就入栈&#xff0c;如果是右括号则判断是否和栈顶括号匹配&#xff0c;如果匹配就出栈&#xff0c;否则判断遍历…

ubuntu--Linux运行时格式

Linux运行时格式 \r 错误 用vim打开那个执行错误的 sh脚本文件 进入最后一行模式下 :set ff显示 fileformatdos 解决方法 : :set ffunix查看是否更改 : :set ff结果 : 保存退出即可 :x运行, 没有出错 * Author: cpu_code * Date: 2020-07-29 19:07:52 * LastEditTime: 2020…