【绝对有用】快速掌握GPT-4o:详细免费使用指南!

GPT-4o 简介

在这里插入图片描述

北京时间5月14日,OpenAI举行了春季发布会,并发布了其新旗舰模型“GPT-4o”。据OpenAI首席技术官穆里·穆拉蒂(Muri Murati)介绍,GPT-4o在继承GPT-4强大智能的基础上,进一步提升了文本、图像及语音处理能力,为用户带来更加流畅、自然的交互体验。更多详情请访问官网。

GPT-4o的含义

GPT-4o中的“o”代表“omni”,源自拉丁语“omnis”,在英语中表示“全部”或“所有”。GPT-4o是一个多模态大模型,支持文本、音频和图像的任意组合输入,并能生成文本、音频和图像的任意组合输出。与现有模型相比,它在视觉和音频理解方面尤其出色。

GPT-4o的性能

GPT-4o可以在音频、视觉和文本中进行实时推理,接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合进行输出。它可以在最短232毫秒内响应音频输入,平均响应时间为320毫秒,与人类对话中的响应时间相似。

文本能力

在这里插入图片描述

GPT-4o在0次COT MMLU(常识问题)上创下了88.7%的新高分。此外,在传统的5次无CoT MMLU上,GPT-4o创下了87.2%的新高分。

音频能力

在这里插入图片描述

GPT-4o在语音翻译方面取得了新的领先地位,并在MLS基准测试中优于Whisper-v3。

各种语言的考试能力

在这里插入图片描述

M3Exam基准测试既是多语言评估,也是视觉评估,由来自其他国家标准化考试的多项选择题组成,有时包括数字和图表。GPT-4o在所有语言的基准测试中都比GPT-4表现更好。

视觉理解

在这里插入图片描述

GPT-4o在视觉感知基准测试中实现了最先进的性能,全面超越之前的模型。所有视觉评估均为0次,其中MMMU、MathVista和ChartQA为0次CoT。

语音交互

在这里插入图片描述

GPT-4o在语音交互方面取得了重大进展。它采用了先进技术,显著提高了响应速度,使得对话更加流畅自然。在最近的发布会上,OpenAI展示了GPT-4o在语音对话中的表现,能够几乎实时地回答问题,并通过文本转语音技术进行朗读,提供了一种沉浸式的交流体验。GPT-4o还可以调整说话的语气,从夸张戏剧到冰冷机械,以适应不同的交流场景。此外,GPT-4o还具备唱歌的功能,增添了更多的趣味性和娱乐性。

GPT-4 Turbo与GPT-4o

GPT-4o不仅在传统的文本能力上与GPT-4 Turbo性能相当,还在API方面更快速,价格便宜50%。与GPT-4 Turbo相比,GPT-4o速度提高了2倍,价格减半,限制速率提高了5倍。截至2024年5月13日,Plus用户可以在GPT-4o上每3小时发送多达80条消息,在GPT-4上每3小时发送多达40条消息。在高峰时段可能会减少限制,以保持GPT-4和GPT-4o的可用性。

具体比较

  • 定价:GPT-4o比GPT-4 Turbo便宜50%,输入费用为5美元/月,输出代币费用为15美元/M。
  • 速率限制:GPT-4o的速率限制比GPT-4 Turbo高5倍,每分钟最多1000万个代币。
  • 速度:GPT-4o的速度是GPT-4 Turbo的4倍。
  • 视觉:GPT-4o在与视觉能力相关的评估中表现优于GPT-4 Turbo。
  • 多语言:GPT-4o改进了对非英语语言的支持,超过了GPT-4 Turbo。
  • 上下文窗口:GPT-4o的上下文窗口为128k,知识截止日期为2023年10月。

使用GPT-4o的方法

在这里插入图片描述
目前,GPT-4o的文本和图像功能已经开始在ChatGPT中逐步推出,用户可以在ChatGPT平台上免费体验GPT-4o的相关功能,但免费版有使用次数限制。Plus用户可以享受到5倍的调用额度(升级plus详细教程:升级PLUS)。OpenAI计划在接下来的几周内在ChatGPT Plus中推出带有GPT-4o的Voice Mode新版本,作为ChatGPT Plus的一个alpha版本。此外,GPT-4o也将通过API提供给开发者,作为文本和视觉模型。开发者可以利用API将GPT-4o集成到他们自己的应用程序中。

至于GPT-4o的音频和视频功能,OpenAI将在未来几周和几个月内继续开发技术基础设施,提升可用性并确保安全性,之后才会发布这些功能,并逐步向公众提供。

具体详情参考个人主页的链接。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/627615.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

从0到1,百亿级任务调度平台的架构与实现

尼恩:百亿级海量任务调度平台起源 在40岁老架构师 尼恩的读者交流群(50)中,经常性的指导小伙伴们改造简历。 经过尼恩的改造之后,很多小伙伴拿到了一线互联网企业如得物、阿里、滴滴、极兔、有赞、希音、百度、网易、美团的面试机会&#x…

走进Java接口测试之多数据源切换示例

文章目录 一、前言二、demo实现2.1、开发环境2.2、构建项目2.3、配置数据源2.4、编写配置文件2.5、编写Dao层的mapper2.6、编写实体成层2.7、编写测试类2.8、验证结果 三、多数据源 demo 实现3.1、配置数据源3.2、增加pom文件3.3、修改数据源读取方式:3.4、增加动态…

Windows本地部署直播录屏利器Bililive-go并实现远程添加直播间录屏

🌈个人主页: Aileen_0v0 🔥热门专栏: 华为鸿蒙系统学习|计算机网络|数据结构与算法 ​💫个人格言:“没有罗马,那就自己创造罗马~” 文章目录 1. Bililive-go与套件下载1.1 获取ffmpeg1.2 获取Bililive-go1.3 配置套件 2. 本地运行测试3. 录屏…

ChatGPT 4o 使用案例之一

2024年GPT迎来重大更新,OpenAI发布GPT-4o GPT-4o(“o”代表“全能”) 它可以接受任意组合的文本、音频和图像作为输入,并生成任意组合的文本、音频和图像输出。它可以在 232 毫秒内响应音频输入,平均为 320 毫秒&…

LeetCode474:一和零

题目描述 给你一个二进制字符串数组 strs 和两个整数 m 和 n 。 请你找出并返回 strs 的最大子集的长度,该子集中 最多 有 m 个 0 和 n 个 1 。 如果 x 的所有元素也是 y 的元素,集合 x 是集合 y 的 子集 。 代码 /*抽象为两个维度的背包问题 dp[i][j…

IT行业的现状、未来发展趋势及无限可能

不可能的可能 一、引言二、IT行业的现状三、IT行业的未来发展趋势四、结语 一、引言 在全球化浪潮的推动下,IT行业正以前所未有的速度发展,成为推动全球经济和社会进步的重要引擎。云计算、大数据、人工智能、物联网、5G通信和区块链等技术的不断涌现&am…

47 tcp网络程序

网路聊天 API详解 下面用到的API,都在sys/socket.h中 socket (): socket() 打开一个网络通讯端口,如果成功的话,就像open() 一样返回一个文件描述符应用程序可以像读文件一样用read/write在网络上收发数据如果调用出错返回-1对于IPv4&am…

02-WPF_基础(一)

1、基础 各模块类型 链接:如何:向 Viewbox 的内容应用 Stretch 属性 - WPF .NET Framework | Microsoft Learn WPF基础以及事件绑定与数据绑定的情况,,在学习XAML,数据结构以及一个项目学习平台来练手,网络…

HTML哆啦A梦

目录 写在前面 HTML简介 完整代码 代码分析 系列推荐 写在最后 写在前面 谁不想拥有一只可爱的叮当猫呢?本期小编给大家带来了一个萌萌的哆啦A梦。 HTML简介 HTML,即超文本标记语言,是构建网页的基础技术之一,它是一种标…

[初学者来练]用html+css+javascript个人博客作业需求

文章目录 项目概述项目需求页面设计主页文章列表页文章详情页用户交互额外功能(可选) 技术要求提交要求评分标准文件代码格式提示HTML 页面结构CSS 样式设计JavaScript 交互功能 项目概述 这个项目旨在通过使用HTML、CSS和JavaScript创建一个简单而功能…

使用支付宝/微信购买订阅Midjourney教程

Midjourney是一个由同名研究实验室开发的人工智能程式,可根据文本生成图像,因为Midjourney超强的AI绘画能力,吸引国内很多设计师和插画师人群去使用,普通用户一次有25张免费作图次数,对一个专业的设计师来说&#xff0…

WebLogic Server Supported Configurations

Supported Configurations 支持的配置: 不同版本的WebLogic Server对OS、JDK、AP Server、浏览器、数据等的支持,或者说在哪些OS,JDK等的配置上进行了动作保证。 10.3以后的版本(包含10.3) 10.3以后的版本支持的配置,在以下URL中可以找对对应的excel文件下载 https://ww…

C++之容器:双端队列queue用法实例(二百七十二)

简介: CSDN博客专家,专注Android/Linux系统,分享多mic语音方案、音视频、编解码等技术,与大家一起成长! 优质专栏:Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏:多媒…

《灵性开悟不是你想的那样》PDF完整阅读

年前,我与本书的主编小良和一些编辑吃饭,免不了寒暄近况,她们礼貌地问我最近在干什么。 面对这群美丽又聪明的听众,我当然不会放过机会,来发表我当时最大的一项人生领悟。 “最近我有一个很大的领悟,”我说…

Hello,World驱动之旅,用户层简单交互(三)

目录 (一)上篇回顾:上一篇讲到用户层怎么与驱动模块进行交互。Hello,World驱动之旅,对外接口(二)-CSDN博客 (二)通过简单程序与驱动交互 读操作,代码如下: 写操作&…

Canal解决select count(*)执行慢的问题

前言 count 的常用方式,使用 count(*)来统计数据条数,但是 innodb 没有存储数据总数,所以执行起来就会很慢。 可以使用 expalin sql 来返回预估行数,expalin select count(*)....., 通过预估的方式,统计数据条数。可以使用 redi…

每日5题Day1 - LeetCode 1-5

每一步向前都是向自己的梦想更近一步,坚持不懈,勇往直前! 第一题:1. 两数之和 - 力扣(LeetCode) class Solution {public int[] twoSum(int[] nums, int target) {//返回值为Int[]数组,所以先初…

【计算机网络】数据链路层 差错控制 循环冗余码CRC及FCS 习题5

在计算机网络中,关于差错控制,我们主要要比特控制。 比特控制,简单理解,即在传输过程中,0变为1,1变为0。 差错控制主要有两类 自动重传请求ARQ——检错编码 (接收方检测出差错,就设…

数字社交的先锋:探索Facebook的未来发展

在当今数字化时代,社交媒体已经成为人们日常生活中不可或缺的一部分。而在众多社交平台中,Facebook一直处于引领地位,不断探索和创新,塑造着数字社交的未来。本文将深入探讨Facebook作为数字社交的先锋,探索其未来发展…