免费!GPT-4o发布,实时语音视频丝滑交互

We’re announcing GPT-4o, our new flagship model that can reason across audio, vision, and text in real time.

5月14日凌晨,OpenAI召开了春季发布会,发布会上公布了新一代旗舰型生成式人工智能大模型【GPT-4o】,并表示该模型对所有免费用户开放,意味着广大用户将能够通过ChatGPT平台直接体验到OpenAI的最新技术成果,享受前所未有的智能交互体验。

一、三项革新

历次OpenAI发布会都堪称AI界“春晚”,一经开启即刻引爆。本次发布会的主持人是OpenAI 首席技术官(CTO)Muri Murati ,其在一开始便表明今天的发布会共三件事:

  1. 让先进的AI工具能够免费提供给所有用户,以后OpenAI的产品将以免费为最优先
  2. 发布ChatGPT的桌面版本及更新的UI界面
  3. 推出旗舰级生成式人工智能大模型——GPT-4o

我们通常所了解的大模型更新命名都是以【X.X】的形式,然而本次OpenAI创新性的提出一个新的理念,GPT-4o,这个“o”在OpenAI的官网中给出了解答,“o”代表“omni”,在拉丁语中表示“全能的、全知的”,意味着本次GPT-4o是一次全方位的升级。

它能够接受文本、音频和图像的任意组合作为输入,并且能够生成文本、音频和图像的任意组合作为输出。GPT-4o对音频输入的响应速度极快,最短仅需232毫秒,平均响应时间为320毫秒,这与人类在对话中的自然反应时间相似。在英文文本和代码处理上,GPT-4o与GPT-4 Turbo的性能相当,同时在非英文文本处理上取得了显著进步。此外,GPT-4o在API调用速度上更快,成本也降低了50%。特别值得一提的是,GPT-4o在视觉和音频理解方面相比现有模型有显著提升。

Muri Murati的介绍中,GPT-4o 模型的发布是对现有技术的一次重大飞跃,首次将 GPT-4 级别的智能普及到所有用户,包括免费用户。

据其所说,目前全世界有超过一亿位用户使用ChatGPT来创造、工作和学习。然而到目前为止,仅有付费用户能够体验到这些先进的功能。但是升级后的4.0有足够的能力将这些功能提供给每一位用户。GPT-4o 的文本和图像功能今天开始免费在 ChatGPT 中推出,并向 Plus 用户提供高达 5 倍的消息上限。

除此之外,GPT-4o是一个多模态大模型,它代表了OpenAI在文本、视觉和音频领域端到端训练新模型的一次重大进展。这一创新意味着所有类型的输入和输出——无论是文本、音频还是图像——都由同一个先进的神经网络统一处理。GPT-4o能够接收任意组合的文本、音频和图像作为输入,并据此生成任意组合的文本、音频和图像作为输出,从而实现更加灵活和高效的交互体验。

二、现场演示

在发布会现场,OpenAI的工程师Mark Chen为我们演示了几个主要的能力。其中重点则是实时语音对话功能。

Mark Chen表示:“我正在进行现场演示,但我感到有点紧张。你能帮我稍微平静一下神经吗?”

ChatGPT说:“深呼吸,记住你是个专家”

好的,Mark Chen深呼吸

ChatGPT立马表示:“慢点!你不是个吸尘器”

在现场演示中可以看出,用户现在可以随时与模型互动,无需等待,且可通过按钮即时操作。模型提供实时反馈,避免了以往对话中的延迟。此外,它还能感知用户情绪,如在用户紧张时提醒冷静,并能以多样的情感风格生成声音,展现出宽广的动态表现力。

关于语音交流,OpenAI的官网还发布了1个5分钟的详细演示视频,感兴趣的可以自行前往观看那。

官网链接:Hello GPT-4o | OpenAI

此外,另一位工程师Barrett Zoph现场为我们演示了GPT-4o的视觉功能,使用者可以用视频与其进行互动。

Barrett和GPT打了个招呼后说:“需要你帮忙解决一道数学题,我在纸上写一个方程”

GPT回答:“当然可以”

Barrett:“我希望你能帮助我度过难关。但重要的是,不要告诉我解决方案,只需在途中帮助给我提示”

【此时,Barrett打开了与GPT的视频,同时书写题目】

Barrett:“我写的是什么方程?”

GPT马上做出回应:“好的,我看到你写下了3x+1=4”

Barrett:“那么第一步应该采取什么步骤来尝试解决问题?”

GPT:"第一步是获取一边是X,另一边是常量的所有项。那你认为我们应该怎么做?加1?“

在GPT的指导中,Barrett一步步写下了该题目的解题步骤。

接下来尝试 GPT-4o 的代码能力。这有一些代码,打开电脑里桌面版的 ChatGPT 用语音和它交互,让它解释一下代码是用来做什么的,某个函数是在做什么,ChatGPT 都对答如流。

输出代码的结果,是一个温度曲线图,让 ChatGPT 以一句话的方式回应所有有关此图的问题。

"此代码获取特定位置和时间段的每日天气数据,使用滚动平均值平滑温度数据,在生成的图表上注释重要的天气事件,然后显示全年平均、最低和最高温度的图表。"

甚至在发布会的最后,Muri Murati选取了现场观众给出的演示建议,为大家演示实时翻译功能以及根据照片来判断情绪等等。

Barrett:“我要给你看一张我的自拍照,然后我想让你试着看看我根据自己的外表感受到了什么情绪”

Barrett打开视频功能,将自己的表情给GPT看】

GPT:“看起来你感到非常开心和愉快,带着灿烂的微笑,甚至可能有点兴奋“

当然直播演示中大家与GPT的对话并非如此的简洁,实际上还包括了很多与GPT进行幽默互动的环节。GPT展现出的活力和及时反馈非常吸引人,推荐大家观看直播回放 https://www.youtube.com/watch?v=DQacCB9tDaw&t=3s

三、GPT-4o模型评估

相比于以往ChatGPT新版本发布后给出的研究论文和技术报告,本次OpenAI并未放出任何研究报告,而是转为在官网中放出了本次的升级以及模型评估对比。按照传统基准测试,GPT-4o 在文本、推理和编码智能方面实现了 GPT-4 Turbo 级别的性能,同时在多语言、音频和视觉能力方面创下了新的高水位线。

  • 文本评估

GPT-4o在0-shot COT MMLU测试中以88.7%的准确率刷新了常识性问题解答的新高。这些评估结果都是利用我们新开发的简易评估库获得的。同时,在传统的5次训练(5-shot)无COT的MMLU测试中,GPT-4o也以87.2%的准确率创下了新记录。

  • 音频翻译性能

在音频翻译性能上,GPT-4o 在语音翻译方面创下了新的领先地位,并在 MLS 基准测试中优于 Whisper-v3。同时也超越了另一位竞争对手谷歌旗下的Gemini。

  • 视觉理解评估

在视觉理解上,也实现对Gemini 1.0 Ultra与对家Claude Opus的超越

四 、说在最后

毫无疑问本次OpenAI给出的信息量无疑是爆炸式的,无论是GPT-4o所展现出的全新的可能性,还是OpenAI决定对免费用户开放更多的功能,其带给大众的震撼都是真实可见的。

就像OpenAI首席执行在发布会前所发布的信息一样,电影《她》成为了一种“纪录片”,我们对AI的想象正在逐渐成为现实。

各位感兴趣的小伙伴们,现在打开ChatGPT已经可以登录使用GPT-4o,大家可以自行前往体验。

当然,最后我们也可以再期待一手北京时间5月15日凌晨,谷歌将召开I/O大会。届时是否会带来全新的变革,我们也可以拭目以待。

参考资料:

  1. https://OpenAI.com/index/hello-GPT-4o/
  2. https://www.youtube.com/watch?v=DQacCB9tDaw&t=3s

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/696227.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

AI智能体做高考志愿填报分析

关注公众号,赠送AI/Python/Linux资料,对AI智能体有兴趣的朋友也可以添加一起交流 高考正在进行时,学生焦虑考试,家长们焦虑的则是高考志愿怎么填。毕竟一个好的学校,好的专业是进入社会的第一个敲门砖 你看张雪峰老师…

Tomcat源码解析(八):一个请求的执行流程(附Tomcat整体总结)

Tomcat源码系列文章 Tomcat源码解析(一):Tomcat整体架构 Tomcat源码解析(二):Bootstrap和Catalina Tomcat源码解析(三):LifeCycle生命周期管理 Tomcat源码解析(四):StandardServer和StandardService Tomcat源码解析(五)&…

Python opencv读取深度图,网格化显示深度

效果图: 代码: import cv2 import osimg_path "./outdir/180m_norm_depth.png" depth_img cv2.imread(img_path, cv2.IMREAD_ANYDEPTH) filename os.path.basename(img_path) img_hig, img_wid depth_img.shape # (1080, 1920) print(de…

设计模式- 责任链模式(行为型)

责任链模式 责任链模式是一种行为模式,它为请求创建一个接收者对象的链,解耦了请求的发送者和接收者。责任链模式将多个处理器串联起来形成一条处理请求的链。 图解 角色 抽象处理者: 一个处理请求的接口,可以通过设置返回值的方…

Python基础教程(八):迭代器与生成器编程

💝💝💝首先,欢迎各位来到我的博客,很高兴能够在这里和您见面!希望您在这里不仅可以有所收获,同时也能感受到一份轻松欢乐的氛围,祝你生活愉快! 💝&#x1f49…

Buildroot和Debian文件系统修改方法

本文档主要介绍在没有编译环境的情况下,如何修改buildroot和debian文件系统方法,如在buildroot文件系统中添加文件、修改目录等文件操作,在debian文件系统中,安装软件库、工具、扩大文件系统空间等等操作。 1.Debian文件系统 …

【Python从入门到进阶】57、Pandas入门:背景、应用场景与基本操作

一、引言 1、Pandas简介 在数字化时代,数据已经成为企业决策和个人洞察的重要基础。无论是金融市场的波动、零售业的销售趋势,还是科研实验的结果,都蕴含在大量的数据之中。然而,如何有效地提取、分析和解读这些数据&#xff0c…

嵌入式应用之FIFO模块原理与实现

FIFO介绍与原理 FIFO是First-In First-Out的缩写,它是一个具有先入先出特点的缓冲区。FIFO在嵌入式应用的非常广泛,可以说有数据收发的地方,基本就有FIFO的存在。或者为了降低CPU负担,提高数据处理效率,可以在积累到一…

2、数据操作

索引从0开始 一行 [1,:] 一列[:,1] 子区域:[1:3,1:] 第一行和第二行,从第一列开始 [::3,::2] 每3行一跳,每2列一跳 torch.tensor([[1,2,3,4]] 按位置算 xy ,x-y x*y x**y(幂) 1、广播机制形状不一样,…

一个简单好用的 C# Easing Animation 缓动动画类库

文章目录 1.类库说明2.使用步骤2.1 创建一个Windows Form 项目2.2 安装类库2.3 编码2.4 效果 3. 扩展方法3.1 MoveTo 动画3.2 使用回调函数的Color动画3.3 属性动画3.4 自定义缓动函数 4.该库支持的内置缓动函数5.代码下载 1.类库说明 App.Animations 类库是一个很精炼、好用的…

C-MAPSS数据集探索性分析

实验数据为商用模块化航空推进系统仿真C-MAPSS数据集,该数据集为NASA格林中心为2008年第一届预测与健康管理国际会议(PHM08)竞赛提供的引擎性能退化模拟数据集,数据集整体信息如下所示: 涡扇发动机仿真模拟模型如下图所示。 仿真建模主要针对…

【前端】使用window.print() 前端实现网页打印详细教程(含代码示例)

😎 作者介绍:我是程序员洲洲,一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主。 🤓 同时欢迎大家关注其他专栏,我将分享Web前后端开发、人工智能、机器学习、深…

Vuex3学习笔记

文章目录 1,入门案例辅助函数 2,mutations传参辅助函数 3,actions辅助函数 4,getters辅助函数 5,模块拆分6,访问子模块的state辅助函数 7,访问子模块的getters辅助函数 8,访问子模块…

Java--递归

1.递归就是A方法调用A方法,也就是调用自己本身 2.利用递归可以用简单的程序来解决一些复杂的问题,它通常把一个大型复杂的问题层层转化为一个与原问题相似的规模较小的问题来求解,递归策略只需少量的程序就可描述出解题过程所需要的多次重复…

【MySQL数据库】:MySQL索引特性

目录 索引的概念 磁盘 磁盘的基本特征 MySQL与磁盘交互的基本单位 索引的理解 建立测试表 理解单个Page 理解多个Page 页目录 单页情况 多页情况 索引的数据结构 聚簇索引 VS 非聚簇索引 索引操作 创建主键索引 创建唯一索引 创建普通索引 创建全文索引 查询…

Nginx服务配置

一、Nginx服务的主配置文件nginx.conf vim /usr/local/nginx/conf/nginx.conf 全局块:全局配置,对全局生效;events块:配置影响 Nginx 服务器与用户的网络连接;http块:配置代理,缓存&#xff0c…

重温共射放大电路

1、放大概念 小功率信号变成一个大功率信号,需要一个核心器件做这件事,核心器件的能量由电源提供,通过核心器件用小功率的信号去控制大电源,来实现能量的转换和控制,前提是不能失真,可以用一系列正弦波进行…

conda 创建环境失败

conda create -n pylableimg python3.10在conda (base)环境下,创建新的环境,失败。 报错: LookupError: didn’t find info-scipy-1.11.3-py310h309d312_0 component in C:\Users\Jane.conda\pkgs\scipy-1.11.3-py310h…

RK3568-修改fiq-debugger调试串口

瑞芯微SDK默认将uart2_m0作为调试串口,以下方法将调试串口修改为uart5_m1。修改bootloader 修改/OK3568-linux-source/rkbin/tools/ddrbin_param.txt文件,5表示串口5。1表示复用m1。执行./ddrbin_tool ddrbin_param.txt ../bin/rk35/rk3568_ddr_1560MHz_v1.11.bin命令修改ub…

素数的无穷大的证明

素数的无穷大——欧几里得的证明 文章目录 一、说明二、欧几里得证据三、哥德巴赫对素数无穷性的证明(1730)四、Frstenberg 对素数无穷性的证明(1955)五、库默尔对欧几里得证明的重述 一、说明 众所周知,素数是无限多的。然而,两…