OpenAI 推出 GPT-4o:实现多模态 AI 交互

一、前言

OpenAI 推出了其最新的 AI 模型——GPT-4o,此次发布的并非 GPT-4.5 或 GPT-5,而是一款全新的“全模态模型(Omnimodel)”。这是一个将文本、语音和视觉能力集成到单一无缝 AI 体验中的突破性发展。 GPT-4o 于 2024 年 5 月 14 日发布,其中的 “o” 代表 “omni”,预示着人机交互方式的一次重大变革,使得交互过程更加自然和直观

GPT-4o 能够直接理解语音和视觉输入,并在语音模式下与用户进行实时交互,无需像之前那样先将音频转换为文本再生成回复,因此 ChatGPT 的语音回复速度得到了显著提升。

Altman 在他的博客文章中探讨了 GPT-4o 作为人机交互界面的潜力。以下是他对 GPT-4o 语音和视频功能的见解:

GPT-4o 显然还没有达到电影《Her》中的智能水平(或像 Skynet 那样的高级智能),但它已经超越了现有的所有模型,并在效率上迈出了重要的一步(OpenAI 并未透露他们是如何做到的)。GPT-4o 的出现也打破了人们的普遍看法,即 GPT-4 类型的模型已经是大型语言模型所能达到的最高水平。许多人在这一点上似乎都判断错了。

我对 GPT-4o 的初步印象可以归纳为三点:

  • 首先,将全球最顶尖的 AI 模型免费提供给公众,这一举措是其他公司难以匹敌的,它彻底改变了我们对今年 AI 领域发展趋势的所有预测。
  • 其次,GPT-4o 的语音和视频功能,如果真如演示中所展示的那样,能够模拟人类的举止、情感以及实时的节奏,这将使我首次真正考虑将其作为一个助手来使用。
  • 第三,如果 OpenAI 能够与苹果达成合作,成功地将 GPT-4o 集成到设备中,取代现有的 Siri,那么对于 Google、Meta、Anthropic 等其他竞争者来说,无疑是一个巨大的挑战。

二、关于 GPT-4o

GPT-4o 在 GPT-4 的基础上进行了升级,保持了相似的智能水平,同时在文本、语音和视觉处理上都取得了显著进步。 OpenAI 的首席技术官 Mira Murati 在一次直播演示中指出了这一进步的重要性:“GPT-4o 能够同时处理语音、文本和视觉信息,这对于我们未来与机器的互动方式至关重要。” 相较于之前的 GPT-4 Turbo 加强版,GPT-4o 通过整合语音功能,将语音集成到多模态模型中,进一步拓宽了应用范围。 现在,用户可以更加自然地与 ChatGPT 进行互动,享受到即时的反馈和动态参与的能力。GPT-4o 甚至能够识别语音的微妙变化,并以不同的情感风格生成回应,包括唱歌。

GPT-4o 能够提供高效的学习辅导 : OpenAI 邀请了可汗学院的可汗和他儿子一起使用了 GPT-4o 辅导孩子在可汗学院上做数学题,一步步启发纠正,各种鼓励,比普通家长辅导效果可能真的要好不少!

GPT-4o 能够提供高效的学习辅导

GPT-4o 具有多语言交互能力 : 用户可以通过 GPT-4o 学习西班牙语,并且利用其实时翻译功能进行语言学习和交流。

GPT-4o 具有多语言交互能力

2.1、ChatGPT 中增强的用户体验

最值得注意的增强之一是 OpenAI 的 AI 驱动的聊天机器人 ChatGPT 中改进的体验。 ChatGPT 平台原有的语音模式,通过文本到语音模型 (text-to-speech) 转录聊天机器人的响应,现在已得到显著升级。

借助 GPT-4o,用户可以提出问题并获得更具互动性和情感响应的答案。该模型的实时能力使用户能够在对话期间无缝地打断或调整对话内容。

GPT-4o 不仅可以有效地提供直接答案,还可以通过有限数量的示例推理问题,使其成为一种通用且强大的语言模型。

此外,GPT-4o 进一步增强了 ChatGPT 的视觉识别功能,用户可以上传照片或屏幕截图,ChatGPT 能够迅速回答相关问题,比如识别商标或解读软件代码。

这项技术预计将不断进步,未来可能使 AI 能够“观看”实时事件,并提供解说或评论。

2.2、多语言和音频处理能力的飞跃

GPT-4o 支持约 50 种语言(占世界人口的 97%!),并在性能上进行了显著提升。它在速度上是 GPT-4 Turbo 的两倍,成本降低了一半,同时提高了使用频率限制。尽管新的音频功能最初将只对少数受信任的合作伙伴开放,但预计不久将向更广泛的用户开放。

2.3、GPT-4o 在语音翻译领域的突破

GPT-4o 在语音翻译方面取得了新的重大进展,在 MLS 基准测试中超越了 Whisper-v3。

这一进步尤为重要,因为它展示了 GPT-4o 实时理解并生成文本、音频和视觉信息的能力,使其成为一个真正的全模态 AI 模型。

将 Whisper 技术整合进 GPT-4o,可能在提升其性能方面起到了关键作用,尤其是在所有语言的延迟和语音识别能力上,包括那些资源较少的语言。

这一进步标志着 AI 技术的巨大飞跃,预示着一个更加包容和易于接近的 AI 环境,能够通过打破语言障碍,满足全球多样化受众的需求。

2.4、M3Exam 基准测试中的表现

M3Exam 基准测试是一项全面的评估工具,用于测试模型理解和回答多语言官方考试问题的能力,包括需要处理图像的问题。在 M3Exam 基准测试中,GPT-4o 在所有语言中的表现都优于上一代模型 GPT-4。

这一提升表明 GPT-4o 在处理多语言文本方面的能力得到了增强,即使是在资源较少和使用非拉丁字母的语言中,以及它在处理和理解视觉信息方面的能力。

但是,需要注意的是,由于斯瓦希里语和爪哇语的视觉问题数量有限,因此省略了视觉结果。

这表明在评估和提升模型处理更广泛语言的视觉信息性能方面,仍有提升空间。

M3Exam 基准测试是评估语言模型如 GPT-4o 的进展和局限的有价值工具,它强调了多语言和多模态理解在实现更全面和包容性 AI 方面的重要性。

2.5、GPT-4o 的可用性和访问

GPT-4o 现已在 ChatGPT 的免费版以及 OpenAI 的高级 ChatGPT Plus 和团队计划的订阅者中提供,这些用户享有更高的消息限额。改进后的 ChatGPT 语音体验将在下个月为 Plus 用户推出测试版。面向企业的服务将随后推出。

随着新模型的推出,OpenAI 也更新了 ChatGPT 的网页用户界面,引入了更加对话式的首页和消息布局。现在,macOS 版本的 ChatGPT 桌面应用已经可用,Windows 版本计划在今年晚些时候推出。

GPT-4o-macos

2.6、为免费用户提供更多功能

GPT Store,即 OpenAI 提供的第三方聊天机器人库和创建工具,现在已经对 ChatGPT 免费版用户开放。

此外,之前需要付费的功能,如记忆功能、文件和照片上传以及网络搜索,现在已经向所有免费用户开放。

2.7、技术进步

GPT-4o 是 OpenAI 首个能够使用同一神经网络处理文本、视觉和音频输入输出的模型,从而实现更精细和集成的响应。该模型能够在短短 232 毫秒内响应音频输入,平均响应时间为 320 毫秒,与人类对话速度相当。此前,语音模式需要一系列独立的模型来完成转录和生成响应的任务。

GPT-4o 通过模态的端到端训练,能够直接感知并响应语调变化、多说话者情况和背景噪音,从而提供更加丰富的交互体验。

2.8、GPT-4o 的演示和未来潜力

在发布会上,OpenAI 通过各种演示展示了 GPT-4o 的能力,包括帮助用户在公开演讲前平复心情、分析面部表情以评估情绪等。该模型可以用不同的情感语气讲故事,甚至可以唱歌。

OpenAI 还在不断探索 GPT-4o 的潜力,例如解决数学问题、辅助编程以及充当翻译器等。GPT-4o 为开发人员和用户提供了一个强大的工具集,使其成为市面上其他 AI 助手的有力竞争者。

2.9、行业影响与伦理思考

OpenAI 的这一进步发生在一个竞争激烈的市场中,像 Microsoft 和 Google 这样的行业巨头也在争夺生成式 AI (Generative AI) 市场的领导地位。这些高级模型的快速进步和应用引发了关于技术影响及其潜在滥用的伦理担忧。

为了降低这些风险,OpenAI 计划首先向可信合作伙伴提供 GPT-4o 的音频功能,并强调了透明度和用户教育的重要性。公司致力于在探索复杂的伦理问题的同时,使 AI 交互更加自然和友好。

三、主要特性与创新

1)、卓越性能:GPT-4o 在人工智能性能上树立了新的标杆,其性能领先前一代顶尖模型 GPT-4 turbo 60 个评分点。这一进步使得 GPT-4o 在众多竞争模型中脱颖而出,如 Gemini 1.5 Pro、Claude 3 和 Llama 3–70B(The News International)(OpenAI)。

上图是来自 LMSys arena 的 Elo 评分图表。 LMSys arena 是一个用于评估大型语言模型性能的平台,通过让不同的模型相互竞争来确定其排名。 图中用红色圈出的 “im-also-a-good-gpt2-chatbot” 模型,正是 OpenAI 最新推出的 GPT-4o(“全模态(Omni)”)模型。

GPT-4o 的 Elo 评分比之前的顶级模型 GPT-4 turbo 高出 60 分,远远超过了 Gemini 1.5 Pro、Claude 3 和 Llama 3–70B(分别位列第 4、5、7 名) 等竞争对手。 虽然 GPT-4o 的性能提升令人惊叹,但这并非本次发布的重点。

2)、多模态功能:GPT-4o 最革命性的特点之一是其原生的多模态交互能力,能够流畅地处理和生成文本、音频、语音、视频和图像的响应。这一进步让我们向科幻小说中所描绘的 AI 助手迈进了一大步,它们能够进行实时互动并具有情感反应。

3)、可获取性与定价:OpenAI 采取了一项必将广受欢迎的举措,即向所有用户免费提供 GPT-4o。这一决策颠覆了现有的 AI 商业模式,竞争对手通常对不太先进的模型收取高额的订阅费用。ChatGPT Plus 用户仍将享有更高的使用限额(如提升至原限额的五倍)和优先访问权,但 GPT-4o 的核心功能将免费向所有人开放(The News International)(OpenAI)。GPT-4o API 比 4-turbo 快 2 倍且便宜 50%,这一变化立即使我们的解决方案整体增值(同样的结果,但速度更快、成本更低!)。

4)、效率与速度:GPT-4o 不仅功能更强,而且运行速度是 GPT-4 turbo 的两倍,成本却只有一半,这使得它成为开发者和企业在整合高级 AI 功能时的一个更具吸引力的选择(Engadget)。

四、总结

OpenAI 的 GPT-4o 是 AI 技术变革性的进步,它将文本、音频和视觉整合成一个协调且反应灵敏的模型。这一进展预示着 AI 交互将变得更加自然、吸引人且易于接触,为多模态 AI 系统设定了新的标杆。随着 GPT-4o 向用户和开发者的推广,它对 AI 应用和用户体验的影响将是深远和广泛的。

参考资料:

[1]. https://blog.samaltman.com/gpt-4o

[2]. https://www.thenews.com.pk/latest/1188659-openai-launches-gpt-4o-important-features-to-know

[3]. https://openai.com/gpt-4

[4]. https://www.engadget.com/gpt-4-turbo-is-openais-most-powerful-large-language-model-yet-211956553.html

[5]. https://www.windowscentral.com/software-apps/openais-sam-altman-and-bill-gates-interview

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/627668.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

北京玻色量子携手赛氪网举办长三角高校数学建模竞赛巡回讲座

2024年5月13日下午,一场聚焦数学建模与量子计算前沿的讲座在中国计量大学隆重举行。此次讲座作为第四届长三角高校数学建模竞赛的巡回宣讲活动之一,由北京玻色量子科技有限公司与竞赛组委会成员赛氪网共同举办,旨在向广大师生介绍量子计算的应…

华为 2024 届实习校园招聘-硬件通⽤/单板开发——第六套

华为 2024 届实习校园招聘-硬件通⽤/单板开发——第六套 部分题目分享,完整版带答案(有答案和解析,答案非官方,未仔细校正,仅供参考)(共十套,每套四十题选择题)获取(WX:…

渣土车上路识别报警摄像机

随着城市建设的不断推进,渣土车在城市道路上的数量也逐渐增加。然而,一些不法渣土车司机往往会超载、超速行驶或者闯红灯,给道路交通安全和城市环境带来了一定的隐患。为了有效监管渣土车上路行驶的情况,渣土车上路识别报警摄像机…

如何从集装箱的标准化启发软件的模块化设计?

目录 一、集装箱的历史发展 1、早期设想与萌芽 2、英国铁路初步应用 3、美欧多国发展 4、国际组织推动 5、海运集装箱兴起 6、标准化进程加速 7、联运格局形成 8、后续发展与影响 二、集装箱的标准化意义 三、集装箱的标准化与软件设计的模块化 1、集装箱标准化 2…

数字化校园与院校通的关系

数字化校园是以数字化信息和网络为根底,在计算机和网络技术上建立起来的对教育、科研、办理、技术服务、生活服务等校园信息的搜集、处理、整合、存储、传输和运用,使数字资源得到充沛优化运用的一种虚拟教育环境。经过完成从环境(包含设备&a…

USB3.0接口——(2)数据结构

1.数据结构 在 USB 3.0 及更高版本的 xHCI 协议中,“Rings”、“Transfer Request Block (TRB)” 和 “Transfer Descriptor (TD)” 是用于管理 USB 数据传输和事件的重要概念。 1.1.Rings Rings是指一种数据结构,用于组织和管理 USB 数据传输和事件。…

pdfMake,xlsx-js-style,elementTable表格导出大量数据的pdf和xslx表格

使用渲染dom传递给xlsx或将dom转canvas在传给jspdf数据量大都会造成页面负载过大 所以导pdf和xlsx都使用数据传递给pdfMake,xlsx-js-style,pdf涉及分页与合并单元格 一.pdf npm并引入pdfMake和其字体包(记录时使用版本0.2.10 import pdfMake from &qu…

【系统架构师】-案例篇(十二)MQTT、边缘计算与缓存一致性

1、MQTT是一个基于物联网的传输协议,用于轻量级的订阅发布的消息传输。旨在为低带宽和不稳定的网络环境中的物联网设备提供可靠的网络服务。 开放消息协议,简单易实现发布订阅模式,一对多消息发布基于TCP/IP网络连接,提供有序,无损…

【Vue开发】基于SSM++jsp的精品酒销售管理系统【源码+lw+部署文档+讲解】

目录 第一章 绪 论 第二章 关键技术的研究 2.1 JSP技术介绍 2.2 JAVA简介 2.3 ECLIPSE 开发环境 2.4 Tomcat服务器 2.5 MySQL数据库 第三章 系统分析 3.1 系统设计目标 3.2 系统可行性分析 3.3 系统功能分析和描述 3.4系统UML用例分析 3.4.1管理员用例 3.4.2用户用例 3.5系统流…

提升效率! 宏集助力客户实现仓储和物流系统的智能化改造

前言 在现代物流与仓储管理领域,自动存储和检索系统已日益普及,堆垛机和物流小车组合的仓储系统成为高效、精确存储和取货货物的关键。随着技术的进步,堆垛机的定位技术也在不断优化。传统堆垛机采用机械装置和导轨上的光电开关进行定位&…

成都欣丰洪泰文化传媒有限公司电商服务新典范

在数字化浪潮席卷而来的今天,电商行业作为新时代商业发展的重要引擎,正以其独特的魅力和无限潜力,吸引着越来越多的企业和个人投身其中。在这个充满机遇与挑战的领域中,成都欣丰洪泰文化传媒有限公司以其专业的电商服务&#xff0…

CTF如何学习?

CTF如何学习?打CTF有什么用 CTF本身有几个常见的领域 MISC WEB [逆向 密码学](https://www.zhihu.com/search?q逆向 密码学&search_sourceEntity&hybrid_search_sourceEntity&hybrid_search_extra{“sourceType”%3A"answer"%2C"sourc…

yolov8添加FPPI评价指标

这里写自定义目录标题 yolov8 中FPPI实现测试中调用 效果结语 续yolov7添加FPPI评价指标 。之前在yolov7中增加了fppi指标,有不少网友问有没有yolov8中增加,最近没有做算法训练,也一直没时间弄。这几天晚上抽了点时间,弄了一下。不…

Vue3 - 项目配置多环境配置文件

最常见的多环境配置,就是开发环境配置,和生产环境配置(也就是上线的配置),很多情况下我们开发环境下的域名,和一些配置项,和我们生产模式下的不同,这个时候就需要我们进行多环境配置,不然每次发版都要改一波数据多麻烦。 另一种情况就是你两个项目是用的一套代码,但是最…

一文全解聚碳酸酯PC材料在汽车灯罩制造中的诸多显著优势!汽车车灯的灯罩如果破损破裂破洞了要怎么修复?

聚碳酸酯PC材料在汽车灯罩制造中具有诸多显著优势。除了优异的抗冲击性、透明性、耐热性和稳定性外,还有以下一些重要优势: 出色的光学性能:PC材料的光学性能优异,能够确保灯罩内的光源均匀分布,减少光斑和眩光&#…

新人学习笔记值(初始JavaScript)

一、Java Script是什么 1.Java Script是世界上最流行的语言之一,是一种运行在客户端的脚本语言(script是脚本的意思) 2.脚本语言:不需要编译,运行过程中由js解释器(js引擎)进行解释并运行 3.现在…

3dmax材质库导入方法?3dmax云渲染速度体验

3ds Max 材质库包含多种素材,如金属、木材、布料和石材等,但用户在导入材质时常遇到问题。本文将介绍如何在3ds Max中成功导入材质,并探讨使用云渲染服务来加速渲染过程,提高项目效率。 一、3dmax材质库导入教程 自建材质导入方法…

胖东来5月生鲜陈列欣赏

【免责声明】:凡未注明来源的图文内容,版权归原作者所有。本平台所发稿件、图片均用于学习交流,不代表赞同文章观点和对其真实性负责,不用作商业用途。若文章涉及版权,请将马上联系,安排删除。

Google Chrome 设备工具栏原理

1.不同预览模式 2.计算出缩放比 3.固定滚动偏移 关键代码&#xff1a; overview&#xff1a; ratioW getChildRect().width / getParentRect().width ratioH getChildRect().height / getParentRect().height maxRatio max(ratioW, ratioH) if(maxRatio < 1) return 1 …

商业银行总分支数据分发的核心问题是什么?如何解决?

银行业对一个国家至关重要&#xff0c;关乎国计民生。银行为我国经济建设分配资金&#xff0c;是社会再生产顺 利进行的纽带&#xff0c;它能掌握和反应社会经济活动的信息&#xff0c;为企业和政府作出正确的经济决策提供 必要的依据。通过银行&#xff0c;可以对国民经济各部…