【Open AI】GPT-4o深夜发布:视觉、听觉跨越式升级

北京时间5月14日1点整,OpenAI 召开了首场春季发布会,CTO Mira Murati 在台上和团队用短短不到30分钟的时间,揭开了最新旗舰模型 GPT-4o 的神秘面纱,以及基于 GPT-4o 的 ChatGPT,均为免费使用。

本文内容来自OpenAI网站对GPT-4o的详细介绍

我们宣布推出GPT-4o,这是我们的新型旗舰模型,可以在音频、视觉和文本之间进行实时推理。

GPT-4o(“o”代表“omni”)是实现更为自然人机交互的重要一步——它接受文本、音频、图像和视频任意组合的输入,并生成文本、音频和图像输出的任意组合。它可以在短至232毫秒内对音频输入做出响应,平均响应时间为320毫秒,这与人类在对话中的响应时间相似(新窗口中打开)。它在英语文本和代码方面与GPT-4 Turbo性能相匹配,在非英语文本方面有显著提升,同时在API中速度更快,成本降低了50%。与现有模型相比,GPT-4o在视觉和音频理解方面尤其出色。

在GPT-4o之前,您可以使用语音模式与ChatGPT进行对话,GPT-3.5和GPT-4的平均延迟分别为2.8秒和5.4秒。为了实现这一点,语音模式由三个单独的模型组成:一个简单模型将音频转录为文本,GPT-3.5或GPT-4接收文本并输出文本,第三个简单模型将该文本转换回音频。这个过程意味着,智能的主要来源GPT-4会丢失大量信息——它无法直接观察到语调、多个说话者或背景噪音,也无法输出笑声、歌声或表达情感。

通过GPT-4o,我们训练了一个单一的跨文本、视觉和音频的端到端新模型,这意味着所有的输入和输出都由同一个神经网络处理。由于GPT-4o是我们第一个结合所有这些模式的模型,我们仍在探索该模型能够做什么以及其局限性。

根据传统基准测试的结果,GPT-4o在文本、推理和编码智能方面达到了GPT-4 Turbo级别的性能,同时在多语言、音频和视觉能力方面创下了新的高标准。

改进推理能力 - GPT-4o在0次推理链MMLU(常识性问题)上创下了88.7%的新高分。所有这些评估都是通过我们新的简单评估库收集的。此外,在传统的5次无推理链MMLU上,GPT-4o创下了87.2%的新高分。(注:Llama3 400b仍在训练中)

音频ASR(自动语音识别)性能 - GPT-4o在所有语言上的语音识别性能都显著优于Whisper-v3,尤其是对于资源较少的语言。

音频翻译性能——GPT-4o在语音翻译方面树立了新的技术标杆,并在MLS基准测试中表现优于Whisper-v3。

M3Exam——M3Exam基准测试既是一项多语言评估,也是一项视觉评估,它包括来自其他国家标准化测试中的多项选择题,这些题目有时会包含图表和图示。GPT-4o在这个基准测试上的所有语言表现都优于GPT-4。(我们省略了斯瓦希里语和爪哇语的视觉结果,因为这些语言的视觉问题只有5个或更少。

视觉理解评估——GPT-4o在视觉感知基准测试中取得了最先进的性能。所有的视觉评估都是0次推理,其中MMMU、MathVista和ChartQA为0次推理链。

语言标记化
选择这20种语言是为了代表新标记器在不同语系中的压缩性

模型的安全性和局限性

GPT-4o在设计时就内置了跨模态的安全性,通过筛选训练数据和训练后精炼模型行为等技术来实现。我们还创建了新的安全系统,为语音输出提供保护。

我们根据我们的准备框架和自愿承诺对GPT-4o进行了评估。我们对网络安全、CBRN、说服力和模型自主性的评估表明,GPT-4o在这些类别中的任何一个都没有超过中等风险。这一评估涉及在整个模型训练过程中运行一套自动化和人工评估。我们测试了模型的安全缓解前和安全缓解后的版本,使用自定义的微调和提示,以更好地发挥模型的能力。

GPT-4o还经过了70多名外部专家的广泛外部红队测试,这些专家来自社会心理学、偏见和公平性以及虚假信息等领域,以识别新增模态引入或放大的风险。我们利用这些经验来建立我们的安全干预措施,以提高与GPT-4o交互的安全性。我们将继续缓解新发现的风险。

我们认识到,GPT-4o的音频模态带来了各种新的风险。今天,我们公开发布了文本和图像输入以及文本输出。在接下来的几周和几个月里,我们将致力于技术基础设施、训练后的可用性和发布其他模态所必需的安全性。例如,在发布时,音频输出将仅限于一组预设的声音,并将遵守我们现有的安全政策。我们将在即将发布的系统卡中分享更多关于GPT-4o全模态的详细信息。

通过我们对模型的测试和迭代,我们观察到了模型所有模态中存在的几个局限性,其中一些如下所示。

我们非常希望收到反馈,以帮助识别GPT-4 Turbo仍然优于GPT-4o的任务,这样我们可以继续改进模型。

模型可用性

GPT-4o是我们在深度学习领域推动边界的最新一步,这次是在实际可用性的方向上。在过去两年中,我们花费了大量精力改进堆栈每一层的效率。作为这项研究的第一个成果,我们能够更广泛地提供一个GPT-4级别的模型。GPT-4o的功能将迭代推出(从今天起扩大红队访问权限)。

GPT-4o的文本和图像功能今天开始在ChatGPT中推出。我们在免费层中提供GPT-4o,并为Plus用户提供高达5倍的信息限制。在未来几周内,我们将在ChatGPT Plus中以alpha版本推出带有GPT-4o的新版语音模式。

开发人员现在还可以通过API作为文本和视觉模型访问GPT-4o。与GPT-4 Turbo相比,GPT-4o的速度快2倍,价格低一半,并且速率限制高5倍。我们计划在未来几周内通过API向一小群可信赖的合作伙伴推出对GPT-4o新的音频和视频功能的支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/632504.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

微服务架构:注册中心 Eureka、ZooKeeper、Consul、Nacos的选型对比详解

微服务架构(Microservices Architecture)是一种基于服务拆分的分布式架构模式,旨在将复杂的单体应用程序拆分为一组更小、更独立的服务单元。这些服务单元可以独立开发、测试、部署,并使用不同的技术栈和编程语言。它们通过轻量级…

外贸业务中的12个“坑”,你踩到了吗?

在竞争激烈的外贸领域,企业在拓展市场的同时,也面临着各种潜在的陷阱和风险。对于外贸公司而言,如何在复杂的交易过程中识破陷阱,防范潜在风险,成为确保企业长远发展的关键一环。 以下是一些外贸企业可能遇到的陷阱&a…

Nebula街机模拟器 Mac移植版(400+游戏roms)汉化版

nebula星云模拟器是电脑上最热门的街机游戏模拟器之一,玩家可以通过这个小巧的模拟器软件进行多款经典街机游戏启动和畅玩,本次移植的包含400多款游戏roms,经典的三国志、三国战纪、拳皇、街霸、合金弹头、1941都包含在内。 下载地址&#xf…

电感式传感器

电感传感器是基于电磁感应原理,将被测非电量(如位移、压力、振动等)转换为电感量变化的一种结构性传感器。利用自感原理的有自感式传感器(可变磁阻式),利用互感原理的有互感式(差动变压器式和涡…

aigc在前端中的应用-CodeGeex

前言:目前市场上优秀的智能编程助手有很多,其中以GitHub Copilot,Tabnine为最,但是目前这两款优质的智能编程助手都是需要付费的。如果不选择花费的话,在这里我们向小伙伴推荐免费的智能编程助手codegeex,性…

嵌入式——AStyle格式化工具

🎬 秋野酱:《个人主页》 🔥 个人专栏:《Java专栏》《Python专栏》 ⛺️心若有所向往,何惧道阻且长 文章目录 keil配置快捷键配置 AStyle(Artistic Style)是一个开源的代码自动格式化工具,可以用于自动化代…

## 23 使用BERT进行文本分类:PyTorch实战指南

文章目录 前言理解BERTPyTorch环境搭建数据准备模型建立训练模型模型评估与应用结论 前言 文本分类是自然语言处理(NLP)领域的一项基本任务,它的目的是将一个文本序列指派到一个或多个类别中。这项技术被广泛应用于垃圾邮件检测、情感分析、…

月薪20K+的策划人简历应该怎么写?

一般咱们大多数策划在写简历前,都是先直接找模板,然后按照模板的框架直接往里面填内容。 最后草草收场,直接拿去海投简历,结果发现没有拿到任何面试邀约。 策划写简历前的第一件事要梳理自己的能力模型和岗位JD。 因为只有先梳…

做DFMEA最难点,功能分析如何做?——FMEA软件

​免费试用FMEA软件-免费版-SunFMEADFMEA,即设计失效模式与影响分析,是一种在产品设计阶段就预见并预防潜在失效模式的重要工具。然而,在DFMEA的众多步骤中,功能分析无疑是其中的一大难点。它要求我们深入理解产品的各个系统、部件…

Excel 计算多个日期区间的交集中的工作日数

Excel表格有多对起止时间形成了区间组,如B3:C3共12组时间区间 ABCDEF12Ramadan StartsRamadan Ends323-Apr-2022-May-20Date11-Apr-24412-Apr-2111-May-21Date212-Apr-2452-Apr-221-May-22Expected6622-Mar-2320-Apr-23Caculated710-Mar-248-Apr-24828-Feb-2529-Ma…

ArcGIS arcpy代码工具——关于标识码的那些事(查找最大标识码、唯一性检查、重排序、空值赋值)

系列文章目录 ArcGIS arcpy代码工具——批量对MXD文件的页面布局设置修改 ArcGIS arcpy代码工具——数据驱动工具批量导出MXD文档并同步导出图片 ArcGIS arcpy代码工具——将要素属性表字段及要素截图插入word模板 ArcGIS arcpy代码工具——定制属性表字段输出表格 ArcGIS arc…

碳纳米管须状触嗅觉多模态融合传感器在皮革奢侈品真伪鉴定下的设计探索

一、设计方案 1.传感器选择 触觉传感器:选择基于碳纳米管(CNT)聚合物的柔性MEMS触觉微传感器,由于碳纳米管具有高度的灵敏度和选择性、柔韧性,可以作为触觉传感器,检测材料的微观结构和机械特性。嗅觉传感…

防火墙组网

防火墙的职责 控制和防护——在安全策略上即可体现,防火墙可以根据安全策略来抓取流量,之后做出对应的动作。吞吐量表示防火墙同一时间处理的数据量。传统防火墙(包过滤防火墙),相当于一个严格的规则表,和ACL(访问控制…

vue3 ElementUI 日期禁选当日前, 当日后,3天后

今日之前禁用 代码: ( 主要是 :disabledDate“disabledDateFun” ) <el-date-picker v-model"queryForm.selectedDate"type"date"range-separator"-"placeholder"选择日期":disabledDate"disabledDateFun" clearable /&…

性能测试工具—jmeter的基础使用

1.Jmeter三个重要组件 1.1线程组的介绍&#xff1a; 特点&#xff1a; 模拟用户&#xff0c;支持多用户操作多个线程组可以串行执行&#xff0c;也可以并行执行 线程组的分类&#xff1a; setup线程组&#xff1a;前置处理&#xff0c;初始化普通线程组&#xff1a;编写…

echers配置项:数据过多时,折叠数据缩放查看

当数据过多时&#xff0c;如上图所示的时间点&#xff0c;会自动折叠&#xff0c;此时鼠标缩放还不起作用&#xff0c;我们配置如下代码 let option {dataZoom: [{startValue: 05:00}, // 这个值需要跟 第一条 时间数据对应上{type: inside}], }配置后&#xff0c;就可以进行…

6个黑科技网站,用过才知真的好!

AI视频生成&#xff1a;小说文案智能分镜智能识别角色和场景批量Ai绘图自动配音添加音乐一键合成视频https://aitools.jurilu.com/ 迅捷画图 网址&#xff1a;weavesilk.com/ 这个网站虽然不怎么好玩&#xff0c;但确实是一个很好用的思维导图和流程图在线制作网站&#xff0…

哪款桌面便签app能帮助我提升工作效率

作为上班族&#xff0c;我们每天都要处理大量的工作事项&#xff0c;从策划方案到处理邮件&#xff0c;每一个环节都需高效且有条不紊。在这样的工作环境下&#xff0c;提升效率显得尤为重要。而选择一款优秀的桌面便签app&#xff0c;无疑是提高工作效率的关键。 桌面便签app…

对话YashanDB CTO陈志标:如何推动国产数据库长远发展

深圳计算科学研究院&#xff08;以下简称“深算院”&#xff09;是深圳市人民政府2018年11月批准建设的“十大基础研究机构”之一&#xff0c;由深圳市科技创新委员会主管、深圳大学举办、深圳市龙华区人民政府共建的二类事业法人单位。 崖山数据库系统YashanDB是深算院完全自主…

[论文笔记]Corrective Retrieval Augmented Generation

引言 今天带来论文Corrective Retrieval Augmented Generation的笔记&#xff0c;这是一篇优化RAG的工作。 大型语言模型(LLMs) inevitable(不可避免)会出现幻觉&#xff0c;因为生成的文本的准确性不能仅仅由其参数化知识来确保。尽管检索增强生成(RAG)是LLMs的一个可行补充…