OpenAI春季更新:GPT-4o模型来了!!

昨晚OpenAI直播发布了春季更新,推出了GPT-4o模型。这个模型是继gpt-4-turbo之后官方定义的新旗舰模型,可以实时对音频、视觉和文本进行推理。

它真的让人觉得,AGI又更近一步了!!

GPT-4o介绍

GPT-4o(“o”代表“omni”,意为“全能的”)接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像的任意组合输出。

真正的多模态大模型

在 GPT-4o 之前,ChatGPT 对话也是支持语音模式的。原来的语音模式是由三个独立模型组成的管道:

  1. 一个简单模型将音频转录为文本

  2. GPT-3.5 或 GPT-4 接收文本并输出文本

  3. 简单模型将该文本转换回音频。

这个过程意味着在第二个步骤的智能模型交互的时候,已经丢失了大量信息——它无法直接观察音调、多个说话者或背景噪音,也无法输出笑声、歌唱或表达情感。

所以OpenAI通过GPT-4o模型,跨文本、视觉和音频端到端地训练了一个新模型,这意味着所有输入和输出都由同一神经网络处理。不只是一个多模态的输入,还是一个能处理多模态的大脑!这种实现方式也注定GPT-4o拥有更优秀的视觉和音频理解。

更快的响应速度

之前的语音模式,GPT-3.5的平均延迟为 2.8 秒 , GPT-4的平均延迟为 5.4 秒 。

而GPT-4o响应音频输入的平均时间为 320 毫秒,有时甚至达到 232 毫秒,已经接近人类在谈话中的响应时间了。

更高的性价比

GPT-4o在英语文本和代码上的性能与 GPT-4 Turbo 的性能相匹配,同时 API 的速度也更快,成本降低了近 50%。

中文token计数减少 1.4 倍。例如以下这段文字的token从原先的34个减少到24个。

你好,我的名字是GPT-4o。我是一种新型的语言模型,很高兴见到你!

GPT-4o交互演示

以下是官方提供的GPT-4o人机交互演示视频

  • 流畅的对话体验

  • 实时视频画面理解能力

  • 接近真人的情绪表达

你看完是不是也觉得跟一个真人在视频通话没有什么区别😧。

gpt-4o人机交互演示

在图文能力上,GPT-4o也变得更加优秀

图片

官方功能开放情况

  • 目前GPT-4o已经灰度对部分ChatGPT普通用户免费开放,限制是10次/3小时;

  • 对所有的ChatGPT Plus用户开放,限制是50次/3小时。未来几周内,将在 ChatGPT Plus 中推出新版语音模式 GPT-4o 的 alpha 版(需要购买Plus的可私信);

  • 已开放API 中访问 GPT-4o 作为文本和视觉模型。

智能文本接入进度

目前API已经支持gpt-4o模型的调用,但是由于官方API能力还没完全开放,所以暂时还不支持多模态输入。后续会优先基于Plus的逆向实现全功能支持,敬请关注!

AGI还有多远

AGI,即人工通用智能(Artificial General Intelligence),是指一种具有广泛认知能力的人工智能系统,这种能力类似于人类的智能。与目前广泛使用的专用或窄域人工智能(AI)不同,AGI可以在多种非专门化的任务中理解、学习和应用知识,理论上能够像人类一样进行推理、解决问题、理解复杂的概念、计划、学习和使用语言。

GPT-4o 是OpenAI第一个真正的能够处理多元信息的大模型,它的信息输入和信息处理机制都更加接近人类。如果真的能够将这些数据完整地处理完,那AI所理解的这个世界,还有认知,应该是和人类趋同的,也就是可以实现真正的AGI了,甚至超过人类。

音视频与文本数据之间一个显著的区别是它们在信息密度上的差异。例如,1分钟长的视频,即使是在标准的压缩格式下,其数据大小也可能是几十到几百兆字节(MB);相比之下,1分钟的纯文本(如会议记录或对话),即使包含详尽的信息达到1000个汉字,其数据大小也只有3千字节(KB)。更多的信息处理意味着更复杂的逻辑能力和处理能力,换成大模型就是更多参数的模型和更多的算力。

人类大脑的神经元数量级是140亿~160亿,目前GPT4模型的参数个数是1750亿,所以可能GPT4的逻辑能力已经可以达到人脑的程度了。至于算力,就像从一年前使用GPT4的龟速吐字,到现在已经和正常人说话般流利一样,根据新旧摩尔定律,算力早晚会有的,或者说现在集中算力造就几个AGI又有什么问题呢?

在此背景下,OpenAI推出的GPT-4o模型确实让我们看到了多模态学习在模仿人类的信息处理方式上的巨大潜力。它不仅仅是技术的一次飞跃,更是对未来AGI实现路径的一种探索。

在OpenAI官网的介绍中写着,他们的使命是 

“确保AGI造福全人类”

然后下面还有一句话是:

“随着我们的系统越来越接近 AGI,我们对模型的创建和部署变得越来越谨慎。”

我们也在这个GPT-4o的介绍页面上看到,OpenAI对于新模型安全性做出的努力和说明。

我们根据我们的准备框架并按照我们的自愿承诺评估了 GPT-4o 。我们对网络安全、CBRN、说服力和模型自主性的评估表明,GPT-4o 在这些类别中的任何类别中的得分都不高于中等风险。该评估涉及在整个模型训练过程中运行一套自动化和人工评估。我们使用自定义微调和提示测试了模型的安全缓解前和安全缓解后版本,以更好地激发模型功能。GPT-4o 还与社会心理学、偏见和公平以及错误信息等领域的 70 多名外部专家进行了广泛的外部团队合作,以识别新添加的模式引入或放大的风险。我们利用这些经验来制定安全干预措施,以提高与 GPT-4o 交互的安全性。我们将继续降低发现的新风险。

OpenAI

但是,大语言模型本身就是一个黑盒,人类可以把它制造出来,但是之后它在1750亿个参数的一次次输入之后学习到了什么,是否一次次简单的学习之后产生了质变,或者所谓独立的思想,这个无从知晓。

人类对于未知总是充满好奇和恐惧👽

愿AGI真正到来的那一天,人类已经做好了准备。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/625181.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

前端工程化 - 快速通关 - ES6

目录 ES6 1.1 let 1.2 const 1.3解构 1.4链判断 1.5参数默认值 1.6箭头函数 1.7模板字符串 1.8Promise 1.9Async 函数 1.10模块化 ES6 ●ECMAScript(ES) 是规范、 JavaScript 是 ES 的实现 ●ES6 的第一个版本 在 2015 年 6 月发布&#xff0c…

相机模型,坐标变换,畸变

小孔成像模型 墨子就记录了小孔成像是倒立的。这从几何光学的角度是很好理解的:光沿直线传播,上方和下方的光线交叉,导致在成像平面位置互换。 小孔的大小有什么影响? 小孔越大,进光量变大了,但是成像平…

微信加粉计数器

1.采用非注入式开发,支持无限多开 2.每个账号都有独立的分组,实时远程网页数据分享 3.后台功能强大,操作简单,自动去重复,准确计数分秒不差

【Python】理解WOE(Weight of Evidence)和IV(Information Value)

忠孝东路走九遍 脚底下踏著曾经你我的点点 我从日走到夜 心从灰跳到黑 我多想跳上车子离开伤心的台北 忠孝东路走九遍 穿过陌生人潮搜寻你的脸 有人走的匆忙 有人爱的甜美 谁会在意擦肩而过的心碎 🎵 动力火车《忠孝东路走九遍》 在信用评分和…

可视化 FlowChart 0.4.1 最强的拖拽组件

主要解决以及目标: ti-flowchart 能满足 二次开发的大部分需求。 下发GIF图可见,左边的模块A 由二次开发人员设计,通过向flowchart注册模块Dom,实现符合拖拽,编辑,布局,以及响应事件上抛。 实…

Debian12安装后更换为国内镜像源,切换root用户,解决用户名不在sudoers文件中此事将被报告

选择Debian作为编程开发最佳Linux的理由: Debian是面向程序员的最古老,最出色的Linux发行版之一。Debian提供了具有.deb软件包管理兼容性的超稳定发行版。Debian为程序员提供了许多最新功能。因此,它具有一个特殊的编程空间。Debian是开发人员…

第十六节:图 (20节)

一 图的概念 1)由点的集合和边的集合构成 2)虽然存在有向图和无向图的概念,但实际上都可以用有向图来表达 3)边上可能带有权值 二 图结构的表达 1)邻接表法 2)邻接矩阵法 3)除此之外还有其他众多…

adminlte 日期控件设置值

1,属性设置 $(function () {//Date range picker with time picker$(#reservationtime-1).daterangepicker({timePicker: false,timePickerIncrement: 1,timePicker24Hour: true,autoApply: true,singleDatePicker: true,locale: {format: YYYY-MM-DD,daysOfWeek: …

探讨 cs2019 c++ 的STL 库中的模板 conjunction 与 disjunction

(1)在 STL 库源码中这俩模板经常出现,用来给源码编译中的条件选择,模板的版本选择等提供依据。先给出其定义: 以及: 可以得出结论: conj 是为了查找逻辑布尔型模板参数中的第一个 false &#x…

JS中的宏任务和微任务

JavaScript 引擎是建立在一个事件循环系统之上的,它实时监控事件队列,如果有事件就执行,如果没有事件就等待。事件系统是一个典型的生产消费模式,生产者发出事件,接收者监听事件,在UI 开发中是常见的一个设…

LVM - Linux磁盘逻辑卷管理器概念讲解及实践

1、lvm概念 逻辑卷管理器(LogicalVolumeManager)本质上是一个虚拟设备驱动,是在内核中块设备和物理设备之间添加的一个新的抽象层次,它可以将几块磁盘(物理卷,PhysicalVolume)组合起来形成一个存储池或者卷组(VolumeGroup)。LVM可以每次从卷组中划分出不同大小的逻辑卷(Logi…

InternLM-XComposer2-4KHD开拓性的4K高清视觉-语言模型

大型视觉-语言模型(LVLM)在图像字幕和视觉问答(VQA)等任务中表现出色。然而,受限于分辨率,这些模型在处理包含细微视觉内容的图像时面临挑战。 分辨率的限制严重阻碍了模型处理含有丰富细节的图像的能力。…

推荐5个实用的工具软件,提高效率

​ 现在,有很多实用的工具和软件可以帮助我们更高效地完成各种任务。以下是几个值得推荐的工具和软件,能够极大地提高我们的工作效率。 1.浏览器插件——SuperCopy ​ SuperCopy是一款浏览器插件,主要用于增强网页文本的复制功能。它解决了…

SQL注入工具sqlmap安装使用详解靶场实验

★★免责声明★★ 文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与学习之用,读者将信息做其他用途,由Ta承担全部法律及连带责任,文章作者不承担任何法律及连带责任。 1、sqlmap简介 sqlmap 是一款开源的渗透测试工具&#…

主从Reactor服务器

目录: 目录: 目标: 本文讲解思路: 各模块的功能以及代码: 1.服务器相关模块:服务器模块的功能是对所有的连接以及线程进⾏管理 2.协议相关模块:协议模块是对当前的Reactor模型服务器提供应…

全球排名第一的质量管理(QMS)系统介绍,100%免费开源

什么是Odoo全程质量管理? 开源智造Odoo免费开源质量管理系统将政策、标准和实践规范化并自动化,以最小的开销提供最高质量的产品。快速轻松地选择要执行的测试,设置参数以评估结果,并定义接收时和生产过程中的测试策略。Odoo会自动…

Vue 快速入门:Vue初级

语法规则 前端渲染 渲染有几种方式:原生js、js模板、Vue模板语法 原生js 使用字符串拼接 js模板语法 Vue.js 模板语法概述 Vue.js 是一个用于构建用户界面的渐进式框架,其模板语法非常灵活和直观。Vue 的模板语法基于 HTML,可以通过指令…

达梦sql中参数个数太多导致出现SOH等特殊字符报错无效的序列号是不是达梦的bug

mybatis的Mapper.xml中如下: in中的参数大概有1万6千多个,分成每1000个一组拼接成sql,然而在达梦中执行时报如下: Caused by: dm.jdbc.driver.DMException: Invalid sequence noat dm.jdbc.driver.DBError.throwException(DBError.java:710)…

号卡极团分销管理系统 ue_serve.php 任意文件上传漏洞复现

0x01 产品简介 号卡极团分销管理系统,同步对接多平台,同步订单信息,支持敢探号一键上架,首页多套UI+商品下单页多套模板,订单查询支持实时物流信息、支持代理商自定义域名、泛域名绑定,内置敢探号、172平台、号氪云平台第三方接口以及号卡网同系统对接! 0x02 漏洞概述…

web入门练手案例(一)

下面是一下web入门案例和实现的代码,带有部分注释,倘若代码中有任何问题或疑问,欢迎留言交流~ 新闻页面 案例描述: 互联网的发展使信息的传递变得方便、快捷,浏览新闻称为用户获取信息的重要渠道。下面将实现一个简…