GPT-4o“成精了”:推测技术原理,附送“美国湾区”小道消息

be4f0469e0e34d38d5dd6005a2780c72.jpeg

原创:谭婧

如果你能跟上技术发展,那大多数技术提升都是按部就班,

偶而会有突破性进展。

如果你仅仅吃瓜,那OpenAI的所有新闻,

你都可以写成:

“改写历史”“干翻所有”“颠覆世界”。

真的颠覆世界了吗?

并没有。

按照正常进步速度和合理预期,

多模态大模型的性能必然会在2024上半年提升一步。

而且这一步大概率是闭源厂商引领。

毫不意外,模型GPT-4o被最先做出来了。

“Scaling laws依然奏效。”

美国国家工程院院士李飞飞教授的话又在耳旁想起。

无可否认,AI大模型的高速动荡发展期,

“突破”发生的频次高一些。

但到底值不值得说颠覆,

读完这篇文章,不如读者自己给出答案。

按照百图生科首席科学家宋乐对我说的原话就是:

“Only technical people knows what’s new”。

这句话的土味翻译是,

只有懂行的,才知道什么是新的

那些不了解来龙去脉的人。

只能高呼:“太厉害了”。

是挺厉害的,然后呢?

然后就没有然后了。

另外,那些写OpenAI如何厉害,

偷笑揶揄谷歌的人,

应该每时每刻都记起一个事实。

变形金刚(Transformer)是谷歌发明的。

很明显,OpenAI处处叫板谷歌,

无论从发布会的时间,还是从技术路线的攀升上。

谷歌的现状固然令人唏嘘,

但也不是被打倒在地,满地找牙。

还有很多人,

根本没有机会挤进时代的镜头。

2023年底谷歌Gemini发布,

很多人质疑谷歌演示视频造假,

但很多人无视了谷歌的雄心。

它想造多模态大模型。

图文音共同加持通用大模型,呼之欲出。

今天,谷歌去年的“录制视频”,

被OpenAI用几乎没有延迟的实时演示“复现”了。

往细致里说,谷歌发布的Gemini以“模型能力+少量后期剪辑”的方式,

展现了端到端多模态大模型巨大的想象空间。

而想象力空间里的期待,

五个月后,被OpenAI实现了。

确实是很厉害,

但我只能说,

OpenAI也是一家没有摆脱谷歌影响力的科技公司。

这里,我再讲一个“美国湾区传闻”:

今天发布的GPT-4o,有可能是一个没有炼好的GPT-4.5。

有没有可能,在地球上的某一个角落,有这样一轮对话:

员工问Leader:

“怎么截胡谷歌?

我们的GPT-4.5没有炼好。”

那位著名的Leader沉思片刻:

“那就先搞多模态的那个版本的功能,

然后在2024 Spring放出来吧。”

段子毕竟是段子。

笑笑,罢了。

再来一个“时间线索”,来自OpenAI API文档:

14df930b05cfe25a7f53dd25250c13bc.jpeg

下面,我们看看GPT-4o背后的算力。

2024年4月25日,

据OpenAI 总裁兼联合创办人布罗克曼(Greg Brockman)透露,

英伟达向该公司移交全球第一台DGX H200。

好货果然特供头部。

d1fd1b8e92b81401d8ca1162dd750be3.png

这个是目前世界上最强的人工智能硬件

比起上一代H100相比,H200在内存方面狠狠地“一把给够”。

内存带宽增加 1.4 倍,

内存容量增加 1.8 倍,

总内存带宽达到 4.8 TB/秒,

内存容量达到 141GB。

有了这个玩意,还在KV Cache上绣什么花呢?

N种模态的token一起搞也不怕了。

效率杠杠的。

什么内存瓶颈就是最大的瓶颈,

不存在的。

OpenAI的科学家可能会说,

这是你的瓶颈,不是我的瓶颈。

芯片强,就是这么豪横。

搞得谭老师我好想去美国“偷”东西,

还好我有法律观念。

有了H200,搞GPT-4o不香吗?

说完硬件,来说一下多模态大模型最核心的模型设计部分

也就是说,“贾维斯”上线,“HER”闯入生活的背后,

是什么样的模型架构在支持。

首先,肯定是一个原生的多模型大模型。

其次,图像,音频两个模态对齐于语言大模型。

从音频角度来讲,没有语言识别,没有语音合成,

因为音频数据已经能被当作token来直接理解了。

正是在这种前提下,

在短短232毫秒内,GPT-4o就能对音频输入做出反应。

大家会说,像人的反应一样快。

视觉信息亦如此。

Voken(Visual Token)这种特殊的Token。

已经能处理得很好了。

它甚至可以被随时打断,

模型在一边生成,一边感知。

也就是,边听边处理,边看边处理。

毕竟,ViT很好用。

ViT可以用一个已经训练好的,

LLM也可以用一个已经训练好的,

只去搭建并训练中间的过渡层就可以了。

这些成熟的东西,在2023年已经铺垫得很充分了。

LLAVA系列都做得很好了。

我相信OpenAI还能有办法做得更好,

毕竟,那么多聪明的脑袋在里面努力。

同时,我们还要清楚地认识到。

图像,音频两个模态的数据量可比文字文本的大多了。

非常消耗算力。

这一点又给算力不足的人,迎头痛击。

考虑到OpenAI不缺算力,那多模态训练数据量大的问题,

也不再是一个问题。

紧接着,

我再来用比较专业的方式,

把GPT-4o厉害之处总结一遍:

第一,看模型算法。

GPT-4o作为OpenAI的首个“端到端多模态大模型”,

在理解侧和生成侧原生支持语音、视觉、文本等模态,

将语音交互延时缩短到300ms左右,

这意味着向自然人机交互,而是以非常舒服地交互方式,

迈进了重要的一步。

此前,生硬呆板地交互与之相比,

是两个时期的产物。

后者,我就叫它“爽感交互”吧。

第二,看推理。

在“爽感交互”的情况下,

GPT-4o同时达到了与GPT-4 Turbo相当的能力和50%的推理成本,

商业推广和落地的空间一下就打开了。

GPT-4o的API当前仅支持文本和图像输入,

但从demo效果推测,

其在音频和视频的流式处理机制方面应存在独特之处,

已从当前主流的独立模态方式升级为并行处理模式。

AI Infra基础设施团队,功不可没。

最后,如果你想一口气了解多模态去年的全年进展,

我有一篇文章推荐,

《2023年终盘点:图文大模型编年简史》

很长,专为“收藏夹吃灰”而生。

如果在朋友圈转发,

你的朋友大概率会说,

哇撒,好厉害。

然后,就没有然后了。

(完)

One More Thing

谭老师我,头发掉得很厉害,

实在熬不了夜了。

今天早上起床后,看了昨晚的活动视频。

第一个电话打给武汉人工智能研究院易东博士。

第二个电话到美国。

我和易东博士聊起GPT-4o里的o是什么?

O是单词"Omni"的首字母。

中文意思——全能。

聊到这,我俩都笑了,

也说不清是傻笑,还是苦笑。

也是同样一个o,

时间可以追溯时间2021年7月,

OPT: Omni-Perception Pre-Trainer for Cross-Modal Understanding and Generation

这篇可以称为为国产紫东太初大模型打下多模态理解基础的论文,

这里的OPT的O,也是Omni。

这篇齐集武汉人工智能研究院王金桥,

刘静博士,张家俊博士三位大神的论文。

曾被我称为,保据“三模态”,深挖护城河。

紫东太初:造一个国产大模型,需用多少篇高质量论文?

方向就是这个方向,

把图像,音频两个模态对齐于文本,

统一在语言空间。

不是想不到,而是资源不到。

华为盘古的消息,

更是不准发,所以不能写。

但我想说的是,

没有落后很多,

追上去,尚有可能。

另外,紫东太初最近会有大事公布,

但我没有权利提前泄露此事。

总会知道的,

等新番更新吧。

只能聊到这里了,

要关电脑了。

下午,腾讯混元大模型有个内部交流会,

我接到线报,腾讯混元团队的芦清林,

会在北京市朝阳区天辰东路1号院的亚洲金融大厦出现。

我得去堵他。

拜了个拜。

(完)

623885137c9ab1c41ab092e5eb36f626.jpeg

71df35fc401576debfd7ba21aa36d2ef.jpeg

《我看见了风暴:人工智能基建革命》,

作者:谭婧

a1d030c265eb4c4edc9b3cc40fee030b.jpeg

更多阅读

长文系列

1. 2023年终盘点:图文大模型编年简史

2. 跳槽去搞国产大模型,收入能涨多少?

3. 大模型下一场战事,为什么是AI Agent?

4. 假如你家大模型还是个二傻子,就不用像llya那样操心AI安全

5. 指令数据:训练大模型的“隐形助力”

6. 对话百度孙珂:想玩好AI Agent,大模型的“外挂”生意怎么做?

7. 再造一个英伟达?黄仁勋如何看待生物学与AI大模型的未来?

8. 科大讯飞刘聪:假如对大模型算法没把握,错一个东西,三个月就过去了

9.美国AI芯片公司“赢”大模型?Samba-CoE v0.2超过多个业界知名对手

10.美国玩大模型那帮人:好几万卡集群+超级节点

11.如何辨别真假“AI刘强东”?10亿参数,数字人实时生成视频

漫画系列

1. 搞掂大模型,如何榨干每一滴算力?

2. 大模型用于腾讯广告,难在哪?

3. 卷大模型开源,正确姿势是什么?

4. 腾讯混元大模型“干”广告创意:那我走,都让AI来?

5. AI大模型技术路线之争:你可以信仰多模态,也可以无视多模态

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/631023.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

ue引擎游戏开发笔记(41)——行为树的建立(2)--丰富ai行为:巡逻后返回原处

1.需求分析: 就敌人ai而言,追踪到敌人有可能丢失目标,丢失目标后应该能返回原来位置,实现这一功能。 2.操作实现: 1.思路:利用clear value函数,禁用掉当前的追踪功能,执行之后的返…

Git项目管理——提交项目和版本回退(二)

个人名片: 🎓作者简介:嵌入式领域优质创作者🌐个人主页:妄北y 📞个人QQ:2061314755 💌个人邮箱:[mailto:2061314755qq.com] 📱个人微信:Vir2025WB…

SSL证书对于网络安全的重要作用

SSL证书是一种数字证书,它通过加密技术确保了客户端(如浏览器)与服务器之间的数据传输安全。当一个网站安装了SSL证书后,用户在浏览器地址栏中可以观察到HTTPS(超文本传输安全协议)前缀和挂锁图标&#xff…

聚鼎科技:装饰画行业到底怎么样

在当代社会,随着人们审美水平的提升和生活品质的追求,装饰画行业呈现出蓬勃的发展态势。这一行业不仅关系到文化艺术的传承与创新,也与市场经济紧密相连,其前景值得深入探讨。 装饰画行业的市场潜力巨大,它贯穿于家居装…

Git使用(4):分支管理

一、新建分支 首先选择Git -> Branches... 然后选择 New Branch,输入新分支名称,例如dev。 可以看到右下角显示已经切换到新建的dev分支了。 push到远程仓库,可以看到新添加的分支。 二、切换分支与合并分支 为了演示合并分支&#xff0c…

【opencv】答题卡判分实验

实验环境: anaconda、jupyter notebook 实验用的包:numpy、matplotlib、opencv 实验的目的还是以熟悉图像的透视变换、轮廓特征提取为主要目的 关于如何判断答题卡被选项:通过几个覆盖备选项的掩膜与原二值图像想与,最终整个图像…

Python100个库分享第23个—wordcloud(词云图)

目录 专栏导读库的介绍库的安装基础使用1:将TXT文本转为词云图基础使用2:使用自定义字体和形状基础使用3:中文词云图停用词(中英文版)-代码是中文版总结 专栏导读 🌸 欢迎来到Python办公自动化专栏—Python处理办公问题&#xff0…

JavaWeb--18 tlias-web-management 登录认证

登录认证 1 登录功能功能开发 2 登录校验2.1 问题分析2.2 会话技术CookieSession令牌技术 2.3 JWT令牌介绍生成和校验登录下发令牌 2.4 过滤器Filter拦截路径过滤器链 登录校验-Filter 2.5 拦截器InterceptorInterceptor详解执行流程 登录校验- Interceptor 3 异常处理3.1 当前…

文本分类TextRCNN模型(pytorch实现)

文本分类TextRCNN模型 RCNN简介TextRCNN模型介绍TextRCNN代码(文本10分类) RCNN简介 从之前的文章中介绍过RNN的优点是能够捕捉到序列的时序信息,这可能有利于捕获长文本的语义。但是RNN对于文本序列后面的单词获取到的语义会更多&#xff0…

Python 全栈体系【四阶】(四十五)

第五章 深度学习 十、生成对抗网络(GAN) 1. 图像生成技术概述 1.1 什么是图像生成技术 图像生成技术是指利用机器学习或深度学习等人工智能技术,通过训练模型来生成逼真的图像。这些技术可以根据给定的输入,生成与真实图像相似…

线性系统(二)

线性系统(二) 1.直观理解线性方程组结构2. 不同解的结论3. 更一般的高斯-约旦消元法4.齐次线性方程组 链接: 线性系统(一) 1.直观理解线性方程组结构 长这样,方程就有解,即相交坐标。 长这样,…

《天空之城》观后感

曾经很长一段时间都着迷于《天空之城》这段旋律,一遍一遍不厌其烦地听,静谧而温馨、豪迈却苍凉,各种复杂的感受随着起伏的音符流淌进心里。多年之后才知道这首曲子出自宫崎骏的同名动画电影。说来也有意思,似乎大多数人是通过电影…

如何配置静态住宅IP?

静态住宅IP是指专为家庭网络环境设计的固定IP地址,通常由互联网服务提供商(ISP)为家庭用户提供。这种IP地址在其生命周期中保持不变,除非由于某些外部因素(如ISP更改策略)或用户请求更改。相比于动态IP地址…

css设置滚动条的样式

/* 滚动条样式 *//* 定义滚动条整体的宽度和轨道的背景颜色 */::-webkit-scrollbar {width: 10px;/* 对于垂直滚动条的宽度 */height: 10px;/* 对于水平滚动条的高度,可选 */}/* 定义滚动条轨道的样式 */::-webkit-scrollbar-track {background-color: rgba(0, 0, 0…

全新多语言海外抢单刷单系统源码 订单自动匹配 支持分组 代理后台

安装教程 测试环境:Nginx PHP7.0 MySQL5.6 config/database 修改数据库 设置运行目录public 伪静态thinkphp 后台登录地址:/admin 账号admin 密码admin123 前端出现报错 删除runtime文件夹得缓存文件即可 源码免费下载地址抄笔记 (chaobiji.cn)

机器人非线性系统反馈线性化——Brunovsky标准型

Brunovsky Canonical Form 机器人非线性系统的反馈线性化,特别是涉及到Brunovsky标准型,是现代控制理论中的一个重要话题。反馈线性化是一种非线性控制设计方法,其核心思想是通过设计反馈控制器,将非线性系统转化为线性系统。这种…

windows驱动开发-PCI讨论(一)

前面描述中断的时候,我们曾经多次体积PCI,甚至提供了一些PCI的相关知识,但是整个PCI是一个很大的体系,专门记录这个体系超出了这个系列的范畴,有兴趣的可以到PCI官网了解详细的情况。 但是还是会花费一些时间讨论PCI技…

Python 全栈体系【四阶】(四十四)

第五章 深度学习 九、图像分割 3. 常用模型 3.4 DeepLab 系列 3.4.3 DeepLab v3(2017) 在DeepLab v3中,主要进行了以下改进: 使用更深的网络结构,以及串联不同膨胀率的空洞卷积,来获取更多的上下文信…

Spark RDD案例:统计网站每月访问量

这个项目利用Spark技术,通过统计网站访问记录中的日期信息,实现了对每月访问量的统计和排序。通过分析数据,我们可以了解到不同月份的网站访问情况,为进一步优化网站内容和推广策略提供数据支持。 使用Spark统计网站每月访问量 …

平芯微PW4056HH中文规格书

概述 PW4056HH 是一款完整的采用恒定电流/恒定电压的高压、大电流、单节锂离子电池线性充电 IC。充电电流可达 1A。输入 MAX 低工作电压 3.75V,降低充电功耗,提高效率。 PW4056HH 采用了内部 PMOS 架构,加上防反充电路,不需要外部…