ChatGPT-4o 有何特别之处?

文章目录

    • 多模态输入,多模态输出
    • 之前的模型和现在模型对比

大家已经知道,OpenAI 在 GPT-4 发布一年多后终于推出了一个新模型。它仍然是 GPT-4 的一个变体,但具有前所未见的多模态功能。

有趣的是,它包括实时视频处理等强大功能,这一关键功能最终可以让我们创建强大的虚拟助手,实时支持我们的日常生活。然而,这样的功能应该很昂贵且缓慢,考虑到该模型速度极快且免费使用(有限免费),这不合情理。

那么,到底发生了什么事呢?

OpenAI 一定已经意识到了一些我们尚未意识到的事情,即我们今天讨论的智能设计决策可以以极低的价格创建出更智能的模型。

那么,这一切有何意义?它对你未来意味着什么?

多模态输入,多模态输出

那么,ChatGPT-4o 有什么特别之处呢?它是有史以来第一个真正的“多模态输入/多模态输出”前沿模型。

但我们这样说到底是什么意思呢?

在真正的多模态模型中,您可以向模型发送音频、文本、图像或视频,模型将根据需求使用文本、图像或音频(还不是视频)进行响应。

但我知道你在想什么:ChatGPT 或 Gemini 的先前版本不是已经处理和生成图像或音频了吗?是的,但有一个需要注意的点是:他们是通过独立的外生组件来实现的

之前的模型和现在模型对比

以前,每当你向大模型发送音频时,都是这样的标准流程:
在这里插入图片描述

输入输出过程:用户发出的语音请求经过自动语音识别(ASR)转为文本(这里用的Whisper),文本经过大语言模型处理生成响应文本,响应文本再经过文本转语音(TTS)模块转换为语音,最终以语音形式返回给用户。

Whisper 是由 OpenAI 开发的一种自动语音识别(ASR)系统。它利用深度学习技术和大规模语音数据进行训练,能够将语音信号转换为文本。Whisper 系统具有高准确性和多语言支持,能够处理各种音质和背景噪声的语音输入。

在此过程中,自然语音中的声调节奏韵律、传达的情感关键停顿都会丢失,因为语音转文本组件Whisper会将音频转录为 LLM 可以处理的文本。

然后,LLM 将生成文本响应并将其发送到另一个组件(即文本到语音模型),该模型将生成最终传达的语音。

自然,由于人类通过语音传达的信息远不止文字,许多重要信息也因此丢失,
而且由于信息必须在不同的组件之间发送,造成的延迟并不理想。

但是在 ChatGPT-4o 中,一切都相似但又完全不同;因为一切都发生在同一个地方。
在这里插入图片描述
乍一看,似乎变化不大。但尽管组件几乎没有变化(vocoder和音频解码器是我们之前展示的文本转语音模型的一部分),但这些组件如何共享信息完全改变了信息丢失的程度

具体来说,LLM 现在看到的是语音的语义表示,而不是原始文本。通俗地说,模型现在不仅能看到“我想杀了你!”这句文字,还能接收到以下信息:

{
 转译的文字: "我想杀了你!"; 
 情绪: "高兴";
 语气: "喜悦";
}

这里虽然使用了 JSON 示例来说明,但语音编码器实际上为 LLM 生成的是一组向量嵌入(Vector Embeddings),除了实际文本之外,它们还捕捉语音的情感、语调、节奏和其他线索。
向量嵌入 是一种将离散的数据(如单词、句子、图像等)映射到连续的低维向量空间的方法。这些向量捕捉了数据的语义关系,使得相似的数据在向量空间中更接近。

因此,LLM 生成的响应更加基于实际情况,除了文字之外,还能捕捉信息中的关键特征。

然后将该响应发送到音频解码器,音频解码器使用它来生成梅尔频谱图(很可能),最后将其发送到声码器以生成音频。

您可以将频谱图视为“查看”声音的一种方式。频谱图 是一种将音频信号的频率成分展示在二维图表上的工具。频谱图显示了音频信号在不同时间点的频率分布及其强度

那么梅尔频谱图是什么?梅尔频谱图 是一种特殊类型的频谱图,它通过 Mel 频率尺度对频率轴进行变换,更符合人耳对声音的感知

顺便说一句,所有这些也适用于图像处理和生成或视频处理,因为它们将所有组件打包成一个单一模型,而不仅仅是音频。

总而言之,ChatGPT-4o 现在可以从文本以外的其他形式捕获信息,包括关键音频、图像或视频提示,以生成更相关的响应。简而言之,它不再关心数据如何进入并适应上下文,而是需要决定必须以何种方式回复。

这个改变有多么重要?

OpenAI 实现的真正多模态向世界传递了一个鲜明的信息:

在不使模型的主干(LLM)本身更加智能的情况下,能够跨多种模态进行推理的模型必然会更加智能,因为该模型不仅具有更多功能,而且还能够在不同数据类型之间传递知识。

人类运用所有感官的能力被认为是智能的关键部分,而人工智能也旨在掌握这种能力。

作为一个很大的好处,它还使模型在推理方面变得更加高效(撇开它们本可以应用的特定效率不谈)。消除组合多个外部组件的通信开销似乎使模型的速度大大加快。

这就是 ChatGPT-4o 的特别之处。

如果你想体验ChatGPT-4o,并且想国内直接访问,可以直接访问 我要超级GPT 51supergpt, 免注册,直接使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/670361.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

疫情物资捐赠和分配系统的设计

管理员账户功能包括:系统首页,个人中心,管理员管理,机构管理,用户管理,发放管理,物资管理 前台账户功能包括:系统首页,个人中心,物资论坛,公告信息…

7.1 Go 错误的概念

💝💝💝欢迎莅临我的博客,很高兴能够在这里和您见面!希望您在这里可以感受到一份轻松愉快的氛围,不仅可以获得有趣的内容和知识,也可以畅所欲言、分享您的想法和见解。 推荐:「stormsha的主页」…

Python:由b站临时短链接获取到永久链接(去除分享中的杂项)

📚博客主页:knighthood2001 ✨公众号:认知up吧 (目前正在带领大家一起提升认知,感兴趣可以来围观一下) 🎃知识星球:【认知up吧|成长|副业】介绍 ❤️如遇文章付费,可先看…

LabVIEW在高校电力电子实验中的应用

概述:本文介绍了如何利用LabVIEW优化高校电力电子实验,通过图形化编程实现参数调节、实时数据监控与存储,并与Simulink联动,提高实验效率和数据处理能力。 需求背景高校实验室在进行电机拖动和电力电子实验时,通常使用…

MongoDB CRUD操作:插入文档

MongoDB CRUD操作:插入文档 文章目录 MongoDB CRUD操作:插入文档使用MongoDB Atlas UI插入文档插入单个文档插入多个文档插入行为自动创建集合_id字段原子性写确认 在MongoDB中插入文档的集中方式: 使用编程语言提供的驱动程序,在…

Table表格组件不请求接口,实现表格里某条数据的本地编辑功能(Vue3+ArcoDesign)

【背景】 在 Vue3 ArcoDesign项目中,使用ArcoDesign-Table表格组件不请求接口,实现表格里某条数据的本地编辑功能。最后统一通过接口发送数据。 【步骤】 1. 在表格每条数据列后添加一个“编辑”按钮,点击该按钮弹出一个对话框&#xff0c…

flink 作业报日志类冲突的解决方案

文章目录 背景思考初步解决方案深入思考下终极解决方案总结 背景 实时作业在页面提交任务后,报NoSuchMethodException 方法,看了下是关于log4j的,首先是作业升级了很多依赖的版本,其次flink 也升级 到了1.19版本 思考 打的Jar有…

计算一个3x3矩阵对角线和其它两条线的元素之和

计算一个3x3矩阵对角线和其它两条线的元素之和 #include <stdio.h> int main () { int d0,b0,s,i,j; int a[3][3]{1,2,3,4,5,6,7,8,9}; for(i0,j2;i<3;i,j--) dda[i][i]a[i][j]; for(i0,j0;i<3;) {bba[i][j]a[i][j2]; ii2;} sdb; printf("d%d\nb%d\ns%d\n&qu…

远程继电器模块实现(nodemcu D1 + 继电器)

前言 接下来将实现一个远程继电器&#xff0c;实时远程控制和查询的开关状态。用 5v 直流电控制 220v 交流电。 硬件上&#xff1a; 使用 nodemcu D1 和 JQC-3FF-S-Z 继电器。 软件上&#xff1a; 使用 nodejs 作为服务端&#xff0c;和 html 作为客户端。 在开始之前在电脑…

数模混合芯片设计中的修调技术是什么?

一、修调目的 数模混合芯片需要修调技术主要是因为以下几个原因&#xff1a; 工艺偏差&#xff08;Process Variations&#xff09;&#xff1a; 半导体制造过程中存在不可避免的工艺偏差&#xff0c;如晶体管尺寸、阈值电压、电阻和电容值等&#xff0c;这些参数的实际值与…

2024年海南省三支一扶报名指南,照片要求

2024年海南省三支一扶报名指南&#xff0c;照片要求 一、考试时间安排&#xff1a; 报名时间&#xff1a;6月1日8:00至6月7日18:00 准考证打印时间&#xff1a;6月17日8:00 考试时间&#xff1a;6月22日 二、招聘人数 海南省计划招募390名高校毕业生

Golang | Leetcode Golang题解之第125题验证回文串

题目&#xff1a; 题解&#xff1a; func isPalindrome(s string) bool {s strings.ToLower(s)left, right : 0, len(s) - 1for left < right {for left < right && !isalnum(s[left]) {left}for left < right && !isalnum(s[right]) {right--}if l…

Golang | Leetcode Golang题解之第126题单词接龙II

题目&#xff1a; 题解&#xff1a; //bfsdfs(如果是双向bfs&#xff0c;效果会更好) func findLadders(beginWord string, endWord string, wordList []string) [][]string {//字典表&#xff08;将wordList中的单词放入hash表中&#xff0c;方便查找&#xff09;dict:make(m…

学习笔记——网络参考模型——TCP/IP模型(物理层)

一、TCP/IP模型-物理层 1、数据传输(交换)的形式 (1)电路交换 特点&#xff1a;通信双方独占通信链路。 优点&#xff1a;数据传输时延小&#xff0c;适用于实时通信&#xff1b;数据按序发送&#xff0c;不存在失序问题&#xff1b;适合模拟信号和数字信号传输。 缺点&am…

指纹采集技术

目录 1.概述 1.1 捺印油墨采集 1.2 现场指纹提取 1.3 在线指纹采集 2. 指纹采集器的关键技术指标 2.1 采集面积 2.2 分辨率 2.3 图像质量 2.4 耐用性 1.概述 最早的指纹采集技术是油墨法&#xff0c;至少已经有上百年的历史。1990年代出现了活体指纹采集器&#xff0c…

国内AI工具访问量第一的竟然是它?!不是Kimi,也不是文心一言

大家好&#xff0c;我是木易&#xff0c;一个持续关注AI领域的互联网技术产品经理&#xff0c;国内Top2本科&#xff0c;美国Top10 CS研究生&#xff0c;MBA。我坚信AI是普通人变强的“外挂”&#xff0c;所以创建了“AI信息Gap”这个公众号&#xff0c;专注于分享AI全维度知识…

spoon基础使用-第一个转换文件

新建一个转换&#xff0c;文件->新建->转换&#xff0c;也可以直接ctralN新建。 从右边主对象树拖拽一个输入->表输入&#xff1b;输出->文本文档输出&#xff1b;也可以直接在搜索框搜素表输入、文本文档输出。 双击表输入新建一个数据库连接 确定后就可以在S…

AndroidStudio中debug.keystore的创建和配置使用

1.如果没有debug.keystore,可以按照下面方法创建 首先在C:\Users\Admin\.android路径下打开cmd窗口 之后输入命令:keytool -genkey -v -keystore debug.keystore -alias androiddebugkey -keyalg RSA -validity 10000 输入两次密码(密码不可见,打码处随便填写没关系) 2.在build…

JavaScript拖拽API的简单使用

演示效果&#xff1a; <!DOCTYPE html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>Document</title><st…

基于JSP的九宫格日志网站

你好呀&#xff0c;我是学长猫哥&#xff01;如果有需求可以文末加我。 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;JSP技术 工具&#xff1a;浏览器/服务器&#xff08;B/S&#xff09;结构 系统展示 首页 管理员功能模块 用户功能模块 摘要 本…