你好GPT-4o——对GPT-4o发布的思考与看法

你好GPT-4o

前言

在这里插入图片描述

2024年5月13日,OpenAI官网发布了他们的新一代自然语言处理交互系统——GPT-4o。这是OpenAI继GPT4之后又一个新的旗舰模型。

GPT-4o(“o”代表“omni”)是迈向更自然的人机交互的一步——它接受文本、音频、图像和视频的任意组合作为输入,并生成文本、音频和图像输出的任意组合。它可以在短短 232 毫秒内响应音频输入,平均为 320 毫秒,这类似于人工响应时间(在新窗口中打开)在对话中。它在英语文本和代码上的能力同 GPT-4 Turbo 性能相匹配,在非英语语言的文本上也有显着改进,同时在 API 中也更快且便宜 50%。与现有模型相比,GPT-4o 在视觉和音频理解方面尤其出色。

不能否认的一点是,它与GPT-4的差距并没有像GPT-3.5和GPT-4那样之大,你可以将它看成GPT-4的Ultra版本或者是Pro版本。但基于GPT-4强大的语言处理能力和内容输出的高质量,并在此基础上进行了一次再进化,它变得更快、更强、甚至是免费面向用户的——我认为这是它最大的特点之一。

在这里插入图片描述

免费带来的结果:这使更多用户能够更好地体验GPT的功能,并且是使用最新的旗舰版;可能会造成对人工智能的过度的依赖——我们并不知道这是好是坏;带动其他AI公司的内卷上升——这有利于用户,也有利于市场竞争——这是一个好的现象,这说明人工智能服务正在朝着大众的方向前进,也使其变得更加平常化和低成本化,从而能推动诸多事物的发展。

那么这次的人工智能的更新,从技术层面,又为我们带来怎样的惊喜呢?

技术层面的Update

1.音频、视觉和文本

我们阅读官方的文档可以发现,这次的GPT-4o版本反复强调其在音频、视觉和文本上的重要提升。而在我们使用之后也不得不承认这是事实。

OpenAI GPT-4o guessing May 13th’s announcement on Vimeo
上述这段视频是来自OpenAI官网,展示了GPT-4o在视觉和音频理解方面出色的能力。

在这里插入图片描述
在这里插入图片描述

而这主要体现在以下几个点:

  • 更深层次的理解:GPT-4o在处理复杂句子结构和抽象概念方面表现得更加出色,能够更准确地理解上下文并生成连贯的回应。
  • 更丰富的词汇量:它具有更广泛的词汇库,能够更好地处理多种语言和不同领域的专业术语。
  • 更丝滑的回答和应对能力:针对提问者发出的问题,它能够更加人性化地给出答案,并且在给出答案地基础上展现更多符合语境和对话方的语气词以及态度。

同时,有以下几个有趣的点:我们随时说话随时打断GPT,并且它能够理解我们的语气和态度;响应速度极快,无需等待尴尬的2—3秒;可以模仿不同风格的语气——dramatic、robotic、terrible;可以识别符号——人类创作的具有象征意义的符号…诸如此类,还有很多我们意想不到的特征值得我们去探索。

2. 知识库扩展

  • 更新的知识基础:GPT-4o基于更新的数据进行训练,因此能够提供更为最新的知识和信息。相较于前代具有更广阔的知识库和更新的数据。
  • 更强的推理能力:在回答需要逻辑推理和复杂推断的问题时表现更好,能够给出更合理和有依据的答案。

3. 多模态处理能力的进一步加强

这个特点是基于音视频、文本处理综合而成的。它能够带来综合性的能力展现,给用户更好的融合性能体验。

  • 图像理解:GPT-4o处理和生成与图像相关的文本,进行图像描述、分析和生成相应的文字解释的能力进一步加强,更加准确。
  • 跨模态融合:具备在文本与其他形式数据(如图像、声音等)之间进行更有效的融合和转换的能力。

4. 对话管理和互动

  • 上下文保持:GPT-4在长对话中保持上下文一致性的能力更强,能够更好地理解和记住之前的对话内容。
  • 情感和语气控制:能够根据用户的情感和对话语境调整回应的语气,更加自然和人性化。

5. 编程与技术问答

  • 代码生成和理解:在编程帮助和技术问题解答方面,GPT-4o表现得更为出色,能够生成更高质量的代码并解释复杂的技术概念。
  • 多语言支持:支持更多的编程语言,并能够处理复杂的编程任务和跨语言的技术问题。
  • 用户体验上升:用户在编写代码的过程中对于GPT的使用更加顺滑和便捷。

6. 创造性任务

  • 创意写作:在写作小说、剧本、诗歌等创造性任务方面,GPT-4o展现了更强的创造力和连贯性。
  • 内容生成:能够生成更有创意和原创性的内容,满足用户多样化的内容需求。

7. 用户体验

  • 响应速度:处理和生成文本的速度更快,提升了用户的整体体验。
  • 提供了更好的UI:通过更直观和用户友好的界面,增强用户的互动体验。
  • API的开放

8.人工智能之间的互相对话

这次官网的展示视频中,有一个视频很有趣,那就是两个GPT-4o之间的对话。

在这里插入图片描述

第一个点:互动

第二个点:唱歌

这倒也是实现了机机交互。

GPT-4 Turbo 与 GPT-4o

GPT-4o 具有相同的高智商,但比 GPT-4 Turbo 更快、更便宜,并且具有更高的速率限制。具体说来:

  • 定价:GPT-4o 比 GPT-4 Turbo 便宜 50%,输入 5 美元/月,输出代币 15 美元/M)。
  • 速率限制:GPT-4o 的速率限制是 GPT-4 Turbo 的 5 倍——每分钟最多 1000 万个代币。
  • 速度:GPT-4o 的速度是 GPT-2 Turbo 的 4 倍。
  • 视觉:GPT-4o 的视觉能力在与视觉能力相关的评估中表现优于 GPT-4 Turbo。
  • 多语言:GPT-4o 改进了对非英语语言的支持,而不是 GPT-4 Turbo。

GPT-4o 目前的上下文窗口为 128k,知识截止日期为 2023 年 10 月。

思考与找出其不足

在这里插入图片描述

当我们聊完了它的优点之后,特别是对比它的前辈GPT-4之后,我们不得不想去找出它的缺点、或者是不足来证明它为啥免费提供、为啥在套餐中的限用额度还是比GPT-4高——也就是说相较于4它更便宜。

首先从模型的名字上来看,GPT-4和4o仅仅只差了一个字母o,而3和4却是直接差了一代。为什么不将其直接命名为5呢?可以猜测,OpenAI这次发布的新产品,实际上也是在为他们的下一代旗舰模型——GPT-5做准备,这次的4o只是预热,就如当年GPT-3.5的免费紧随着GPT-4的发布。很有可能在接下来的一年(保守)之内,OpenAI将会释放出他们的全新模型,并且是一次新的提升,在某个我们难以预料又或许常用的方面具有巨大的提升,所以我们拭目以待。

在这里插入图片描述

另外,其实相较于GPT-4o,4的训练模型已经足够成熟,并且能够胜任大部分工作,所以它依旧是作为工作辅助的首选。从人们的接受度来看也会选择更加老练的版本,这样更为靠谱,那么公司为了盈利,当然就会将他们更熟练的模型定价更高,从而获得更多利润,这是从公司盈利的角度。

那么从这次的更新上来看,确实也有些不足的地方:

例如在与其对话的过程中,打断说话时的处理方式较为生硬,我们可能还是需要按下暂停键才能打断GPT,我认为真正的语言交互或许是无差别对话:也就是不需要任何按键或者提示,你可以随时开启对话,随时打断对话,随时结束对话,甚至加上情境,何时结束对话较为合适,我们应该说些什么让气氛不那么尴尬等等。

奥特曼回应称,OpenAI会继续改进并提升语音功能的质量:“我相信,语音交互是通向未来交互方式的一个重要线索。如果能够实现真正优质的语音互动体验,将会是一种与计算机互动的全新方式。”“我相信,语音交互是通向未来交互方式的一个重要线索。如果能够实现真正优质的语音互动体验,将会是一种与计算机互动的全新方式。”

另外其他例如语音生成的速度依旧不够快、语气处理有待加强、在较为复杂的问题上还是会有疏漏等等,实际上这些也算是老问题了——但这也算挑刺,毕竟这次的更新还是有着极大的飞跃的。

你好GPT,未来会怎样?

在这里插入图片描述

当我不带任何提示词问GPT时,给出的答案是有条有理——条条框框的。
而当我使用语音对话(基于3.5的模型)问它这个问题时,我发现与这次发布的4o确实有较大差距。无论是从回答上还是从语音的处理上。

或许人工智能的发展总是充满奇迹和想象力,而当我们沉溺于技术的发展时,总不能忘记我们时刻要保持清醒,理性看待——尽管这是这两年来老生常谈的问题,但我们依旧不可忽视。

未来会是如何?无人知晓,让我们期待GPT-5、6、7的到来,并且对此再去享受、去适应、去思考。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/693344.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Linux环境---在线安装MYSQL数据库

Linux环境—在线安装MYSQL数据库 一、使用步骤 1.安装环境 Mysql 驱动 8.0 需要 jdk1.8 才行。 JDK版本:1.8 参考文档 MYSQL版本:8.0.2 下载链接: https://pan.baidu.com/s/1MwXIilSL6EY3OuS7WtpySA?pwdg263 操作系统:CentOS 1.1 建立存…

Golang | Leetcode Golang题解之第133题克隆图

题目: 题解: func cloneGraph(node *Node) *Node {if node nil {return node}visited : map[*Node]*Node{}// 将题目给定的节点添加到队列queue : []*Node{node}// 克隆第一个节点并存储到哈希表中visited[node] &Node{node.Val, []*Node{}}// 广…

数据结构严蔚敏版精简版-栈和队列以及c语言代码实现

1栈的定义和特权 栈(stack)是限定仅在表尾进行插入或删除操作的线性表。 注:虽然说栈的实现就是一端插入和删除,但不一定是在“表尾”,这个“表尾”是广义的。 头插法实现链栈 尾插法实现链栈 因此,对栈来说,表尾…

从GAN到WGAN(01/2)

从GAN到WGAN 文章目录 一、说明二、Kullback-Leibler 和 Jensen-Shannon 背离三、生成对抗网络 (GAN)四、D 的最优值是多少?五、什么是全局最优?六、损失函数代表什么?七、GAN中的问题 一、说明 生成对抗网络 &#…

13_前端工程化_ES6

1.前端工程化概念 前端工程化是使用软件工程的方法来单独解决前端的开发流程中模块化、组件化、规范化、自动化的问题,其主要目的为了提高效率和降低成本。 前后端分离(前端代码工程化独立出来形成一个单独的app) 1.开发分离 2.部署分离 3.服务器分离…

012-Linux逻辑卷管理(LVM)

前言 安装 Linux 操作系统时遇到的⼀个常见的难以决定的问题就是如何正确地评估各分区大小,以分配合适的硬盘空间; 基本的磁盘分区管理方式在逻辑分区划分好之后就无法改变其大小。随着 Linux的逻辑卷管理功能的出现,这些问题都迎刃而解,用户…

如何计算 GPT 的 Tokens 数量?

基本介绍 随着人工智能大模型技术的迅速发展,一种创新的计费模式正在逐渐普及,即以“令牌”(Token)作为衡量使用成本的单位。那么,究竟什么是Token呢? Token 是一种将自然语言文本转化为计算机可以理解的…

论文阅读:All-In-One Image Restoration for Unknown Corruption

发表时间:2022 cvpr 论文地址:https://openaccess.thecvf.com/content/CVPR2022/papers/Li_All-in-One_Image_Restoration_for_Unknown_Corruption_CVPR_2022_paper.pdf 项目地址:https://github.com/XLearning-SCU/2022-CVPR-AirNet 在本文…

Word Split Line

Word Split Line 分割线 https://download.csdn.net/download/spencer_tseng/89413772

将字符串str1复制为字符串str2

定义两个字符数组str1和str2,再设两个指针变量p1和p2,分别指向两个字符数组中的有关字符,通过改变指针变量的值使它们指向字符串中的不同的字符,以实现字符的复制。编写程序: 运行程序: 程序分析&#xff1…

MySQL 与 PostgreSQL 关键对比二(SQL语法)

目录 1 详细示例 1.1自动增量列 1.2 字符串连接 1.3 JSON 支持 2 总结 MySQL 和 PostgreSQL 是两种流行的开源关系数据库管理系统(RDBMS)。尽管它们在许多方面相似,但在 SQL 语法和功能上存在一些显著差异。 以下SQL语句的执行如果需要开…

向量数据库是什么?

向量数据库是什么? 随着人工智能和机器学习技术的迅猛发展,向量数据库作为一种新型数据库引起了广泛关注。向量数据库专门用于存储和查询高维向量数据,是在大规模数据检索和相似性搜索领域的重要工具。 向量数据库的定义 向量数据库是一种…

SLAM小题目

1、最小二乘题目&#xff1a; 假设有三个WIFI热点&#xff0c;位置分别在(x1,y1), (x2,y2), (x3,y3), 移动端测量到每一个热点的距离L1,L2和L3&#xff0c;要求解移动端的位置. #include <iostream> #include <vector> #include <cmath> class Point { pub…

ssm601基于ssm框架的校园闲置物品交易平台+jsp【已测试】

前言&#xff1a;&#x1f469;‍&#x1f4bb; 计算机行业的同仁们&#xff0c;大家好&#xff01;作为专注于Java领域多年的开发者&#xff0c;我非常理解实践案例的重要性。以下是一些我认为有助于提升你们技能的资源&#xff1a; &#x1f469;‍&#x1f4bb; SpringBoot…

抓住时机的核心:坚持学习准备着

在这个快节奏的时代&#xff0c;时间对于每个人来说都是宝贵的。能否在合适的时间做正确的事情&#xff0c;往往决定了我们成功的概率。但同时&#xff0c;我们也要认识到&#xff0c;逆风翻盘虽少&#xff0c;却并非不可能。在这个过程中&#xff0c;投资自己&#xff0c;投资…

28-LINUX--I/O复用-epoll

一.epoll概述 epoll 是 Linux 特有的 I/O 复用函数。它在实现和使用上与 select、poll 有很大差异。首 先&#xff0c;epoll 使用一组函数来完成任务&#xff0c;而不是单个函数。其次&#xff0c;epoll 把用户关心的文件描述 符上的事件放在内核里的一个事件表中。从而无需像…

计算机网络--应用层

计算机网络–计算机网络概念 计算机网络–物理层 计算机网络–数据链路层 计算机网络–网络层 计算机网络–传输层 计算机网络–应用层 1. 概述 因为不同的网络应用之间需要有一个确定的通信规则。 1.1 两种常用的网络应用模型 1.1.1 客户/服务器模型&#xff08;Client/Se…

[office] excel工作表数据分级显示 #其他#笔记

excel工作表数据分级显示 如下图1所示的工作表数据&#xff0c;我们按东区、西区、南区、北区来建立分级显示。 图1 这里先利用“创建组”命令建立分级显示。选取单元格区域A3:E5&#xff0c;单击功能区“数据”选项卡“分级显示”组中的“创建组——创建组…”命令&#xff…

基于小波多分辨分析的一维时间序列信号趋势检测与去除(MATLAB R2018a)

小波最开始是数学上提出的概念&#xff0c;并且在纯数学的王国里存在了一个世纪之久。最开始是为了弥补傅里叶分析的缺陷&#xff0c;即傅里叶级数发散的问题&#xff0c;并寻找出能够代替傅里叶分析的方法。从最早的一些艰难的探索开始直到慢慢发展成为一套完整系统的小波分析…

Git配置 安装及使用

团队开发的神 找工作必备 环境变量 配置好环境后 打开终端环境 winr cmd 我习惯在桌面打开&#xff0c;然后进入相应的文件夹 &#xff08;文件夹结构&#xff09; &#xff08;个人感觉能用cmd不用git&#xff0c;cmd更好用一些&#xff09; 进入对应的文件夹 填写自己对…