更快!更自然!OpenAI推出GPT-4o,记者实测→

图片

导读:第一财经记者使用GPT-4o来描述图片,发现其生成结果较准确,5秒左右就能生成描述图片的文字。

当地时间5月13日,OpenAI通过直播展示了产品更新。与此前传出的市场消息不同,OpenAI并未推出搜索引擎,也未推出GPT-4.5或GPT-5,而是发布了GPT-4系列新模型GPT-4o以及AI聊天机器人ChatGPT的桌面版本,聚焦多模态和端侧应用。

此前OpenAI公司CEO奥尔特曼(Sam Altman)就已经否认了公司将会发布GPT-5,他表示新版GPT非常“神奇”。根据OpenAI官方网站介绍,GPT-4o中的“o”代表Omni,也就是“全能”的意思。

据介绍,GPT-4o文本、推理、编码能力达到GPT-4 Turbo水平,速度是上一代AI大模型GPT-4 Turbo的两倍,但成本仅为GPT-4 Turbo的一半,视频、音频功能得到改善。OpenAI CEO奥尔特曼(Sam Altman)在博客中表示,ChatGPT免费用户也能用上新发布的GPT-4o。此外,OpenAI还与苹果走到一起,推出了适用于macOS的桌面级应用。

OpenAI技术负责人Mira Murati在直播中表示:“这是我们第一次在易用性方面真正迈出的一大步。”

图片

价格低于GPT-4 Turbo

OpenAI研究员Mark Chen表示,新模型具有“感知情绪”的能力,能输出笑声、歌唱或表达情感,还可以处理用户打断它的情况。

在直播中,OpenAI演示了一段OpenAI员工与GPT-4o对话的视频,模型反应速度与人类相近,GPT-4o可利用手机摄像头描述其“看到”的东西。

另一段展示视频里,GPT-4o被装在两个手机上,其中一个代表人类与电信公司打电话沟通设备更换事项,另一个GPT-4o扮演电信公司客服人员。OpenAI还展示了GPT-4o搭载在手机上的实时翻译能力。

根据OpenAI介绍,GPT-4o与GPT-3.5、GPT-4的语音对谈机制不同。GPT-3.5和GPT-4会先将音频转换为文本,再接收文本生成文本,最后将文本转换为音频,经历这三个过程,音频中的情感表达等信息会被折损,而GPT-4o是跨文本、视觉和音频的端到端模型,是OpenAI第一个综合了这些维度的模型,可更好进行对谈。

OpenAI将GPT-4o定位为GPT-4性能级别的模型。据介绍,GPT-4o在传统基准测试中,文本、推理、编码能力达到GPT-4 Turbo的水平。该模型接收文本、音频和图像输入时,平均320毫秒响应音频输入,与人类对话中的响应时间相似,英文文本和代码能力与GPT-4 Turbo相当,在非英文文本上有改善,提高了ChatGPT针对50种不同语言的质量和速度,并通过OpenAI的API提供给开发人员,使其即时就可以开始使用新模型构建应用程序。

第一财经记者在OpenAI官网看到,GPT-4o输入、输出每1M token(文本单位)收费0.005美元、0.015美元,GPT-4 Turbo输入、输出每1M token收费0.01美元、0.03美元。

在这里插入图片描述

“在过去两年中,我们花了大量精力在堆栈的每一层上提高-效率,作为这项研究的第一个成果,我们能使GPT-4级别的模型更广泛应用,GPT-4o即日起扩展红队访问权限。”OpenAI官网称,GPT-4o的文本和图像功能今日在ChatGPT中推出,“我们计划在未来几周内在API中向一小部分值得信赖的合作伙伴推出对GPT-4o新音频和视频功能的支持。”

第一财经记者在ChatGPT网站看到,ChatGPT已接入GPT-4o有限访问权限,但免费用户还不能使用图片生成功能。

记者使用了GPT-4o来描述图片,发现其生成结果较准确,5秒左右就能生成描述图片的文字。

在这里插入图片描述

此外,OpenAI还宣布推出一款适用于macOS的桌面级应用,使用键盘快捷键就可向ChatGPT提问。用户可通过电脑与ChatGPT语音对话,GPT-4o的新音频和视频功能后续将推出。OpenAI已向Plus用户推出macOS应用程序,今年晚些时候还将推出Windows版本。

值得注意的是,近日还有消息传出苹果与OpenAI商谈,以便在下一代iPhone操作系统使用ChatGPT功能。此次OpenAI重点展示了大模型在手机端侧应用的能力。

不过,此次OpenAI并未发布关于新模型的论文或技术文档。

今日,OpenAI特别强调了新模型的风险和局限性。该公司称:“GPT-4o的音频模式带来了各种新的风险。在接下来的几周和几个月里,我们将更关注技术基础设施、培训后的可用性以及发布其他模式所需的安全性。例如,在发布时,音频输出将仅限于选择预设的声音,并将遵守我们现有的安全政策。”

发力端侧应用

不少科技界人士发表了对OpenAI此次产品更新的看法。“我没想到GPT-4o会接近GPT-5。传闻中OpenAI的‘Arrakis’模型就采用多模态输入和输入。事实上,它可能是GPT-5的一个早期检查点(checkpoint),尚未完成训练。”英伟达高级科学家Jim Fan在社交媒体上评论称。

Jim Fan认为,在谷歌召开I/O大会前,OpenAI宁愿发布超过人们对GPT-4.5心理预期的产品,也不愿因为推出达不到人们期望的GPT-5,而让人感到失望。此外,谁先赢得苹果,谁就将大获全胜,与iOS整合有几个层次,例如抛弃Siri,OpenAI为iOS提炼出一个更小层级、设备上运行的GPT-4o。虽然此次未公开相关论文,加利福尼亚大学圣克鲁兹分校教授Xin Eric Wang还是评论认为,一个演示胜过千篇论文。

“比较让人失望的是,这次OpenAI没有发布GPT-5,连GPT-4.5都没看到。OpenAI发布了一系列应用,最重要的是发布了语音助手,由于使用了端到端大模型技术,体验远超Siri。OpenAI发布应用,恰恰说明应用在人工智能领域大有可为。目前看来,GPT-5可能还要‘难产’一段时间。”猎豹移动董事长兼CEO傅盛表示。

近期业内对大模型在既有参数下推动应用落地、商业变现多有讨论。OpenAI在继续研发下一代更大参数模型GPT-5的同时,也在推动价格下降、应用场景和用户群体扩大。

从API价格看,GPT-3.5 Turbo输入、输出每1M token(文本单位)收费0.0005美元、0.0015美元,GPT-4为0.03美元、0.06美元,GPT-4之后定价就持续下降。今年4月,OpenAI还宣布ChatGPT无需注册便可使用,此举被业界解读为扩大用户群体的努力,或其算力成本得到一定下降。此次产品更新后,奥尔特曼在其博客中强调,OpenAI使命的一个关键部分是让强大的人工智能工具免费,或以一个不错的价格推出。

包括OpenAI推出macOS桌面级应用在内,业内近期对大模型落地端侧多有期待。苹果就多次传出与大模型厂商洽谈合作,苹果自身还在端侧小模型领域布局,并推出可支持AI运行、性能更强的M4芯片。

近日一场对谈中,金沙江创投主管合伙人朱啸虎也判断,此前Meta发布的Llama3系列两个小模型性能强大,iPad Pro则用了M4芯片,以后端侧可能就直接跑一个小模型了。几百亿参数的小模型也可在端侧直接跑,尤其是今年下半年iPhone新品可能就类似,明年应用层将会爆发。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/624367.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

常见加解密算法02 - RC4算法分析

RC4是一种广泛使用的流密码,它以其简洁和速度而闻名。区别于块密码,流密码特点在于按位或按字节来进行加密。 RC4由Ron Rivest在1987年设计,尽管它的命名看起来是第四版,实际上它是第一个对外发布的版本。 RC4算法的实施过程简洁…

OpenText ETX 助力 SMS 集团提高生产力、降低成本并实现全球协作

OpenText ETX 助力 SMS 集团提高生产力、降低成本并实现全球协作 SMS 集团存在的挑战 需要一个可以在全球范围内轻松访问的解决方案;需要一个系统,能够无缝运行图形要求苛刻的基于服务器的应用程序; 结果 1、通过全球用户访问数据&#x…

el-table组件选中后使用toggleRowSelection无法取消已选中的数据——bug记录-骚操作解决

先说本文重点解决的问题: 存在的问题:当右侧已选中的数据中,删除了左侧其他页面的数据,但是左侧数据切换到其他页面后,左侧还保留选中的状态。 最近在写后台管理系统的时候,遇到一个需求: 左…

鬼畜作品创作必备素材,鬼畜自学语音包合集

一、素材描述 鬼畜是什么?鬼畜是一种网络流行语,也是网络文化的一种表现形式。它指的是将原本无关的两个或多个视频、音频、图片或文字进行剪辑、混合、重组等处理后,形成一种新的有趣、诙谐或恶搞的作品。鬼畜的制作过程通常需要一定的技术…

使用PyQt5设计订单查询界面—了解界面布局2

想要实现的界面效果 增加Tab Widge的页签 在MainWindow窗口中选中水平布局,将一个Label控件和一个默认自带两个页签的Tab Widget控件放到水平布局中,Tab Widget控件右键选择“插入页”再选择“在当前页之后”增加页签。 为每一个Tab页签界面都选择“栅格…

【学习笔记】C++每日一记[20240513]

简述静态全局变量的概念 在全局变量前加上static关键字,就定义了一个静态全局变量。通常情况下,静态全局变量的声明和定义放在源文件中,并且不能使用extern关键字将静态全局变量导出,因此静态全局变量的**作用于仅限于定义静态全…

【driver6】debugfs,性能优化,

文章目录 1.内核调试手段:debugfs.h中api建立目录/sys/kernel/debug2.性能优化:裸磁盘无法使用,一般都刷文件系统。驱动加上要考虑磁盘io,内存占用,cpu使用情况3.Valgrind内存泄漏排查案例:4.cpu瓶颈&#…

ArrayList的深拷贝与浅拷贝

1、深拷贝 通过以下代码进行理解 import java.util.ArrayList; import java.util.List;public class Demo {public static void main(String[] args) {List<Integer> c new ArrayList<>();c.add(1);c.add(2);c.add(3);List<Integer> c1 new ArrayList<…

部署Discuz论坛项目

DIscuz 是由 PHP 语言开发的一款开源社交论坛项目。运行在典型的LNMP/LAMP 环境中。 安装MySQL数据库5.7 主机名IP地址操作系统硬件配置discuz-db192.168.226.128CentOS 7-mini-20092 Core/4G Memory 修改主机名用来自己识别 hostnamectl set-hostname discuz-db #重连远程…

海外仓管理优化策略:花更少的钱,收获更大的收益

海外仓成本确实越来越高了。 仓储成本和人力成本几乎占据了海外仓经营成本的一大部分&#xff0c;这严重的影响了海外仓企业的盈利能力。如果你正打算开设海外仓业务或者已经在经营海外仓业务&#xff0c;那这个问题一定不能忽视&#xff0c;毕竟成本越高&#xff0c;就意味着你…

中北机械有限公司将参加2024长三角快递物流供应链与技术装备展览会

参展企业介绍 浙江中北机械有限公司总部位于浙江杭州&#xff0c;生产基地位于浙江桐乡。是一家有着十几年金属制品及仓储物流设施设备生产经验&#xff0c;专业设计、生产、制造各类物流钢制托盘&#xff0c;物流手推车&#xff0c;仓储货架及门店展架&#xff0c;宣传展架等物…

力扣HOT100 - 198. 打家劫舍

解题思路&#xff1a; 动态规划 class Solution {public int rob(int[] nums) {int len nums.length;if (nums null || len 0) return 0;if (len 1) return nums[0];int[] dp new int[len];dp[0] nums[0];dp[1] Math.max(nums[0], nums[1]);for (int i 2; i < len;…

zookeeper集群部署以及zookeeper原理

文章目录 简介工作原理特性官网地址准备节点准备环境准备JAVA主机映射 部署 简介 ZooKeeper是一个分布式的&#xff0c;开放源码的分布式应用程序协调服务&#xff0c;是Google的Chubby一个开源的实现&#xff0c;是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服…

宝塔纯净版 7.6.0版本无需手机登录 [稳定版本/推荐]

下载地址&#xff1a;宝塔纯净版 7.6.0版本无需手机登录.zip 宝塔纯净版介绍 无需手机登录&#xff1a;不再有手机登录提示&#xff0c;或按照提示输入任意手机号密码即可模拟绑定&#xff1b; 安全&#xff1a;剥离了所有与宝塔官方的通信、上报、下发&#xff1b;并且不与…

Vue Excel 文件流导出乱码快速解决方案

今日在开发一个导出功能&#xff0c;原本一个非常简单的功能&#xff0c;却没想里面藏了陷阱&#xff01; 背景 前端导出的文件流乱码&#xff0c;此时确定非后端问题&#xff08;可以在postman导出是否正常来判断&#xff09;。 前端导出&#xff1a; 后端正常数据&#xf…

黑马基于Web-socket的java聊天室基本解析

要是用Web-socket协议&#xff0c;我们要前端upgrade升级成web-socket协议 首先我们要引入springboot的websocket起步依赖&#xff0c;这样子方便使用&#xff0c;自己指定版本注意 <dependency><groupId>org.springframework.boot</groupId><artifactId&…

2种方法教你快速完成图片格式转换!

在数字世界中&#xff0c;图片是我们传递信息和表达创意的重要媒介。然而&#xff0c;不同的应用场景需要不同格式的图片。例如&#xff0c;网页设计可能需要使用PNG格式&#xff0c;而打印则需要使用JPG或PDF格式。这就需要我们经常进行图片格式转换。 下文小编将分享2种方法…

Ubuntu搭建VsCode C++ 开发环境

Ubuntu搭建VsCode C 开发环境 安装VS Code 使用命令来安装VS Code&#xff1a;他会下载vscode的最新版本。 sudo snap install --classic code如果不使用命令 的方式 在官网下载vscode安装包&#xff08; 后缀为 .deb的包 &#xff09;之后&#xff08;可以选择版本 &#x…

【JavaEE精炼宝库】多线程1(认识线程 | 创建线程 | Thread 类)

目录 一、认识线程 1.1 线程的概念&#xff1a; 1.2 为什么需要线程&#xff1a; 1.3 面试题.谈谈进程和线程的区别&#xff1a; 1.4 Java的线程和操作系统线程的关系&#xff1a; 二、创建线程 2.1 创建线程的5种写法&#xff1a; 2.1.1 写法1.继承 Thread 类&#xf…

codeforces round944(div4)A~F题解

文章目录 [A. My First Sorting Problem](https://codeforces.com/contest/1971/problem/A)[B. Different String](https://codeforces.com/contest/1971/problem/B)[C. Clock and Strings](https://codeforces.com/contest/1971/problem/C)[D. Binary Cut](https://codeforces…