实时“秒回”,像真人一样语音聊天,GPT-4o模型强到恐怖

9efefa7d73378b01163505c1f758877b.jpeg

今天凌晨OpenAl发布了 GPT-4o,这是一种新的人工智能模式,集合了文本、图片、视频、语音的全能模型。

能实时响应用户的需求,并通过语音来实时回答你,你可以随时打断它。还具有视觉能力,能识别物体并根据视觉做出快速的响应和回答,具有非常强的逻辑推理能力。 它的速度比 GPT4-turbo快2倍,价格便宜 50%!

根据传统的基准测试,GPT-4o 在文本、推理和编码智能方面的性能达到了 GPT-4 Turbo 的水平,同时在多语言、音频和视觉功能方面也创下了新高。

GPT-4o 的新功能

  • 体验 GPT-4 级别的智能
  • 从模型和网页获取响应
  • 分析数据并创建图表
  • 讨论拍摄的照片
  • 上传文件以获取摘要、写作或分析帮助
  • 发现并使用 GPT 和 GPT 商店
  • 通过“记忆”构建更有帮助的体验

f076d8c32f529d09a0a45b78f674d494.jpeg

主要特点与功能

  • 模型优势:GPT-4o是最新的旗舰模型,具有 GPT-4级别的智能,但速度更快,且在文本、语音和视觉方面的能力得到了显著提升。
  • 图像理解与讨论:GPT-4o在理解和讨论用户分享的图像方面表现优于任何现有模型。例如,用户可以拍摄不同语言的菜单,与 GPT-4o对话以翻译、了解食物的历史和重要性,以及获取推荐。
  • 即将推出的语音模式:未来的改进将支持更自然的实时语音对话和通过实时视频与 ChatGPT对话的能力。例如,用户可以在观看现场体育赛事时,请求 ChatGPT 解释规则。计划在未来几周内以 alpha 版本推出新的语音模式,并向 Plus 用户提供早期访问。
  • 可用性和用户访问
  1. 多语言支持:GPT-4o的语言能力在质量和速度上均有改进,现在 ChatGPT 支持超过 50 种语言的注册、登录、用户设置等。
  2. 用户层次:目前正向 ChatGPT Plus 和团队用户推出 GPT-4o,企业用户即将可用。同时也开始向 ChatGPT Free 用户推出,但有使用限制。Plus 用户的消息限制是 Free 用户的5倍,团队和企业用户则有更高的限制。

增强智能与高级工具的普及

使命与目标:使先进的 AI 工具能够为尽可能多的人提供服务。每周有超过一亿人使用ChatGPT。在未来几周,我们将开始向 ChatGPT Free 用户推出更多智能和高级工具。

综合交互能力

多模态输入与输出:GPT-4o是第一个将文本、音频和图像输入整合的模型,可以生成文本、音频和图像的任意组合输出。这种设计显著提高了与计算机的自然交互能力。

性能提升与成本效率

  • 响应时间:GPT-4o的音频输入响应时间极快,最低可达232毫秒,平均为320毫秒,与人类在对话中的响应时间相似。
  • 效率与成本:在API中,GPT4o 的速度是 GPT-4Turbo 的两倍,成本降低了50%,且处理速率限制提高了5倍。

语音模式的进步

从多模型到单一模型:与之前版本相比,GPT-4o 通过单一模型端到端训练,处理所有输入和输出。这避免了信息丢失,使模型能直接处理语调、多个说话者或背景噪音等,并能输出笑声、唱歌或表达情感。

测试与迭代

广泛的红队测试:与70多位外部专家合作进行红队测试,涵盖社会心理学、偏见与公正、误信息等领域,以识别新增模态带来的风险,并据此建立安全干预措施。

持续风险缓解:继续发现并缓解新风险。

部署与可用性

逐步推出:GPT-40 的文本和图像功能已开始在 ChatGPT 中推出。开发者现在也可以通过API访问作为文本和视觉模型的 GPT-40。

语音和视频功能:计划在未来几周内向一小部分受信任的合作伙伴推出新的音频和视频能力。

更详细的功能介绍和展示

https://openai.com/index/hello-gpt-4o/

高性价比GPU资源:https://www.ucloud.cn/site/active/gpu.html?ytag=gpu_wenzhang_tongyong_shemei


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/625603.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Fabric实现多GPU运行

官方的将pytorch转换为fabric简单分为五个步骤: 步骤 1: 在训练代码的开头创建 Fabric 对象 from lightning.fabric import Fabricfabric Fabric() 步骤 2: 如果打算使用多个设备(例如多 GPU),就调用…

gin导出excel文件

go可以通过excelize 包实现对excel的操作 "github.com/xuri/excelize/v2"导出示例 service层 批量导出数据的,我们可以在dao层中返回一个切片。在service中新建一个excelize对象,单独设置表头。遍历切片往excelize上修改即可。 func (s *S…

05-13 周一 量化是什么

05-13 周一 量化是什么 时间版本修改人描述2024年5月13日11:27:25V0.1宋全恒新建文档2024年5月14日16:21:20V1.0宋全恒了解 简介 神经网络在运行时有较高的计算成本,而且随着大模型时代的到来,知识由一个巨大的LLM存储,为了获取知识&#xf…

【STM32】状态机实现定时器按键消抖,处理单击、双击、三击、长按事件

目录 一、简单介绍 二、模块与接线 三、cubemx配置 四、驱动编写 状态图 按键类型定义 参数初始化/复位 按键扫描 串口重定向 主函数 五、效果展示 六、驱动附录 key.c key.h 一、简单介绍 众所周知,普通的机械按键会产生抖动,可以采取硬件…

【江南大学×朗汀留学】部分留学录取案例合集

朗汀留学 X 江南大学 尽管客观条件如此艰难,朗汀留学的同学们还是斩获众多名校的录取。成绩属于过去,我们继续努力创造更好未来。 以下为我们摘取的江南大学部分学生案例供大家参考,再次恭喜所有获得理想大学offer的学生们,你们…

CAST: Cross-Attention in Space and Time for Video Action Recognition

标题:CAST: 时空交叉注意力网络用于视频动作识别 原文链接:2311.18825v1 (arxiv.org)https://arxiv.org/pdf/2311.18825v1 源码链接:GitHub - KHU-VLL/CASThttps://github.com/KHU-VLL/CAST 发表:NeurIPS-2023(CCF A…

Linux第四节--常见的指令介绍集合(持续更新中)

点赞关注不迷路!本节涉及初识Linux第四节,主要为常见的几条指令介绍。 如果文章对你有帮助的话 欢迎 评论💬 点赞👍🏻 收藏 ✨ 加关注👀 期待与你共同进步! 1. more指令 语法:more [选项][文件]…

MySQL文档_下载

可能需要:MySQL下载–》更新版本–》迁移数据库到MySQL 以下都不重要【只要确定好需要安装版本,找到对应的版本下载,安装,设置即可】 下载、安装: Determine whether MySQL runs and is supported on your platform…

电脑刚开机的时候不卡,用一会就变卡顿了…怎么回事?

前言 昨天咱们聊到旧电脑更换了固态硬盘之后,开机就会变快的事情,这个确实是可行且有效的升级电脑办法之一。 看完这篇之后,切莫着急升级电脑硬件配置,因为这里的坑比你想象的还要多。 从机械硬盘测试的数据和固态硬盘的测试数…

【C语言】—— 动态内存管理

【C语言】——动态内存管理 一、动态内存管理概述1.1、动态内存的概念1.2、动态内存的必要性 二、 m a l l o c malloc malloc 函数2.1、函数介绍2.2、应用举例 三、 c a l l o c calloc calloc 函数四、 f r e e free free 函数4.1、函数介绍4.2、应用举例 五、 r e a l l o …

SSL协议

SSL 安全传输协议(安全套接层) 也叫TLS ---- 传输层安全协议 SSL的工作原理:SSL协议因为是基于TCP协议工作的,通信双方需要先建立TCP会话。因为SSL协议需要进行安全保证,需要协商安全参数,所以也需要建立…

【数据结构】栈和队列专题

前言 上篇博客我们讨论了栈和队列的有关结构,本篇博客我们继续来讨论有关栈和队列习题 这些题算是经典了 💓 个人主页:小张同学zkf ⏩ 文章专栏:数据结构 若有问题 评论区见📝 🎉欢迎大家点赞&#x1f44d…

Oracle 临时表空间的管理

Oracle 临时表空间的管理 临时表空间的处理 1.创建一个新的temporary tablespace; create temporary tablespace tp tempfile ...... size 10m autoextend on; 2.改变数据库的默认临时表空间 alter database default temporary tablespace tp; 3。drop tablespace temp; …

Zoho CRM企业成长的智能引擎,智能化销售自动化

数字化时代,客户体验已成为企业竞争的核心要素。卓豪Zoho CRM,作为全球领先的SaaS云端客户关系管理平台,正引领着一场企业运营模式的变革,助力超过25万家企业跨越180多个国家,实现客户互动与业务增长的无缝对接。让我们…

Verlog-流水灯-FPGA

Verlog-流水灯-FPGA 引言: ​ 随着电子技术的飞速发展,现场可编程门阵列(FPGA)已成为电子设计自动化(EDA)领域中不可或缺的组件。FPGA以其高度的灵活性和可定制性,广泛应用于通信、图像处理、工…

【C++】学习笔记——继承_2

文章目录 十二、继承5. 继承与友元6. 继承与静态成员7. 复杂的菱形继承及菱形虚拟继承 未完待续 十二、继承 5. 继承与友元 友元关系不能继承,也就是说父类友元不能访问子类私有和保护成员 。除非子类也设置成友元。 6. 继承与静态成员 父类定义了 static 静态成…

单用户模式破解root密码

目录 一. 破解root密码 1. 查看操作系统版本 2.重启系统,进入grub菜单,选择要使用的内核,按e进入​编辑 3. 找到linux16那一行,把光标移动到最后,添加 init/bin/sh 然后ctrlx保存退出会自动进入系统 4. 进入系统后…

Spring WebFlux:响应式编程

在软件开发领域,随着互联网应用的规模和复杂性不断增加,传统的编程模型逐渐暴露出一些局限性,尤其是在面对高并发、大规模数据流处理等场景时。为了应对这些挑战,响应式编程(Reactive Programming)应运而生…

强化训练:day9(添加逗号、跳台阶、扑克牌顺子)

文章目录 前言1. 添加逗号1.1 题目描述2.2 解题思路2.3 代码实现 2. 跳台阶2.1 题目描述2.2 解题思路2.3 代码实现 3. 扑克牌顺子3.1 题目描述3.2 解题思路3.3 代码实现 总结 前言 1. 添加逗号   2. 跳台阶   3. 扑克牌顺子 1. 添加逗号 1.1 题目描述 2.2 解题思路 我的写…

ros键盘控制程序teleop_twist_keyboard 键值含义及用法

在机器人仿真中, 经常会用到键盘控制程序teleop_twist_keyboard 对机器人进行控制。但是对各个键值是何种含义, 如何操作并没有任何资料介绍,初次使用时会不知所措。 通过实践, 发现各个键值的作用如下: u-- 向左前方前进 i-- 直…