OpenAI 实时语音Realtime API接口申请: 助力开发者打造快速语音对话体验

OpenAI发布宣布推出Realtime API的公开测试版,所有付费开发者都可以在他们的应用中构建快速的语音对话体验。该API支持六种预设语音,类似于ChatGPT的高级语音模式,使自然的语音对话成为可能。

此外,Chat Completions API也新增了音频输入输出功能,支持不需要低延迟的用例,开发者可以通过单次API调用,将文本或音频输入GPT-4o,获得文本或音频的响应。

总结一下官方的文章给大家一个参考,大家可以借着这个势头去思考自己的产品方向。

参考:微软 Azure OpenAI 实时语音接口申请

在创建语音助手时,开发者通常需要将音频转录为文本,再将其输入至文本模型进行推理,最后通过文本转语音模型输出。这一过程常常导致情感和重音的丧失,同时存在可感知的延迟。而Realtime API通过直接流式传输音频输入和输出,显著提升了对话的自然性,能够自动处理打断,类似于ChatGPT的高级语音模式。

例如,Healthify(https://openai.com/index/healthify/) 应用利用Realtime API与AI教练Ria进行自然对话,而Speak语言学习App则通过该API的角色扮演功能,鼓励用户练习新语言。现在,开发者不再需要将多个模型结合在一起,而可以通过一个API调用来实现自然的对话体验。

随着Realtime API的推出,开发者可以轻松构建低延迟多模态应用,提升用户体验。无论是教育软件还是客户支持,Realtime API将简化语音交互的实现过程,为独立开发者带来新的机遇和灵感。比如,大家可以思考自己已经存在的文本App可否因此扩展语音功能,或者类似上述提到的语言产品。

定价

Realtime API目前只面向付费开发者,其音频功能基于新模型GPT-4o gpt-4o-realtime-preview。而Chat Completions API的音频功能将使用新的模型gpt-4o-audio-preview,在未来几周内发布,开发者可以输入文本或音频,并生成文本、音频。

Realtime API的定价很高,Realtime API同时使用文本token和音频toekn。文本输入token的费用为$5/M,输出token为$20/M。音频输入的费用约为每分钟0.06美元,而音频输出的费用约为每分钟0.24美元。Chat Completions API的音频定价与此相同。

安全与隐私

Realtime API采用多层次的安全保护措施,以减轻API滥用的风险,包括自动监测和对标记的模型输入与输出进行人工审查。该API基于与ChatGPT高级语音模式相同的GPT-4o版本,OpenAI对其进行了全面评估,使用了自动化和人工评估相结合的方法,包括根据OpenAI的准备框架进行的评估,详见GPT-4o系统卡。Realtime API还利用了OpenAI为高级语音模式构建的相同音频安全基础设施,测试结果显示,这有效降低了潜在的伤害风险。

OpenAI还与LiveKit和Agora合作,创建了音频组件的客户端库,包括回声消除、重连和声音隔离功能。同时,还与Twilio合作,将Realtime API与Twilio的语音API集成,使开发者能够无缝构建、部署和通过语音呼叫连接AI虚拟代理与客户。通过这些资源,开发者能够高效地开发出创新的语音应用。

Realtime API的未来发展方向

在向全面可用性迈进的过程中,OpenAI积极收集反馈以改进Realtiem API。计划引入的一些新功能包括:

  1. 多模态支持:Realtime API将首先支持语音,并计划逐步添加视觉和视频等其他模式。
  2. 提高速率限制:目前API对于Tier 5开发者限制为约100个并发会话,Tier 1-4的限制更低。OpenAI将逐步提高这些限制,以支持更大规模的部署。
  3. 官方SDK支持:OpenAI将把Realtime API的支持集成到OpenAI的Python和Node.js SDK中。
  4. 提示缓存:将支持提示缓存功能,以便以折扣价格重新处理先前的对话回合。
  5. 扩展模型支持:Realtime API将在未来版本中支持GPT-4o mini。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/892188.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【微服务】springboot远程docker进行debug调试使用详解

目录 一、前言 二、线上问题常用解决方案 2.1 微服务线上运行中常见的问题 2.2 微服务线上问题解决方案 2.3 远程debug概述 2.3.1 远程debug原理 2.3.2 远程debug优势 三、实验环境准备 3.1 搭建springboot工程 3.1.1 工程结构 3.1.2 引入基础依赖 3.1.3 添加配置文…

linux下使用mpi求自然数和

搭建MPI并行计算环境,编写 MPI程序,求和 1 23....1 0000。 要求: 1.使用100个进程; 2.进程0计算1 2...100, 进程1计算101 102... 200, ..... 进程99计算9901 9902... 10000; 3.调用计时函数,分别输出每个进程的计算时间; 4.需使用MPI集群通信函数和同…

【数据结构】时间、空间复杂度详解

大家有没有遇到过,为什么有些程序跑得飞快,而有些程序却慢得让人抓狂?我们可能都是这样认为的:他写的程序效率高等等,确实如此。但这背后隐藏着两个重要的概念:时间复杂度和空间复杂度。它们就像程序的“效…

MySQL的多表查询之联合查询

union联合查询 union用于合并两个或多个select语句的结果集 unnion将两个表上下拼在一起 要求: –两边select语句的字段数必须一致 –两边可以有不同数据类型的字段 –字段名默认按左边的表来设置 select column_name from table1 union select column_name from …

【Kubernets】配置类型资源 Etcd, Secret, ConfigMap

文章目录 所有资源概览Etcd详细说明一、基本概念二、主要功能三、架构与组件四、数据模型与操作五、安全与认证六、集群部署与管理 Secret详细说明一、Secret 的类型二、Secret 的创建三、Secret 的使用四、Secret 的更新与删除五、Secret 的安全性 ConfigMap详细说明一、Confi…

【分布式训练(5)】无法 kill PID?如何 kill 休眠中的 GPU 占用进程

【分布式训练 debug】VS Code Debug 技巧:launch.json实用参数 【分布式训练(2)】深入理解 DeepSpeed 的 ZeRO 内存优化策略 (三阶段的区别) 【分布式训练(3)】accelerator deepspeed debug 报错 “Timed out waiting…

华为OD机试 - 最大利润 - 贪心算法(Python/JS/C/C++ 2024 E卷 100分)

华为OD机试 2024E卷题库疯狂收录中,刷题点这里 专栏导读 本专栏收录于《华为OD机试真题(Python/JS/C/C)》。 刷的越多,抽中的概率越大,私信哪吒,备注华为OD,加入华为OD刷题交流群,…

光伏仿真系统的好处

现在的做光伏电站的项目,很多任务都是后置的,这样的话问题的暴露就会在每个时间段,光伏仿真系统的好处,就是在做每一步工作前,系统已经把每一步的工作都分配好了,有任何问题都可以提前知道, 获…

awk工具的基本使用

awk的作用从整体上来说就是用来分隔文本的。 默认是根据空白字符,将一行文件内容分隔成多部份。 常用选项: 使用-F的选项来指定awk工具使用的分隔符, 在awk内部有类似于$1,$2,$3这样的变量,$1代表第一部分,$2代表第…

密码管理APP系统规格说明书(初版)

这里写目录标题 1 引言1.1 背景1.2 目的1.3 范围 2 系统需求2.1 功能需求2.2 性能需求2.3 安全需求2.4 兼容性需求 3 系统设计3.1 总体架构3.1.1 系统架构概述3.1.2 技术选型 3.2 功能模块设计3.2.1 密码生成模块3.2.2 安全存储模块3.2.3 自动填充模块3.2.4 多平台支持模块3.2.…

开源商城系统crmeb phpstudy安装配置

BOSS让我最快时间部署一套开源商场系统,今天就以crmeb为例。 快速部署在linux中我会首选docker,因为我要在windows中部署,本文就选用phpstudy集成环境做了。 什么是crmeb 我从官网摘点: CRMEB产品与服务 CRMEB通过将CRM&#x…

SPI通信时序

前言: 作为Motorola的又一伟大发明的SPI总线通信协议,在理解和应用上也是十分复杂且难以理解,博主想通过这篇文章想把SPI的原理和应用大概讲一下,同时也是记录自己对于I2C的学习和理解。 SPI概述: SPI 是英语Serial P…

【C语言复习专题】函数调用

【C语言复习专题】函数调用 1.递归是什么?1.1递归的思想:1.2递归的限制条件 2.递归举例2.1eg1:求n的阶乘2.1.1 分析和代码实现2.1.2作图演示过程 2.2 eg2:顺序打印一个整数的每一位2.2.1分析 3.递归与迭代 1.递归是什么&#xff1…

2-124 基于matlab得结构稀疏字典实现SAR图像低秩重建

基于matlab得结构稀疏字典实现SAR图像低秩重建,通过K-SVD和W-KSVD结合OMP进行重建。K-SVD算法是一种字典学习算法,能够对字典进行优化,使其能够更好地表示训练样本集。W-KSVD算法是K-SVD算法的扩展,它能够利用权重信息对字典进行优…

华为---Super VLAN简介及示例配置

目录 1. Super VLAN技术产生背景 2. Super VLAN概念 3. Super VLAN应用场景 4. Super VLAN工作原理 5. Super-VLAN主要配置命令 6. Super-VLAN主要配置步骤 7. 示例配置 7.1 示例场景 7.2 网络拓扑 7.3 配置代码 7.4 代码解析 7.5 测试验证 1. Super VLAN技术产生背…

【开源免费】基于SpringBoot+Vue.JS房屋租赁系统(JAVA毕业设计)

本文项目编号 T 020 ,文末自助获取源码 \color{red}{T020,文末自助获取源码} T020,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析 六、核心代码6.1 查…

ubuntu20.4环境下gcc-aarch64交叉编译器的安装

交叉编译器(Linux环境)arm gcc 8.3一共有5个版本,常用的有4个版本(另外一个为大端linux版本),分别是32bit裸机版本(arm-eabi)、64bit裸机版本(aarch64-elf)、…

2015年-2016年 软件工程程序设计题(算法题)实战_c语言程序设计数据结构程序设计分析

文章目录 2015年1.c语言程序设计部分2.数据结构程序设计部分 2016年1.c语言程序设计部分2.数据结构程序设计部分 2015年 1.c语言程序设计部分 1.从一组数据中选择最大的和最小的输出。 void print_maxandmin(double a[],int length) //在一组数据中选择最大的或者最小的输出…

EM算法学习

1.EM算法的介绍 可以发现:计算出θA和θB的值的前提是知道A、B币种的抛掷情况。 所以我们需要使用EM算法:求出每轮选择硬币种类的概率 2.EM算法执行过程: 第一步:首先初始化设置一组PA和PB证明的值。然后通过最大似然估计得到每…

2024软考网络工程师笔记 - 第3章.广域通信网

文章目录 广域网物理层特性1️⃣公共交换电话网 PSTN2️⃣本地回路3️⃣机械特性4️⃣电气特性 🕑流量与差错控制1️⃣流量与差错控制2️⃣流量控制——亭等协议3️⃣流控机制——滑动窗口协议4️⃣差错控制5️⃣差错控制——停等协议6️⃣差错控制——选择重发ARQ协…