OpenAI发布Voice Engine模型!用AI合成你的声音!

大家好,我是木易,一个持续关注AI领域的互联网技术产品经理,国内Top2本科,美国Top10 CS研究生,MBA。我坚信AI是普通人变强的“外挂”,所以创建了“AI信息Gap”这个公众号,专注于分享AI全维度知识,包括但不限于AI科普AI工具测评AI效率提升AI行业洞察。关注我,AI之路不迷路,2024我们一起变强。

北美时间3月29日,OpenAI继续大秀肌肉,在一篇博客中发布并展示了一款AI合成语音的模型,Voice Engine。Voice Engine的核心功能是从15秒的录音中生成接近说话者音色的自然语音。如果你上传自己的录音和一段文本,它可以使用听起来像你的AI合成语音来读取文本。并且,文本不必是母语。例如,Voice Engine可以用中文、英语、西班牙语、法语或许多其他语言重新创建你的声音。

和之前公布的文本生成视频模型Sora一样,OpenAI并没有公测Voice Engine这项技术,而是仅对少部分内测用户开放。据OpenAI官方表示,它仍在探索这项AI技术潜在的风险。与图像和视频生成模型一样,语音生成模型很有可能被用在社交媒体上散布虚假信息,并且可能被犯罪分子用来在网上或电话中冒充他人。OpenAI担心Voice Engine可能被用来破解银行账户和其他个人应用程序访问的声音认证系统。

OpenAI的产品经理Jeff Harris在接受采访时表示:“This is a sensitive thing, and it is important to get it right. (这是一个敏感的问题,正确处理它非常重要。)”OpenAI正在探索为合成声音添加水印或控制措施,以防止人们使用该技术模仿政治家或其他知名人物的声音。

Voice Engine早期应用场景

早在2022年底,OpenAI就已开发Voice Engine,并使用它来为文本转语音(TTS)API中的预设声音以及ChatGPT Voice和Read Aloud提供支持。OpenAI表示它一直抱着谨慎的态度,防止AI合成的声音被滥用。目前Voice Engine正在进行小规模测试,OpenAI将根据小规模测试结果做出关于是否以及如何在更大规模上部署这项技术的决定。

关于文本转语音TTS技术感兴趣的小伙伴可以看我之前的这篇文章:ChatGPT最新功能“Text To Speech (TTS,文本转语音)”详细解读!

Voice Engine自去年开始的早期应用场景包括:

  1. 教育辅助与个性化互动

    • 通过听起来很自然、富有情感的声音为阅读障碍人群和儿童提供阅读辅助,提供比一些预设声音更广泛的音色。致力于儿童学术的教育技术公司Age of Learning一直在使用这项技术来生成预设脚本的配音内容。他们还使用Voice Engine和GPT-4来创建实时、个性化的响应,与学生互动。通过这项技术,Age of Learning能够为更广泛的受众创造更多内容。

  2. 多语言视频和播客翻译

    • Voice Engine技术支持将内容如视频和播客翻译成多种语言,使创作者和企业能够以自己的语言流利地触及全球观众。早期使用者之一是HeyGen,这是一个AI视觉叙事平台,与他们的企业客户合作,为各种内容创建定制的、类人化的头像,从产品营销到销售演示。他们使用Voice Engine进行视频翻译,这样他们可以将说话者的声音翻译成多种语言,并触及全球观众。当用于翻译时,Voice Engine保留了原始说话者的本地口音:例如,使用法语说话者的音频样本生成的英语会带有法语口音。

  3. 提升偏远地区服务交付

    • 通过改善偏远地区的基本服务交付,触达全球社区。Dimagi正在为社区卫生工作者构建工具,以提供各种基本服务,例如为哺乳母亲提供咨询。为了帮助这些工作者发展他们的技能,Dimagi使用Voice Engine和GPT-4以每位工作者的主要语言提供交互式反馈,包括斯瓦希里语或像Sheng这样的非正式语言,Sheng是肯尼亚流行的混合代码语言。

  4. 增强语言障碍人群的沟通能力

    • 支持无法用语言进行沟通的人群,例如为影响语言的疾病患者的治疗应用和为有学习需求的人提供教育增强。Livox是一个AI替代通讯应用程序,为残疾人提供增强性和替代性通讯(AAC)设备。通过使用Voice Engine,他们能够为非言语人群提供独特且非机械的声音,涵盖多种语言。他们的用户可以选择最能代表他们的声音,对于多语言用户来说,可以在每种口语中保持一致的声音。

  5. 帮助患者恢复声音

    • 帮助患者恢复声音。布朗大学医学院的主要教学附属机构,Norman Prince Neurosciences Institute正在探索AI在临床环境中的用途。他们一直在试行一个项目,为因肿瘤或神经原因导致言语障碍的个体提供Voice Engine。由于Voice Engine只需要15s之短的音频样本,医生Fatima Mirza、Rohaid Ali和Konstantina Svokos能够恢复一位因脑血管肿瘤失去流利语言能力的年轻患者的的声音,使用的是为学校项目录制的视频中的音频。

构建安全的Voice Engine

OpenAI再次强调,在构建Voice Engine时充分意识到AI合成语音技术可能带来的风险,尤其是在选举关键时期。为了确保这项技术的安全使用,OpenAI积极与来自政府、媒体、娱乐、教育和民间社会的美国及国际合作伙伴进行沟通,以获取他们的反馈和建议,并将其融入到技术构建的过程中。

在测试阶段,OpenAI与合作伙伴共同制定了严格的使用政策,明确禁止未经授权的个人或组织声音模仿行为。合作伙伴需获取原始说话者的明确和知情同意,同时确保开发者不为个人用户创建定制声音,并要求向听众明确披露所听到的声音是由AI生成的。此外,为了追踪音频来源并监控使用情况,实施了包括水印技术和主动监控在内的安全措施。OpenAI还提倡建立声音认证机制和禁止声音列表,以防止合成声音与知名人物过于相似,确保技术的负责任部署。

面向未来的技术展望与社会责任

Voice Engine的开发体现了OpenAI对人工智能前沿技术的深入探索和对公开分享其潜力的承诺。在考虑到AI安全性的重要性和对社会的潜在影响下,选择仅进行有限的预览而非全面发布,旨在平衡技术的推广与其可能带来的风险。这一举措旨在展示该技术的潜力,同时唤起社会对于由高度逼真的生成式AI模型所带来的挑战的关注和应对能力。

为了应对AI合成语音技术可能带来的挑战,OpenAI提出了一系列具体的行动建议。这包括逐步淘汰基于声音的认证机制,以增强对敏感信息的保护;探索制定相关政策以保护个人声音不被滥用;普及AI技术的教育,提高公众对技术的理解和对潜在欺骗性内容的警觉;以及加速开发能够追踪音视频内容来源的技术,确保用户能够明确区分真人与AI的互动。

OpenAI博文原文

最后,附上英文版的OpenAI博文原文:

https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices


精选推荐

  1. 完全免费白嫖GPT4的三个方法,都给你整理好了!

  2. AI领域的国产之光,ChatGPT的免费平替:Kimi Chat!

  3. Kimi Chat,不仅仅是聊天!深度剖析Kimi Chat 5大使用场景!

  4. 我用AI工具5分钟制作一个动画微电影!这个AI现在免费!

  5. 当全网都在疯转OpenAI的Sora时,我们普通人能做哪些准备?——关于Sora,你需要了解这些!

  6. 文心一言4.0 VS ChatGPT4.0哪家强?!每月60块的文心一言4.0值得开吗?

  7. ChatGPT和文心一言哪个更好用?一道题告诉你答案!

  8. 字节推出了“扣子”,国内版的Coze,但是我不推荐你用!

  9. 白嫖GPT4,Dalle3和GPT4V - 字节开发的Coze初体验!附教程及提示词Prompt

  10. 2024年了你还在用百度翻译?手把手教会你使用AI翻译!一键翻译网页和PDF文件!


都读到这里了,点个赞鼓励一下吧,小手一赞,年薪百万!😊👍👍👍。关注我,AI之路不迷路,原创技术文章第一时间推送🤖。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/501034.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

合集:JS异步的六个解决方案详解。

Hello,各位老铁,最近发表了js异步的解决方案,是分开发的,这次我把他汇总起来,方便大家收藏、查看,欢迎点赞评论私信交流。 01.详解:JS异步解决方案之回调函数,及其弊端 02.详解&…

函数指针的运用

这段代码使用了函数指针,实现了根据用户输入的命令选择不同的操作,并对两个数进行相应的处理。以下是代码的总结: getMax, getSmall 和 getSum 函数分别用于获取两个数中的较大值、较小值和它们的和。 dataHandler 函数接收两个数据 data 和…

ElementUI表格table组件实现单选及禁用默认选中效果

在使用ElementUI&#xff0c;需要ElementUI表格table组件实现单选及禁用默认选中效果, 先看下效果图&#xff1a; 代码如下&#xff1a; <template><el-tableref"multipleTable":data"tableData"tooltip-effect"dark"style"widt…

2024 ccfcsp认证打卡 2022 03 02 出行计划

import java.util.Scanner;public class Main {public static void main(String[] args) {Scanner sc new Scanner(System.in);int n sc.nextInt(); // 出行计划数目int m sc.nextInt(); // 查询个数int k sc.nextInt(); // 等待核酸检测结果所需时间final int N 200010;i…

ROS 2边学边练(4)-- 何为主题(topics)

概念 主题是一种节点间的通信方式&#xff0c;某个节点充当发布特定&#xff08;主题&#xff09;消息&#xff08;数据&#xff09;的角色&#xff0c;另外一些节点则可以订阅接收该特定&#xff08;主题&#xff09;消息&#xff08;数据&#xff09;。两者&#xff0…

Centos JDK1.8 下载安装

https://www.oracle.com/java/technologies/javase/javase8u211-later-archive-downloads.html 一 RPM包安装 rpm -ivh jdk-8u391-linux-x64.rpm /etc/profile export JAVA_HOME/usr/java/jdk1.8.0-x64 export PATH$JAVA_HOME/bin:$PATHsource /etc/profile二 tar.gz 包手动…

如何在极狐GitLab 配置 邮件功能

本文作者&#xff1a;徐晓伟 GitLab 是一个全球知名的一体化 DevOps 平台&#xff0c;很多人都通过私有化部署 GitLab 来进行源代码托管。极狐GitLab 是 GitLab 在中国的发行版&#xff0c;专门为中国程序员服务。可以一键式部署极狐GitLab。 本文主要讲述了在极狐GitLab 用户…

封装性练习

练习 1 &#xff1a; 创建程序&#xff1a;在其中定义两个类&#xff1a; Person 和 PersonTest 类。定义如下&#xff1a; 用 setAge() 设置人的合法年龄 (0~130) &#xff0c;用 getAge() 返回人的年龄。在 PersonTest 类中实例化 Person 类的对象 b &#xff0c;调用 set…

基于Web的社区医院管理服务系统的设计与实现|Springboot+ Mysql+Java+ B/S结构(可运行源码+数据库+设计文档)

本项目包含可运行源码数据库LW&#xff0c;文末可获取本项目的所有资料。 推荐阅读100套最新项目持续更新中..... 2024年计算机毕业论文&#xff08;设计&#xff09;学生选题参考合集推荐收藏&#xff08;包含Springboot、jsp、ssmvue等技术项目合集&#xff09; 1. 系统功能…

模型 可编程思想

系列文章 分享 模型&#xff0c;了解更多&#x1f449; 模型_总纲目录。一切皆有可能。 1 可编程思想的应用 1.1 自动化智能投资顾问服务 传统的财富管理服务通常需要专业的财务顾问来为客户提供投资建议和资产管理服务。随着技术的发展&#xff0c;越来越多的投资者开始寻求…

【群晖】白群晖如何公网访问

【群晖】白群晖如何公网访问 ——> 点击查看原文 在使用默认配置搭建好的群晖NAS后&#xff0c;我们可以通过内网访问所有的服务。但是&#xff0c;当我们出差或者不在家的时候也想要使用应该怎么办呢&#xff1f; 目前白群提供了两种比较快捷的方式&#xff0c;一种是直接注…

广发期货:从灾备中心、信创云到主中心,超融合支撑云化与国产化双转型

案例亮点 超过 30 节点承载灾备中心、信创云及主中心的 60% 以上业务系统。超融合信创资源池稳定运行超 1 年&#xff0c;承载 80% 以上的信创系统&#xff0c;顺利通过信创验收。引入超融合架构后&#xff0c;业务在 1 周内快速上线&#xff0c;稳定运行 3 年&#xff1b;减少…

【MySql数据库】MySQL5.7在navicat中建立连接报错1045及重装MySQL过程中3306端口号被占用释放的过程

文章目录 一、报错1、软件中报错2、navicat中报错3、数据库密码是正确的4、卸载数据库5、重装数据库发现3306端口被占用 二、释放3306端口1、找到3306端口对应的PID值2、释放3306端口号3、释放端口后&#xff0c;重装数据库 一、报错 1、软件中报错 2、navicat中报错 在navic…

HTTP常见状态码

1xx 该类状态码属于提示信息&#xff0c;协议处理的中间状态&#xff0c;实际用到的比较少 2xx 该类状态码表示服务器成功处理了客户单的请求 200 OK 表示服务器成功处理了客户端的请求&#xff0c;一切正常 204 no content 表示服务器返回的内容里没有body 206 partial co…

北京小蓝蜂科技有限公司 基本情况

北京小蓝蜂科技有限公司 基本情况 公司概述 北京小蓝蜂科技有限公司(简称“小蓝蜂”)是一家专注于互联网行业的公司,成立于4年前,位于北京市海淀区成府路45号中关村智造大街G座一层J030。小蓝蜂主要业务包括技术开发、技术咨询、技术转让、技术推广等,同时也涉及销售自行…

【Go】六、函数

文章目录 1、函数的定义2、内存分析3、注意点4、函数数据类型5、自定义数据类型&#xff08;起别名&#xff09;6、支持对返回值命名 1、函数的定义 语法&#xff1a; func 函数名&#xff08;形参列表)&#xff08;返回值类型列表&#xff09;{执行语句..return 返回值列…

Android 12.0 mtp模式下连接pc后显示的文件夹禁止删除copy重命名功能实现

1.前言 在12.0的系统rom定制化开发中,usb连接pc端的时候有好几种模式,在做otg连接pc端的时候,改成mtp模式的时候,在pc端可以看到产品设备 的显示的文件夹的内容,对于产品设备里面的文件在pc端禁止做删除重命名拷贝等操作功能的实现 2.mtp模式下连接pc后显示的文件夹禁止删…

《HelloGitHub》第 96 期

兴趣是最好的老师&#xff0c;HelloGitHub 让你对编程感兴趣&#xff01; 简介 HelloGitHub 分享 GitHub 上有趣、入门级的开源项目。 https://github.com/521xueweihan/HelloGitHub 这里有实战项目、入门教程、黑科技、开源书籍、大厂开源项目等&#xff0c;涵盖多种编程语言 …

Ubuntu系统设置静态固定IP保姆级教程

1、查看网络接口信息 ifconfig 首先需要确认要设置固定IP的网络接口。在大多数情况下&#xff0c;这通常是ens33 2、查看路由网关信息 route -n # 查看打印 路由表 网关地址 3、备份文件 为了防止防止出现意外问题。Ubuntu中的网络配置文件通常存储在/etc/netplan/目录下&…

Linux内核之debugfs_create_dir与debugfs_create_file实例与调用栈流程(三十二)

简介&#xff1a; CSDN博客专家&#xff0c;专注Android/Linux系统&#xff0c;分享多mic语音方案、音视频、编解码等技术&#xff0c;与大家一起成长&#xff01; 优质专栏&#xff1a;Audio工程师进阶系列【原创干货持续更新中……】&#x1f680; 优质专栏&#xff1a;多媒…