OpenAI 推出语音引擎,只需15秒样本,即能重建任何人的声音

OpenAI 又带来了一项超酷的进展!周五推出了一项名为 Voice Engine 的语音引擎,仅凭一段15秒的声音样本,便能够精准模仿出那个人的声音。

GPT-3.5研究测试:
https://hujiaoai.cn

GPT-4研究测试:
https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4):
https://hiclaude3.com

Voice Engine 的独特之处在于,它能通过简单的文本输入和短短音频样本,创造出非常接近原始说话者的自然声音。这意味着无论你让它读什么语言的文字,都能以那个人独有的声音风格朗读,效果既逼真又充满感情。

总而言之,OpenAI 通过这项新技术展示了人工智能复制人声的惊人可能性,接下来让我们一起看下吧~

Voice Engine 两年前已开始研发

事实上,OpenAI 早在 2022 年末便启动了 Voice Engine 的开发,并已利用此技术为其文本到语音 API、ChatGPT Voice 以及朗读功能装配了预设声音。

在技术成功开发后,OpenAI 并未立即向市场全面推广,而是选择与一小群早期测试者“小心翼翼”地合作,共同探索其应用可能性和潜在风险。

在与 TechCrunch 的采访中,OpenAI 产品团队成员 Jeff Harris 透露,该模型是在“已获授权和公开可用数据的结合”上进行训练的。该技术将仅限于大约 10 名开发者使用,获准访问的组织包括教育技术企业 Age of Learning、视觉叙事平台 HeyGen、前沿健康软件制造商 Dimagi、AI 通信应用开发者 Livox 以及医疗健康系统 Lifespan。

OpenAI在官网展示出了一些已经开始应用的例子:

1. 生成更自然、富有情感的声音

通过自然、富有情感的声音,比预设的声音更能代表更广泛的说话者,为非读者和儿童提供阅读帮助,致力于儿童学业的教育技术公司Age of Learning使用这其生成预先编写好的配音内容。此外,语音引擎和GPT-4创建实时、个性化的响应来与学生互动。

2. 翻译视频和播客等内容

为了让创作者和企业以其独有的声音接触到全球更多的听众,HeyGen,— 一家专注于AI视觉叙事的平台,成为了此技术的早期采用者。他们为从产品营销到销售展示的广泛内容制作定制化、仿真的头像。借助Voice Engine技术将视频内容翻译成多种语言,以此拓宽其全球受众的范围。这项技术的一大特色是在翻译过程中能够保留演讲者原有的口音特征,例如,使用一位法国演讲者的声音样本进行英语翻译时,生成的语音将保留有法国口音,为翻译增添了更多的真实感和个性化色彩。

3. 改善偏远地区的基本服务

OpenAI 强调自身的存在是希望为全球社区带来福祉,因此正在和当地合力为社区卫生工作提供各类基础服务,例如向哺乳期母亲提供专业咨询。为了促进这些工作者技能的提升,采用Voice Engine擎和GPT-4技术,以工作者的母语提供互动式反馈。

4.支持言语障碍人士提供帮助

为非言语人群提供支持,例如开发针对语言障碍者的治疗应用,以及为有特殊学习需求的人提供教育辅助。Livox是一款采用人工智能的替代及增强通信(AAC)应用,能够赋能残障人士进行沟通。通过利用先进的语音引擎,Livox能为用户提供独一无二、非机械化的声音,涵盖多种语言。这使得用户能够选择最能体现其个性的声音,并且对于那些使用多种语言的用户,保持在各种语言中声音的一致性。

5. 帮助患者恢复他们的声音

针对那些受到突发性或退行性语言障碍影响的人群,OpenAI与Norman Prince 神经科学研究所合作,正在研究AI在临床设置中的应用。他们最近启动了一个试点项目,为那些因癌症或神经病理学问题而遭受语言障碍的患者提供Voice Engine服务。这项技术的一个显著优点是它仅需很短的音频样本即可运作。因此,医生Fatima Mirza、Rohaid Ali和Konstantina Svokos得以使用一位年轻患者之前为学校项目录制的视频音频,成功恢复了她因血管性脑瘤而失去的流畅语言能力。

潜在风险与安全措施

想一想,如果有人只用几段录音就能复刻出你的声音,这听起来是不是虽然酷炫,但也挺骇人听闻?

技术在进步,我们能做的事情越来越神奇,比如让失声的人再次“说话”,或者让你听到一个从未学过外语的朋友用流利的法语或日语跟你聊天。

但是伴之而来的,也会有人用你的声音去骗你家人的钱,或者在网上放一个假的你说话的录音,甚至随着这些生物特征能用AI生成,先是人脸、声音那这样高速发展的双刃剑技术进入我们的世界,会不会带来失控呢?

而且Voice Engine的出生刚好撞到枪口!

上个月,联邦通信委员会(FCC)因收到使用乔·拜登总统 AI 克隆声音的骚扰电话而禁止使用 AI 生成的语音电话,全国拉响了警铃。

“这是一个敏感的领域,处理得当极为重要,”OpenAI 产品经理 Jeff Harris 在采访中指出。OpenAI也承认,生成人类声音的技术确实携带着严重的风险。

Open AI 正在探索为合成声音添加水印或其他控制措施的方法,以防止技术被用来模仿政治人物或其他公众人物的声音。

OpenAI 希望引发有关合成声音负责任使用的对话,以及社会如何适应这些新兴技能的讨论。根据这些对话和小规模测试的结果,OpenAI 将做出更明智的决策,以确定是否以及如何在更大范围内部署这项技术。

而现阶段,由于技术目前只面向合作伙伴的使用,OpenAI要求使用者们遵循一项使用政策,该政策禁止未经同意或合法权利冒充他人或组织,要求合作伙伴从原始说话者处获得明确和知情的同意,并禁止开发者构建允许个人用户创建自己声音的工具。

合作伙伴还必须向其听众清楚地披露他们听到的声音是由 AI 生成的。此外,还实施了一系列安全跟踪措施,包括水印技术,以追踪任何由 Voice Engine 生成的音频的来源,以及主动监控其使用方式。

小结

在这个令人兴奋的科技进展背后,我们不禁要问自己:

我们真的准备好迎接这样的未来了吗?

OpenAI 的 Voice Engine人工智能拟人的无限可能,让我们得以用新的方式“听见”世界。

但是,正如我们所见,这项技术也带来了不小的挑战和道德考验。随着这样的技术越来越成熟,我们必须更加认真地考虑如何平衡创新和安全。我们该如何确保技术的发展能够促进人类福祉,而不是成为操控和欺诈的工具?

欢迎大家在评论区和我们一起讨论~

参考资料

[1]https://www.theverge.com/2024/3/29/24115701/openai-voice-generation-ai-model
[2]https://www.theverge.com/23864878/ai-voice-clones-podcastle-elevenlabs-personal-voice
[3]https://www.nytimes.com/2024/03/29/technology/openai-voice-engine.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/507796.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

slowhttp攻击漏洞原理解析和防御,以及LiqunKit 综合漏洞利用工具详细使用

slowhttp攻击漏洞原理解析和防御,以及LiqunKit 综合漏洞利用工具详细使用。 Slowhttp攻击是一种拒绝服务(DoS)攻击,它利用了HTTP协议的一些特性来耗尽服务器资源,导致服务器对正常请求的响应变慢或无法响应。这种攻击的特点是长时间占用服务器的连接,而不是发送大量流量…

【vSphere】ESXi 7.0.3 上安装 openEuler 22.03 LTS SP3 虚拟机

目录 1. 在 ESXi 7.0.3 上新建虚拟机1.1 自定义VM名称和选择操作系统系列与版本1.2 选择存储1.3 自定义设置1.4 确认配置1.5 修改引导模式1.6 开机进入系统安装 2. 安装 openEuler 系统2.1 选择 install openEuler 22.03-LTS-SP32.2 选择安装语言2.3 设置安装目的地2.4 设置网络…

java线程(一)--进程,多线程,synchronized和lock锁,JUC,JUnit

Java线程入门 单核CPU和多核CPU的理解 单核CPU,其实是一种假的多线程,因为在一个时间单元内,也只能执行一个线程的任务。例如:虽然有多车道,但是收费站只有一个工作人员在收费,只有收了费才能通过&#xf…

从入门到实战:vue3路由知识点

本人在B站上关于vue3的尚硅谷的课程,以下是整理一些笔记。 1.两个知识点 1.路由组件通常存放在pages 或 views文件夹,一般组件通常存放在components文件夹。 组件可以分为: 1. 一般组件:亲手写标签出来的 2. 路由组件&#…

【前端面试3+1】08 css选择器、在前端页面展示后端传来的图片数组、请求方法的常见类型、【搜索插入位置】

一、css选择器有哪些? 1.元素选择器: 通过元素名称选择元素。 示例:p 选择所有段落元素。 2.类选择器: 通过类名选择元素。 示例:.btn 选择所有类名为 btn 的元素。 3.ID选择器: 通过id属性选择元素。 示例…

CCIE-02-PPPoE

目录 实验条件网络拓朴实验目标 开始配置R1验证效果 实验条件 网络拓朴 实验目标 R2为PPPoE Server,已预配了相关信息;R1作为PPPoE Client,进行PPPoE拨号 用户名为R1,密码为cisco , 采用CHAP的认证方式,I…

Python入门(八)

引入 引入函数 为了减少代码的冗余,减轻我们的工作量,我们常常将代码分块编写,在Python中更是如此,那么我们怎么在一个新的程序文件中调用我们已经编写好程序文件的函数,我们使用import。我们先写一个first.py为例语…

【MySQL】一文带你搞定 外键约束&其【更新/删除行为】(可cv代码&案例演示)

前言 大家好吖,欢迎来到 YY 滴MySQL系列 ,热烈欢迎! 本章主要内容面向接触过C Linux的老铁 主要内容含: 欢迎订阅 YY滴C专栏!更多干货持续更新!以下是传送门! YY的《C》专栏YY的《C11》专栏YY的…

新生报到系统的设计与实现(论文+源码)_kaic

摘 要 互联网发展至今,无论是其理论还是技术都已经成熟,而且它广泛参与在社会中的方方面面。它让信息都可以通过网络传播,搭配信息管理工具可以很好地为人们提供服务。针对新生报到信息管理混乱,出错率高,信息安全性差…

突发: xz-utils 被注入后门 (CVE-2024-3094)

Andres Freund 在 2024 年 3 月 29 日发现了一个在 xz-utils 注入的后门;使用了 xz/lzma 5.6.0 / 5.6.1 的项目皆受影响。 杀伤力: 当前还未完全清楚;但 openssh 的 sshd 首当其冲;注入的代码会 Hook OpenSSH 的 RSA_public_decrypt 函数&a…

第四百三十六回

文章目录 1. 概念介绍2. 思路与方法2.1 实现思路2.2 实现方法 3. 示例代码4. 内容总结 我们在上一章回中介绍了"不同平台上换行的问题"相关的内容,本章回中将介绍如何在页面上显示蒙板层.闲话休提,让我们一起Talk Flutter吧。 1. 概念介绍 我…

[中级]软考_软件设计_计算机组成与体系结构_04_寻址地址

寻址地址 概念指令的概念 寻址方式立即寻址方式直接寻址方式间接寻址方式寄存器寻址方式寄存器间接寻址方式往年真题 概念 指令的概念 一条指令就是机器语言的一个语句,它是一组有意义的二进制代码,指令的基本格式如下: 操作码字段地址码字…

SAP 未清销售订单的取值

每个公司都会有自己的销售报表, 一般来说VA05的都满足不了客户的定制化需求。 所以都要进行自定义报表的开发, 在开发的过程中,也会有未清销售订单和已清销售订单的区分 一开始我的想法是,根据销售订单去找交货单累计已交货的…

面向对象程序之多态

1.多态的概念 简单来说,就是多种形态,具体点就是去完成某个行为,不同的对象去完成会有不同的形态。 举个例子:对于动物,他们吃的都是食物,但狗吃的是狗粮,猫吃的是猫粮,去完成吃这个…

lua脚本在redis集群中哈希槽分片问题

上文说到,通过用redis lua脚本实现时间窗分布式限流 可以操作redis lua脚本来实现时间窗限流,在执行lua脚本的时候,参数中有个keys列表,当lua脚本中如果有操作多个key的情况,就可以传个key列表了。通常情况下&#xff…

Java封装最佳实践:打造高内聚、低耦合的优雅代码~

​ 个人主页:秋风起,再归来~ 文章专栏:javaSE的修炼之路 个人格言:悟已往之不谏,知来者犹可追 克心守己,律己则安! 1、封装 1.1 封装的概念 面向对象程序三大…

python练习二

# Demo85def pai_xu(ls_test):#创建一个列表排序函数命名为pai_xu# 对创建的函数进行注释"""这是一个关于列表正序/倒序排列的函数:param ls_test: 需要排序的列表:return:"""ls1 [int(ls_test[i]) for i in range(len(ls_test))]#对input输入的…

surfer绘制等值线图

surfer介绍 Surfer软件,是美国Golden Software公司编制的一款以画三维图的软件。该软件具有强大的插值功能和绘制图件能力,可用来处理XYZ数据,是地质工作者常用的专业成图软件(来源于百度百科)。 surfer可以用来绘制…

计算机网络—TCP协议详解:特性、应用(1)

🎬慕斯主页:修仙—别有洞天 ♈️今日夜电波:マリンブルーの庭園—ずっと真夜中でいいのに。 0:34━━━━━━️💟──────── 3:34 🔄 ◀️…

Java中常见的锁策略

目录 乐观锁 vs 悲观锁 悲观锁: 乐观锁: 重量级锁 vs 轻量级锁 ⾃旋锁(Spin Lock) 公平锁 vs 非公平锁 可重⼊锁 vs 不可重入锁 读写锁 乐观锁 vs 悲观锁 悲观锁: 总是假设最坏的情况,每次去拿数据的时候都认为别…