OpenAI 15秒重建逼真人声,百度早就实现啦!只需2秒生成完美音色,免费使用

大家好,我是卖萌酱。

这两天,卖萌酱发现有不少读者小伙伴都在关注几天前我们介绍的OpenAI刚刚发布的这个名为Voice Engine 的语音引擎。这个听起来颇为“Amazing”的“黑科技”,可以仅仅凭借一段15秒的声音样本,就能精准模仿这段声音主人的语音语调

分享几个网站

GPT-3.5研究测试:
https://hujiaoai.cn

GPT-4研究测试:
https://higpt4.cn

Claude-3研究测试(全面吊打GPT-4):
https://hiclaude3.com

图片

克隆爱豆的声音让爱豆每晚给我讲睡前故事?各种配音剪辑未来又可以玩的飞起?甚至再放飞一点想象快进到具身机器人感情丰沛血肉饱满的与人开始对话?

图片

不过在放飞想象之余,单看Voice Engine这功能,卖萌酱却总觉得似曾相识好像在哪里见过,果然,这两天在卖萌酱高强度网上冲浪时,就发现了一个“秘密”——嗯?怎么这OpenAI这看起来炫酷无比的语音引擎,已经被百度早早上线的文心一言APP里一个小小的“酷功能”给实现了???

一、只用两秒,制造定制声音?

打开文心一言APP,我们可以定制专属的智能体,而在声音选择一项里,就有这个“创建我的声音”的功能。

图片

图片

操作十分简单,只要简单说一句话,就可以创建一个完美模仿自己声音特点的“语音助手”,让我们首先来听听原声:

原声,夕小瑶科技说,10秒

在检查完声音质量后,只需要两秒左右,一个属于自己的“语音库”便被构建完毕。

图片

在未来和这个智能体所有的对话,都可以通过点击下方的播放键来使用我们自己合成的自己的音色完成语音播报。

图片

甚至于,点击下方对话框上的通话按钮:

图片

还可以与我们自己构建的数字分身实时通话!音色音调也完全保持一致

图片

卖萌酱试着与自己创建的智能体聊了两句,好家伙,这哪里还是什么让人出戏的机械造物,这简直就是自己的“数字分声”!

合成声音,夕小瑶科技说,22秒

图片

老实讲,百度这个体验感如此好的语音合成功能带给卖萌酱的震撼要比OpenAI发布的一个简单Demo和音频演示要大的多,而除了惊讶于语音合成质量与生成速度以外,卖萌酱也惊奇于百度已经悄无声息的把这样一个听起来还相当新奇的“黑科技”如此成熟的内嵌于自己推出的产品应用之中。

而作为一个技术宅(不是),自然,卖萌酱也想探究一下这个“酷功能”背后的技术背景。

二、解秘语音合成,数字分身是怎么炼成的?

卖萌酱关注百度语音合成技术已久,会发现百度的语音技术团队不仅仅是所有互联网行业中最早自主研发语音技术的团队,也是国内最先将深入学习引入到语音合成之中的团队

在大模型语音助手、数字分身这些最近才火爆起来的应用场景以外,百度的语音合成团队之前是业界首个将个性化离线合成落地到导航场景中的团队,这里的关键词是离线

对于导航场景下的语音合成问题,由于当汽车在高速行驶过程中,导航语音播报必须要做到稳定与可靠,因此语音合成便需要在手机端侧离线完成。而在此基础上,当用户不仅仅需要“标准化导航”,而更需要“个性化导航”时,这样一个离线的个性化语音合成便成为了技术难点。而百度的语音合成团队做到了用户仅需录制3-20句话,5分钟后就可获得自己声音的音库,在得到音库后,后续一切导航的播报均可在离线场景下的完成,完全无需网络。

图片

而时间来到2022年4月,世界读书日前夕,喜马拉雅APP上线了百度创始人、董事长兼CEO李彦宏的《智能交通》一书,除却关于介绍中国智能交通发展现状与前景的内容本身,这本书当时最引人关注的一点就是它的音频版是通过李彦宏公开的300句话的录音,通过AIGC的语言合成技术创作生成的,相比于导航场景,《智能交通》有声书有86集,共20万字,而百度的语言合成团队却仅仅依靠300句话就生成了媲美专业音库的语音内容,截至目前累积播放已经达到262万。 可能如果不是新闻,普通用户都无法分辨朗读是语音合成还是真人朗诵。

图片

建立在这些个性化语音合成的工作基础之上,当时间来到2023年,伴随着大模型的出现,依托文心文本大模型以及百度语音团队研发的语音合成大模型,百度语音合成团队成功实现了Zero-shot 云端个性化语音合成,这也正是前面卖萌酱可以快速构建数字分身的关键。

一方面,从技术上来看,百度研发了跨模态跨领域的语音识别和语音合成一体化建模技术,通过被广泛用在语音识别中的隐马尔可夫技术捕捉语音合成中的韵律信息,使用大语音模型的建模技术端到端的完成语音识别到语音合成的一体化建模,再依赖于大模型的能力,结合Prompt技术,从而实现了无需微调,完全Zero-shot的方式快速生成自然、流畅的个性化合成声音。

而另一方面,从工程上来看,百度也摒弃了以往通过精确标注得到合成数据的路子,而是使用语音增强、说话人聚类和语音识别技术,对大量无标注语料进行自动挖掘和处理,从而获得了大量的丰富韵律的说话人数据,大大提升了模型的能力。

图片

结合技术上的创新和工程上的改进,最终百度语音合成团队实现了上述那样准确、快速的个性化语音合成应用,生成的音频质量完美的保留了作为Prompt的音频数据的情感、风格和自然度,并且,这项功能还对不同年龄、性别的人群具备极高的鲁棒性,还是之前的例子,当儿童用童声原声时:

儿童原声,夕小瑶科技说,10秒

个性化语音合成依然可以保持完美的合成效果:

童声合成,夕小瑶科技说,7秒

而对于方言口音较重的用户:

方言原声,夕小瑶科技说,12秒

合成依然鲁棒!

方言合成,夕小瑶科技说,6秒

三、不仅仅是黑科技!更是落地应用!

2023年3月5日,长江日报的记者将下面这段音频播放给了83岁的薛三元老人

雷锋合成声音,夕小瑶科技说,1分钟

“这个一听就是雷锋,很符合雷锋的讲话风格!” 薛三元老人如是说“他讲话比较快,就是一个湖南娃”。薛三元老人是雷锋的生前战友,曾担任过雷锋的班长和排长。在“AI还原原声·听雷锋读《雷锋日记》”活动上,利用百度语音合成团队提供的新一代面向AIGC的语音合成技术方案,成功让薛三元老人再次听到了雷锋的声音

图片

事实上,不仅仅是简单的让一个大模型或AI助理开口说话,面向更广阔的社会应用,语音合成技术还有广泛的可被探索的应用空间,除了让雷锋读雷锋故事,伴随着直播电商行业的发展,趋于白热化竞争的市场需要有新的突破口。而AI数字人,数字分身等技术也被认为是在这一庞大市场下,许多超级主播们的新的增长点。而除此之外,放眼更广泛的社会生活的方方面面,个性化语音合成技术还可以做到辅助教学、帮助听障人群、促进社区服务等等

而落地于这些方面,百度以及百度的语音合成团队已经探索了许多。相较于Voice Engine技术发烧友式的“突然出现”,在我们没有看到的地方,百度的语音合成技术已经积淀良久,在各个领域都探索了不同的应用。

其实,对于任何一项技术而言,除却它的“技术之美”以外,更多的还是要看它应用于社会各个方面对社会带来的改变,而这一点,其实要比许多在技术层面的刷榜秀肌肉要重要许多。

而从这一点出发,我们或许可以看到,百度想做的可能不仅仅是一个“AI黑科技”,也许更是希望实实在在把AI转化为生产力转化为驱动力,让AI真正推动社会发展,真正造福社会吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/513439.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

pytest--python的一种测试框架--接口测试

接口测试 工具: POSTMAN; 接口选择: 豆瓣电影,进制数据 POSTMAN下载: 1.POSTMAN官网:https://www.postman.com/products/; 2.点product选Download Postman 下载完之后双击打开就可以用的。…

【智能算法】金枪鱼群优化算法(TSO)原理及实现

目录 1.背景2.算法原理2.1算法思想2.2算法过程 3.代码展示4.参考文献 1.背景 2021年,Xie等人受到自然界中金枪鱼狩猎行为启发,提出了金枪鱼优化算法(Tuna swarm optimization,TSO)。 2.算法原理 2.1算法思想 TSO模…

黑马鸿蒙笔记

目录 25-Stage模型-页面及组件生命周期 26-Stage模型-UIAbility的启动模式 25-Stage模型-页面及组件生命周期 26-Stage模型-UIAbility的启动模式 singleton 只会有一个实例 multiton 会有多个,但是会销毁旧的 standard 会有多个,但是不会销毁

深入了解与全面解析华为认证(HCIA/HCIP/HCIE)

一、网络行业技术认证 网络行业对于技术评定一般分为两种,一种是企业认证,一种是国家认证 企业认证属于技术认证,在国内的互联网企业都会承认,用于评定一个人的技术等级或者企业招投标的资质。 网络行业认证最好的有三种&#…

开源知识管理和协作平台:插件丰富,主题精美 | 开源日报 No.209

logseq/logseq Stars: 27.8k License: AGPL-3.0 logseq 是一个注重隐私的开源平台,用于知识管理和协作。 提供强大的知识管理、协作、PDF 标注和任务管理工具支持多种文件格式,包括 Markdown 和 Org-modeWhiteboard 功能可使用空间画布组织想法&#x…

【THM】Nmap Live Host Discovery(Nmap 实时主机发现)-初级渗透测试

介绍 当我们想要针对一个网络时,我们希望找到一个高效的工具来帮助我们处理重复性任务并回答以下问题: 哪些系统已启动?这些系统上正在运行哪些服务?我们将依赖的工具是Nmap。关于寻找在线计算机的第一个问题将在这个房间得到解答。该房间是专门讨论Nmap的四个房间系列中的…

.pth文件转化为onnx文件,并进行可视化

1、文件转化 import torch.onnx from torchvision import models from onnxsim import simplify import onnx torch_model torch.load("D:\checkpoint-epoch40.pth",map_locationcpu) # pytorch模型加载 model models.resnet50() # model.load_state_dict(torch_…

视频监控/云存储/磁盘阵列/AI智能分析平台EasyCVR集成时调用接口报跨域错误是什么原因?

EasyCVR视频融合平台基于云边端架构,可支持海量视频汇聚管理,能提供视频监控直播、云端录像、云存储、录像检索与回看、智能告警、平台级联、智能分析等视频服务。平台兼容性强,支持多协议、多类型设备接入,包括:国标G…

C++中的List容器用法详解

文章目录 C中的List容器用法详解List 的特点List 的重要接口用法介绍1.创建和初始化Listlist 2.插入元素push_backpush_forntinsert 删除元素pop_backpop_fontclearerase 遍历List迭代器遍历范围for遍历 排序Listsort 反转Listreverse 转移Listsplice 去重unique 合并merge 总结…

语言模型进化史(上)

由于篇幅原因,本文分为上下两篇,上篇主要讲解语言模型从朴素语言模型到基于神经网络的语言模型,下篇主要讲解现代大语言模型以及基于指令微调的LLM。文章来源是:https://www.numind.ai/blog/what-are-large-language-models 一、语…

【国信华源2024年首场春季校园招聘面试会举办】

阳春三月,春意盎然,北京国信华源科技有限公司2024年校园招聘活动如期展开。4月2日,成功举办了“国信华源2024年首场春季校园招聘面试会”。 国信华源公司人力资源部热情接待了前来参加面试的同学们,并亲自陪同他们深入探访了企业。…

《pytorch深度学习实战》学习笔记第1章

第1章 深度学习和pytorch库简介 1.1 深度学习革命 机器学习依赖特征工程。而深度学习是从原始数据中自动找出这样的特征。 1.2 pytorhc深度学习 pytorch是一个python程序库。pytorch为深度学习提供了入门指南。pytorch的核心数据结构——张量,为一个多维数组&…

人工智能上手 Pytorch

人工智能上手 Pytorch 1、人工智能框架历史走向 2015年, caffe,优势配置简单,缺点安装麻烦,且不更新维护 2016年,tensorflow 1.x,定义太严格,很复杂。开发成本高。简单的任务,也很…

Ardupilot无人船(车)各控制模式简介

本文介绍了Ardupilot固件无人船(车)的各种模式。 用户通常使用遥控器开关设置无人船(车)模式。也可以使用地面站更改模式。 对于3档开关,通常最好将一个开关位置设置为HOLD,另一个设置为MANUAL,第三个设置为STEERING或AUTO。 一、ACRO模式 …

C++中的string类模拟实现

目录 string类的模拟实现 string类的构造函数 string类拷贝构造函数 string类析构函数 string类c_str()函数 string类中的[]运算符重载函数 string类中的赋值运算符重载 string类中获取字符串有效字符个数 string类中获取字符串存储空间大小(不包括\0&…

把标注数据导入到知识图谱

文章目录 简介数据导入Doccano标注数据,导入到Neo4j寻求帮助 简介 团队成员使用 Doccano 标注了一些数据,包括 命名实体识别、关系和文本分类 的标注的数据; 工作步骤如下: 首先将标注数据导入到Doccano,查看一下标注…

配置vite配置文件更改项目端口、使用@别名

一、配置vite配置文件更改项目端口 vite官方文档地址:开发服务器选项 | Vite 官方中文文档 (vitejs.dev) 使用: 二、使用别名 1. 安装 types/node types/node 包允许您在TypeScript项目中使用Node.js的核心模块和API,并提供了对它们的类型…

嵌入式面试八股文

大家好,今天给大家介绍嵌入式面试八股文,文章末尾附有分享大家一个资料包,差不多150多G。里面学习内容、面经、项目都比较新也比较全!可进群免费领取。 嵌入式面试中,常被问到的问题通常涉及嵌入式系统的基础知识、应用…

zabbix源码安装

目录 一.安装php和nginx客户端环境 二.修改php配置 三.修改nginx配置文件 四.下载并编译zabbix 五.创建zabbix需要的用户及组 六.安装编译需要的依赖 七.配置zabbix文件 八.数据库配置 九.配置zabbix 十.web界面部署 十一.遇到无法创建配置文件 十二.登录zabbix 前…

非关系型数据库-----------Redis的主从复制、哨兵模式

目录 一、redis群集有三种模式 1.1主从复制、哨兵、集群的区别 1.1.1主从复制 1.1.2哨兵 1.1.3集群 二、主从复制 2.1主从复制概述 2.2主从复制的作用 ①数据冗余 ②故障恢复 ③负载均衡 ④高可用基石 2.3主从复制流程 2.4搭建redis主从复制 2.4.1环境准备 2.4…