仅需30秒完美复刻任何人的声音 - 最强AI音频11Labs

我的用词一直都挺克制的,基本不会用到“最强”这个字眼。

但是这一次的这个AI应用,是我认为在TTS(文字转音频)这个领域,当之无愧的“最强”。

ElevenLabs,简称11Labs。

仅需30秒到5分钟左右的极少的数据集,就可以直接克隆任何一个人的声音,完美复刻他的说话方式、他的音色,甚至连他的情绪都复刻过来。

最牛逼的是,你不需要再额外做任何操作,就可以直接用同样的声音,说出29国的语言。那个流畅度,那个口语表达。。。我在AI面前宛如一个废物。

11Labs网址在此(上不去就开魔法):

https://elevenlabs.io/

尽管很多的大厂的语音TTS能力已经很强大了,比如微软的TTS、比如国庆期间刷爆全网的GPT的语音TTS,但是这些大厂有一个问题,就是公司体量实在太大了,在商业化上的舆论影响和被监管风险也极大,所以这种超低成本的语音克隆TTS,他们至今也没有向大众公开,毕竟很容易受到全社会的伦理指责。

至于那些开源的TTS,说实话,效果都挺差强人意,比如Tortoise奇慢无比,比如bark下限和稳定性太差,都难堪大用。

大厂们公开的语音产品中,也没有一项能达到11Labs如此便宜且如此便捷的了。要知道,像微软的声音克隆成本高的可怕,数小时的数据集、几千几万块钱。而11Labs,只需要30秒到5分钟的音频,1个月只需要5美刀就可以畅快的使用了。效果还出奇的好

毕竟在现在这个AI时代,AI语音已经成了最为重要的环节之一。内容全球化翻译、智能配音、数字人与机器人等,都有超强的应用。换句话说,没有强TTS在背后支持,那些视频和数字人,各个都是恐怖谷效应拉满假到不行的哑巴。

而11Lbas的使用上,更是突出一个简单和有手就行。

先准备30秒到5分钟的音频文件,不需要超过5分钟,对质量几乎没有任何意义了。你可以多个音频文件,但是每个不要超过10M。这块一定要注意,数据集的质量跟你后面生成的质量息息相关,里面不要有任何杂音,越干净、越纯粹越好

上面那个例子,我就去B站扒了点特朗普的演讲视频,然后剪映剪了下,准备了大概4分钟的特朗普的干声数据集,切成了11段。

然后进入11Labs的主页,登录后进入这个VoiceLab的页面。这个页面就可以去做声音的克隆了。那个大大的加号就是新建一个声音。

在弹窗中,第二个选项就是声音克隆。

不过这个功能是付费功能,正常付个费就可以用了。首月优惠1美刀,基本就是白给,可以直接绑定中国境内的VISA就可以支付,比ChatGPT的付费方便多了。

在打开的弹窗上随便输个姓名,把数据集拖进去就行。标签和描述啥的不用填。然后确认。记得一定不要开任何翻译,比如google翻译啥的,要不然会报错。

大概只需要二十几秒钟吧,模型就OK了,速度出奇的快。你就可以直接点Use去使用。

这里再推荐大家几个TTS的小技巧,善用标点符号去引导情绪

比如这句话:I am Trump . my other name is "Chuan Jian guo".

把my other name is "Chuan Jian guo"这句话,变成my other name... is "Chuan Jian guo"后,你就能明显听出小停顿的情绪,

如果再把I am Trump后面加三个感叹号,变成I am Trump!!!的话:

这情绪一下就激动了起来。。。

11Labs对这些标点符号的引导非常到位,善用标点符号,能给这段文字带来完整的情绪感受。

在最后,说一下目前AI声音的几种技术和场景吧。

SVC,类似于变声器。将一段音频转换成另一种特定的音色,音频to音频,我也写过一篇教程:用SVC做特定人物AI配音 - 你奶奶都会的AI声音教程 ,成本挺高的,数十分钟的干声数据集,训练几个小时起步,但是对情绪和音调的还原最好,适合用在剧集配音、歌声转换等场景。不过这块11Labs已经明确要进军了,做语音转换,不知道后面用户的使用成本会拉低到什么地步。

TTS - 声音克隆。将特定的人声训练成模型,然后文字转音频。用于需要特定某个人声的场景、或同声翻译等等,数字人应用的很广泛。成本低,但是对于情绪的变化肯定没有SVC那么强,毕竟几分钟数据集+几乎为0的等待时间,11Labs是典型的王者。

普通TTS。用平台已经训练好的声音做配音,不可自定义,在有声书和视频配音里已经被广泛应用。这块的产品就非常多了,国外的微软TTS、11Labs,国内的魔音工坊等等。

基本就这三种了,SVC和TTS我也写过好多教程了,大家可以根据自己的场景,各取所需。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/228329.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Qt简介、工程文件分离、创建Qt工程、Qt的帮助文档

QT 简介 core:核心模块,非图形的接口类,为其它模块提供支持 gui:图形用户接口,qt5之前 widgets:图形界面相关的类模块 qt5之后的 database:数据库模块 network:网络模块 QT 特性 开…

土壤水分传感器土壤体积含水率含量监测仪器

产品概述 外型小巧轻便,便于携带和连接。 土壤水分传感器由电源模块、变送模块、漂零及温度补偿模块、数据处理模块等组成。传感器内置信号采样及放大、漂零及温度补偿功能,用户接口简洁、方便。 功能特点 ◆本传感器体积小巧化设计,测量…

Sam Altman当选“TIME时代周刊”2023年度最佳CEO!还有梅西、Taylor Swift当选...

TIME时代周刊昨日在官网公布了2023年最佳CEO—— Sam Altman当选! 此外,Taylor Swift当选年度最佳人物,梅西当选年度最佳运动员。 Sam Altman的当选可谓是实至名归!没有谁能比火爆全球的ChatGPT背后,OpenAI的CEO更“成功”了。 …

手把手教你写 Compose 动画 -- 讲的不能再细的 AnimationSpec 动画规范

前面我们聊过 animateDpAsState 和 Animatable 两种动画 API 的用法&#xff0c;但只是简单了解了&#xff0c;这两个函数内部都有一个共同的核心参数&#xff1a;AnimationSpec。 Composable fun animateDpAsState(targetValue: Dp,animationSpec: AnimationSpec<Dp> …

代码随想录算法训练营第45天| 70. 爬楼梯 (进阶) 322. 零钱兑换 279.完全平方数

JAVA代码编写 70. 爬楼梯&#xff08;进阶版) 卡码网&#xff1a;57. 爬楼梯&#xff08;第八期模拟笔试&#xff09; 题目描述 假设你正在爬楼梯。需要 n 阶你才能到达楼顶。 每次你可以爬至多m (1 < m < n)个台阶。你有多少种不同的方法可以爬到楼顶呢&#xff1f…

卷王开启验证码后无法登陆问题解决

问题描述 使用 docker 部署&#xff0c;后台设置开启验证&#xff0c;重启服务器之后&#xff0c;docker重启&#xff0c;再次访问系统&#xff0c;验证码获取失败&#xff0c;导致无法进行验证&#xff0c;也就无法登陆系统。 如果不了解卷王的&#xff0c;可以去官网看下。…

【K8S】微服务不香了?单体化改造悄然兴起!!

微服务一直以来是服务治理的基本盘之一,落地到云原生上,往往是每个 K8s pods 部署一个服务,独立迭代、独立运维。 但是在快速部署的时候,有时候,我们可能需要一些宏服务的优势。有没有一种方法,能够 “既要又要” 呢?本文基于 tRPC-Go 服务,提出并最终实践了一种经验证…

医学图像数据处理流程以及遇到的问题

数据总目录&#xff1a; /home/bavon/datasets/wsi/hsil /home/bavon/datasets/wsi/lsil 1 规整文件命名以及xml拷贝 data_prepare.py 的 align_xml_svs 方法 if __name__ __main__: file_path "/home/bavon/datasets/wsi/lsil"# align_xml_svs(file_path) # b…

程序员的养生指南(生命诚可贵,一人永流传!珍惜生命,从你我做起)

作为程序员&#xff0c;我们经常需要长时间坐在电脑前工作&#xff0c;这对我们的身体健康造成了很大的影响。为了保持健康&#xff0c;我们需要采取一些养生措施来延寿。下面是我个人的一些养生经验和建议&#xff0c;希望能对大家有所帮助。 1、合理安排工作时间&#xff1a;…

Bert-vits2新版本V2.1英文模型本地训练以及中英文混合推理(mix)

中英文混合输出是文本转语音(TTS)项目中很常见的需求场景&#xff0c;尤其在技术文章或者技术视频领域里&#xff0c;其中文文本中一定会夹杂着海量的英文单词&#xff0c;我们当然不希望AI口播只会念中文&#xff0c;Bert-vits2老版本(2.0以下版本)并不支持英文训练和推理&…

多功能智能遥测终端机 5G/4G+北斗多信道 视频采集传输

计讯物联多功能智能遥测终端机&#xff0c;全网通5G/4G无线通信、弱信号地区北斗通信&#xff0c;多信道自动切换保障通信联通&#xff0c;丰富网络接口及行业应用接口&#xff0c;支持水利、环保、工业传感器、控制终端、智能终端接入&#xff0c;模拟量/数字量/信号量采集&am…

一文详解Java反射

文章目录 反射是什么&#xff1f;反射的作用所有方法汇总一、加载Class对象二、加载类的构造器对象三、加载类的成员变量四、加载类的成员方法 反射是什么&#xff1f; 反射就是&#xff1a;加载类&#xff0c;并允许以编程的方式解剖类中的某个成分&#xff08;成员变量&#…

ambari hive on Tez引擎一直卡住

hive on tez使用./bin/hive启动后一直卡住&#xff0c;无法进入命令行 使用TEZ作为Hive默认执行引擎时&#xff0c;需要在调用Hive CLI的时候启动YARN应用&#xff0c;预分配资源&#xff0c;这需要花一些时间&#xff0c;而使用MapReduce作为执行引擎时是在执行语句的时候才会…

微信小程序UI自动化测试实践:Minium+PageObject

小程序架构上分为渲染层和逻辑层&#xff0c;尽管各平台的运行环境十分相似&#xff0c;但是还是有些许的区别&#xff08;如下图&#xff09;&#xff0c;比如说JavaScript 语法和 API 支持不一致&#xff0c;WXSS 渲染表现也有不同&#xff0c;所以不论是手工测试&#xff0c…

Spingboot3详解(全网最详细,新建springboot项目并详解各种组件的用法)

一.Spring Initializr创建向导 1.新建一个空项目 2.在新创建的空项目里&#xff0c;新建Module 3. 选择Spring Initializr 4.选择Spring Boot的版本3以上 5.创建好的一个项目结构 controller包是自己创建的 6.项目结构分析 spingboot主程序 package com.example.boot;impor…

使用hutool工具生成非对称加密公私密钥以及使用案例

1.导入hutool依赖 <dependency><groupId>cn.hutool</groupId><artifactId>hutool-all</artifactId><version>5.8.18</version></dependency>2.直接复制代码 package com.common.utils;import cn.hutool.core.codec.Base64; i…

mac苹果电脑清除数据软件CleanMyMac X4.16

在数字时代&#xff0c;保护个人隐私变得越来越重要。当我们出售个人使用的电脑&#xff0c;亦或者离职后需要上交电脑&#xff0c;都需要对存留在电脑的个人信息做彻底的清除。随着越来越多的人选择使用苹果电脑&#xff0c;很多人想要了解苹果电脑清除数据要怎样做才是最彻底…

优秀软件测试工程师必备的“8个能力”

首先要说&#xff0c;做软件测试不难&#xff0c;难的是做好软件测试。 结合自己这些年的工作经验&#xff0c;自己也总结出来8个方面的能力&#xff0c;可能有些方面感觉要求暂时还达不到&#xff0c;但这些确实是做软件测试工作所必备的能力&#xff0c;掌握了这8个方面的能力…

Python---time库

目录 时间获取 时间格式化 程序计时 time库包含三类函数&#xff1a; 时间获取&#xff1a;time() ctime() gmtime() 时间格式化&#xff1a;strtime() strptime() 程序计时&#xff1a;sleep() perf_counter() 下面逐一介绍&#…

【送书活动四期】被GitHub 要求强制开启 2FA 双重身份验证,我该怎么办?

记得是因为fork了OpenZeppelin/openzeppelin-contracts的项目&#xff0c;之后就被GitHub 要求强制开启 2FA 双重身份验证了&#xff0c;一拖再拖&#xff0c;再过几天帐户操作将受到限制了&#xff0c;只能去搞一下了 目录 2FA是什么为什么要开启 2FA 验证GitHub 欲在整个平台…