微软的人工智能语音生成器在测试中达到与人类同等水平

微软公司开发了一种新的神经编解码语言模型 Vall-E,在自然度、语音鲁棒性和说话者相似性方面都超越了以前的成果。它是同类产品中第一个在两个流行基准测试中达到人类同等水平的产品,而且显然非常逼真,以至于微软不打算向公众开放。

VALL-E 2 是神经编解码器语言模型的最新进展,它标志着零镜头文本到语音合成 (TTS) 的里程碑,首次实现了与人类平等。在其前身 VALL-E 所奠定的基础上,新的迭代版本引入了两项重大增强功能,以提高其性能: 重复感知采样(Repetition Aware Sampling)通过考虑解码历史中的标记重复,改进了原始的核采样过程。它不仅能稳定解码,还能避免在 VALL-E 中遇到的无限循环问题。分组编码建模将编解码器编码组织成组,有效缩短了序列长度,不仅提高了推理速度,还解决了长序列建模的难题。我们在 LibriSpeech 和 VCTK 数据集上进行的实验表明,VALL-E 2 在语音鲁棒性、自然度和说话人相似度方面都超过了以前的零镜头 TTS 系统。在这些基准测试中,VALL-E 2 是第一个达到人类同等水平的系统。此外,VALL-E 2 还能始终如一地合成高质量语音,即使是传统上因句子复杂或短语重复而具有挑战性的句子也不例外。

在这里插入图片描述
分组编码建模不仅能通过减少序列长度来加快推理速度,还能通过缓解长上下文建模问题来提高性能。基于解码历史中的标记重复,重复感知采样增强了解码过程的稳定性,避免了 VALL-E 中遇到的无限循环问题。

在这里插入图片描述

VALL-E 2 首次实现了人类平价零镜头 TTS 性能。在这种情况下,人类平价表示 VALL-E 2 的鲁棒性、自然度和相似度指标都超过了地面实况样本(WER(GroundTruth) - WER(VALL-E 2) >0,CMOS(VALL-E 2) - CMOS(GroundTruth) >0,SMOS(VALL-E 2) - SMOS(GroundTruth)> 0),这意味着 VALL-E 2 可以生成准确、自然、与原说话人声音完全一致的语音,其性能可与人类相媲美。值得注意的是,这一结论完全来自 LibriSpeech 和 VCTK 数据集的实验结果。

感谢大家花时间阅读我的文章,你们的支持是我不断前进的动力。期望未来能为大家带来更多有价值的内容,请多多关注我的动态!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/792344.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

车载测试资料学习和CANoe工具实操车载项目(每日直播)

每日直播时间:(直播方式:腾讯会议) 周一到周五:20:00-23:00 周六与周日:9:00-17:00 向进腾讯会议学习的,可以关注我并后台留言 直播内容&#xff…

GPMC并口多通道AD采集案例,基于TI AM62x四核处理器平台!

GPMC并口简介 GPMC(General Purpose Memory Controller)是TI处理器特有的通用存储器控制器接口,是AM62x、AM64x、AM437x、AM335x、AM57x等处理器专用于与外部存储器设备的接口,如: (1)FPGA器件 (2)ADC器件 (3)SRAM内存 (4)NOR/NAND闪存 …

electron实现右键菜单保存图片功能

1.创建窗口,加载页面,代码如下: //打开窗口const {ipcMain, BrowserWindow} require("electron") const saveImage require("../ipcMain/saveImage") let win null; ipcMain.handle(on-open-event, (event, args) &g…

Airtest成功案例分享:KLab连续2年携Airtest私有云产品参加CEDEC大会!

一、KLab株式会社介绍 KLab株式会社是一家位于日本的移动游戏开发公司,成立于2000年。公司以开发和运营基于动漫和漫画IP的手机游戏而闻名,尤其是在音乐节奏游戏领域。KLab的一些知名作品包括《LoveLive!学园偶像祭》、《排球少年:新的征程》…

【unity笔记】常见问题收集

一 . Unity Build GI data 卡住问题 问题解决: 参考官方文档,GI(Global Illumination) data 指的是全局照明信息。 在Unity的Edit->Preference中,可以编辑GI缓存路径和分配GI缓存大小。 调出Window->Rendering->Lighting窗口,取消…

阿里云调整全球布局关停澳洲云服务器,澳洲服务器市场如何选择稳定可靠的云服务?

近日,阿里云宣布将关停澳大利亚地域的数据中心服务,这一决定引发了全球云计算行业的广泛关注。作为阿里云的重要海外市场之一,澳洲的数据中心下架对于当地的企业和个人用户来说无疑是一个不小的挑战。那么,在阿里云调整全球布局的…

vue vite+three在线编辑模型导入导出

文章目录 序一、1.0.0版本1.新增2.编辑3.导出4.导入 二、2.0.0版本1. 修复模型垂直方向放置时 模型会重合4. 修复了导出导入功能 现在是1:1导出导入5. 新增一个地面 视角看不到地下 设置了禁止编辑地面 地面设置为圆形6. 新增功能 可选择基本圆形 方形 圆柱形等模型以及可放置自…

判断非radio\checkbox 勾选框是否被勾选

1、通常如果是标准的勾选框我们可以使用使用isSelected()方法无法判断其勾选状态,如下代码: Boolean bldriver.findElement(By.xpath("//*[contains(class,el-icon-success)]")).isSelected(); 2、如图所示,该勾选框并不是一个…

51单片机STC89C52RC——16.1 五线四相步进电机

目录 目的/效果 一,STC单片机模块 二,步进电机 2.2 什么是步进电机? 2.2.1 步进电机驱动板 静态参数 动态参数 2.2.2 五线四相 单相激励步进 双相激励步进 混合激励驱动 2.3 细分驱动 2.4 通过数字信号控制旋转位置和转速。 2…

深入理解计算机系统 CSAPP 练习题9.9

这个函数和练习题9.8的find_fit函数相关,asize是我们实际需要的大小,但是find_fit函数返回的bp有可能是比我们需要的还大的块,此时我们需要对bp进行分割.

kind kubernetes(k8s虚拟环境)使用本地docker的镜像

kubernetes中,虽然下载镜像使用docker,但是存储在docker image里的镜像是不能被k8s直接使用的,但是kind不同,可以使用下面的方法,让kind kubernetes环境使用docker image里的镜像。 kind – Quick Start 例如&#x…

AGI 之 【Hugging Face】 的【文本摘要】的 [评估PEGASUS ] / [ 微调PEGASUS ] / [生成对话摘要] 的简单整理

AGI 之 【Hugging Face】 的【文本摘要】的 [评估PEGASUS ] / [ 微调PEGASUS ] / [生成对话摘要] 的简单整理 目录 AGI 之 【Hugging Face】 的【文本摘要】的 [评估PEGASUS ] / [ 微调PEGASUS ] / [生成对话摘要] 的简单整理 一、简单介绍 二、文本摘要 三、在CNN/Daily…

【python算法学习1】用递归和循环分别写下 fibonacci 斐波拉契数列,比较差异

问题: fibonacci 斐波拉契数列,用递归和循环的方法分别写,比较递归和循环的思路和写法的差别 最直接的思路,是写递归方法 循环方法的稍微有点绕,我觉得问题主要是出在,总结循环的通项公式更麻烦,难在数学…

【YOLOv8】 用YOLOv8实现数字式工业仪表智能读数(三)

上一篇圆形表盘指针式仪表的项目受到很多人的关注,咱们一鼓作气,把数字式工业仪表的智能读数也研究一下。本篇主要讲如何用YOLOV8实现数字式工业仪表的自动读数,并将读数结果进行输出,若需要完整数据集和源代码可以私信。 目录 &a…

2008年下半年软件设计师【下午题】真题及答案

文章目录 2008年下半年软件设计师下午题--真题2008年下半年软件设计师下午题--答案 2008年下半年软件设计师下午题–真题 2008年下半年软件设计师下午题–答案

OV证书适合什么样的网站?

随着互联网的发展,网站安全问题备受关注。为了保护用户数据和建立信任关系,网站拥有一个安全可靠的SSL证书至关重要。而OV证书作为一种高级SSL证书,适合于要求更高安全性和可信度的网站使用。那么,OV证书适合什么样的网站呢&#…

融合CDN是什么?为什么需要融合CDN?其应用方法与原理是什么?

你了解融合CDN是什么吗?为什么需要融合CDN?你可能有听过融合CDN,但你知道它的应用方法与原理吗?本文将带你一次了解什么是融合CDN,详细介绍融合CDN的应用方法与运用原理,立刻替您解开心中疑惑! …

便携式气象参数检测仪:智能气象监测

随着科技的飞速发展,气象监测已不再是传统意义上的固定站点观测,而是逐渐向智能化、便携化、高精度化方向演进。在这一背景下,便携式气象参数检测仪应运而生,以其轻便、高效、多功能的特性,成为气象监测领域的得力助手…

Linux C语言基础 day8

目录 思维导图: 学习目标: 学习内容: 1. 字符数组 1.1 二维字符数组 1.1.1 格式 1.1.2 初始化 1.1.3 二维字符数组输入输出、求最值、排序 2. 函数 2.1 概念 关于函数的相关概念 2.2 函数的定义及调用 2.2.1 定义函数的格式 2.3…

Android高级——Logger日志系统

Logger日志系统 Logger日志系统是基于内核中的Logger日志驱动程序实现将日志记录保存在内核空间中使用一个环形缓冲区来保存日志,满了之后,新的日志就会覆盖旧的日志 日志类型 main,记录应用程序级别system,记录系统级别radio&…