TTS 擂台: 文本转语音模型的自由搏击场

对文本转语音 (text-to-speech, TTS) 模型的质量进行自动度量非常困难。虽然评估声音的自然度和语调变化对人类来说是一项微不足道的任务,但对人工智能来说要困难得多。为了推进这一领域的发展,我们很高兴推出 TTS 擂台。其灵感来自于LMSys为 LLM 提供的Chatbot 擂台。借鉴 Chatbot 擂台的做法,我们开发了一款工具,让任何人可以很轻松地对 TTS 模型进行并排比较。你仅需提交想要转成语音的文本,然后听一下两个不同的模型生成的音频,最后投票选出生成质量较好的模型。我们把投票结果组织成一个排行榜,用以展示社区评价最高的那些模型。

  • LMSyshttps://lmsys.org/

  • Chatbot 擂台https://hf.co/spaces/lmsys/chatbot-arena-leaderboard

31692de1a629e12a676fabcef15c0ec1.png

动机

长期以来,语音合成领域缺乏准确的方法以度量不同模型的质量。常用客观指标 (如 WER (word error rate,单词错误率) 等) 并不能可靠地度量模型质量,而 MOS (mean opinion score,平均意见得分) 等主观指标通常只适用于对少数听众进行小规模实验。因此,这些评估标准在对质量大致相当的两个模型进行比较时并无用武之地。为了解决这些问题,我们设计了易用的界面,并邀请社区在界面上对模型进行排名。通过开放这个工具并公开评估结果,我们希望让人人都参与到模型比较和选择中来,并共享其结果,从而实现模型排名方式的民主化。

TTS 擂台

由人类来对人工智能系统进行排名并不是什么新方法。最近,LMSys 在其Chatbot 擂台中采用了这种方法,取得了很好的效果,迄今为止已收集到超过 30 万个投票。被它的成功所鼓舞,我们也采用了类似的框架,邀请每个人投票参与音频合成效果的排名。

  • Chatbot 擂台https://arena.lmsys.org/

具体方法很简单: 用户输入文本,会有任意两个模型对该文本进行合成; 用户在听完两个合成音频后,投票选出哪个模型的输出听起来更自然。为了规避人为偏见和滥用的风险,只有在提交投票后才会显示模型名称。

目前在打擂的模型

我们为排行榜选择了如下几个最先进 (SOTA) 的模型。其中大多数都是开源模型,同时我们还纳入了几个私有模型,以便开发人员可以对开源社区与私有模型各自所处的状态进行比较。

首发的模型有:

  • ElevenLabs (私有模型)

  • MetaVoice

  • OpenVoice

  • Pheme

  • WhisperSpeech

  • XTTS

尽管还有许多其他开源或私有模型,我们首发时仅纳入了一些被普遍认同的、最高质量的公开可用模型。

TTS 排行榜

我们会将擂台票选结果公开在专门的排行榜上。请注意,每个模型只有积累了足够的投票数后才会出现在排行榜中。每次有新的投票时,排行榜都会自动更新。

跟 Chatbot 擂台一样,我们使用与Elo 评级系统类似的算法对模型进行排名,该算法常用于国际象棋以及一些其他游戏中。

  • Elo 评级系统https://en.wikipedia.org/wiki/Eloratingsystem

总结

我们希望TTS 擂台能够成为所有开发者的有用资源。我们很想听听你的反馈!如果你有任何问题或建议,请随时给我们发送X/Twitter 私信或在擂台 Space 的社区中开个帖子和我们讨论。

  • TTS 擂台https://hf.co/spaces/TTS-AGI/TTS-Arena

  • X/Twitter 私信https://twitter.com/realmrfakename

  • 擂台 Space 的社区中开个帖子https://hf.co/spaces/TTS-AGI/TTS-Arena/discussions

致谢

非常感谢在此过程中给予我们帮助的所有人,包括Clémentine Fourrier、Lucian Pouget、Lucian Pouget、Main Horse以及整个 Hugging Face 团队。特别要感谢VB的时间及技术协助。还要感谢Sanchit Gandhi和Apolinário Passos在开发过程中提供的反馈及支持。

  • Clémentine Fourrierhttps://twitter.com/clefourrier

  • Lucian Pougethttps://twitter.com/wauplin

  • Yoach Lacombehttps://twitter.com/wauplin

  • Main Horsehttps://twitter.com/mainhorse

  • VBhttps://twitter.com/reachvb

  • Sanchit Gandhihttps://twitter.com/sanchitgandhi99

  • Apolinário Passoshttps://twitter.com/multimodalart


英文原文: https://hf.co/blog/arena-tts

原文作者: mrfakename, Vaibhav Srivastav, Clémentine Fourrier, Lucain Pouget, Yoach Lacombe, Main Horse, Sanchit Gandhi

译者: Matrix Yao (姚伟峰),英特尔深度学习工程师,工作方向为 transformer-family 模型在各模态数据上的应用及大规模模型的训练推理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/464525.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

检索增强生成(RAG)应用的构建:LangChain与LlamaIndex的比较与选择

对于我要做RAG应用,我应该使用两者中的哪一个。或者说还是都使用? 在人工智能领域,检索增强生成(RAG)应用正变得越来越受欢迎,因为它们能够结合大型语言模型(LLMs)的自然语言处理能力…

不允许你不知道的Python私有属性和私有方法

​ 1.为什么要使用私有属性和私有方法 嘿,各位Python爱好者们,你们有没有遇到过这样的情况:你正在编写一个类,里面有一些属性或方法,你并不想让它们被外部直接访问或修改,但又需要某种方式来控制它们的访问…

【C/C++】C语言开发者必读:迈向C++的高效编程之旅

🧑 作者简介:阿里巴巴嵌入式技术专家,深耕嵌入式人工智能领域,具备多年的嵌入式硬件产品研发管理经验。 📒 博客介绍:分享嵌入式开发领域的相关知识、经验、思考和感悟,欢迎关注。提供嵌入式方…

VUE3项目学习系列--Axios二次封装(五)

Axios中文文档 | Axios中文网 (axios-http.cn) Axios 是一个基于 promise 网络请求库,作用于node.js 和浏览器中。 它是 isomorphic 的(即同一套代码可以运行在浏览器和node.js中)。在服务端它使用原生 node.js http 模块, 而在客户端 (浏览端) 则使用 XMLHttpRequ…

【回归预测】基于SSA-BP(麻雀搜索算法优化BP神经网络)的回归预测 多输入单输出【Matlab代码#69】

文章目录 【可更换其他算法,获取资源请见文章第6节:资源获取】1. BP神经网络2. 麻雀搜索算法3. SSA-BP神经网络模型的构建4. 部分代码展示5. 仿真结果展示 【可更换其他算法,获取资源请见文章第6节:资源获取】 1. BP神经网络 BP&…

新手向-从VNCTF2024的一道题学习QEMU Escape

[F] 说在前面 本文的草稿是边打边学边写出来的,文章思路会与一个“刚打完用户态 pwn 题就去打 QEMU Escape ”的人的思路相似,在分析结束以后我又在部分比较模糊的地方加入了一些补充,因此阅读起来可能会相对轻松(当然也不排除这是…

python之前端css样式(一)

css ID选择器 #c1{color:red;#边框为红色border:1px solid red; } <div id"c2">中国移动</div> 类选择器 .xx{color:blue; } <div class"xx">中国联通</div> 标签选择器 li{color: pink; } <ul><li>北京</li…

STM32输入捕获模式测频率

STM32频率的测量&#xff1a;高频适合使用的方法是测频法&#xff0c;低频适合使用的是测周法&#xff0c;&#xff08;其中使用测频法测量频率比较稳定&#xff0c;使用测周法测量频率的方式没有这么稳定&#xff0c;因为测周法只会通过一次的测量就能得出结果所以测试出来的频…

任务管理器进程结束错了,电脑显示白屏该怎么办

电脑就是一个全白&#xff0c;吓人的一批&#xff0c;毕竟以前出过cmd运行出错&#xff0c;然后黑屏&#xff0c;最后只能重装系统。这里出现白屏是还好的&#xff0c;切换了另外的用户&#xff0c;发现电脑上原来的文件还在&#xff0c;所有按下面的方法就解决了。 1.打开任务…

网络编程—DAY3

模拟面试 1.什么是IP地址 是给互联网上的每台主机分配的唯一标识 2.IP地址和mac地址的区别 mac地址是设备的硬件地址&#xff0c;ip地址是给主机分配的网络地址 3.当电脑从一个网络切换到另一个网络哪个会变 ip地址会变&#xff0c;mac地址不会变 4.什么是端口号 用于区…

leetcode 热题 100_环形链表 II

题解一&#xff1a; 哈希表&#xff1a;遍历链表&#xff0c;用哈希表存储遍历过的链表节点&#xff0c;判断链表节点是否在哈希表中存在&#xff0c;如果存在说明链表出现过&#xff0c;第一个重复出现的节点即为开始入环的第一个节点。 import java.util.HashSet;public cla…

【计算机网络】什么是http?

​ 目录 前言 1. 什么是HTTP协议&#xff1f; 2. 为什么使用HTTP协议&#xff1f; 3. HTTP协议通信过程 4. 什么是url&#xff1f; 5. HTTP报文 5.1 请求报文 5.2 响应报文 6. HTTP请求方式 7. HTTP头部字段 8. HTTP状态码 9. 连接管理 长连接与短连接 管线化连接…

无线局域网——wlan

目录 一.wlan的含义和发展 二.wlan技术带来的挑战 1.企业办公场景多样 2.位置速度的要求 3.安全的要求 4.规范的挑战 三.家庭和企业不同的部署需求 1.胖AP模式组网 2.AC瘦AP模式组网 3.组网模式的不同 四.三层隧道转发实验 1.拓扑 2.AP上线 核心交换机vlan ​编辑…

IIS上部署.netcore WebApi项目及swagger

.netcore项目一般是直接双击exe文件&#xff0c;运行服务&#xff0c;今天有个需求&#xff0c;需要把.netcore项目运行在IIS上&#xff0c;遇到了一个小坑&#xff0c;在这里记录一下。 安装IIS&#xff0c;怎么部署站点&#xff0c;这些过于简单就不细说了&#xff0c;不知道…

vue3+Ts项目按需引入Echarts,并封装成hooks

记录 vue3Ts 项目中&#xff0c;按需引入echarts并进行二次封装使用。 1、安装&#xff1a;npm i echarts 2、新增按需引入配置文件&#xff1a;echartsConfig.ts // 引入 echarts 核心模块&#xff0c;核心模块提供了 echarts 使用必须要的接口。 import * as echarts from …

代码随想录阅读笔记-字符串【反转字符串】

题目 编写一个函数&#xff0c;其作用是将输入的字符串反转过来。输入字符串以字符数组 char[] 的形式给出。 不要给另外的数组分配额外的空间&#xff0c;你必须原地修改输入数组、使用 O(1) 的额外空间解决这一问题。 你可以假设数组中的所有字符都是 ASCII 码表中的可打印…

Web核心,HTTP,tomcat,Servlet

1&#xff0c;JavaWeb技术栈 B/S架构:Browser/Server&#xff0c;浏览器/服务器架构模式&#xff0c;它的特点是&#xff0c;客户端只需要浏览器&#xff0c;应用程序的逻辑和数据都存储在服务器端。浏览器只需要请求服务器&#xff0c;获取Web资源&#xff0c;服务器把Web资源…

windows 免密码ssh登录linux;linux免密码ssh登录其他linux

1、windows 免密码ssh登录linux 参考&#xff1a;https://blog.csdn.net/qq285744011/article/details/118293937 1&#xff09;windows先生成公钥私钥 ssh-keygen -t rsa -C "你的邮箱地址"生成后放在用户命令.ssh文件下 2&#xff09;把公钥复制到linux /root/…

【STM32 定时器(二)TIM 输入捕获PWM 总结】

STM32定时器之输入捕获总结 OC介绍PWM介绍PWM初始化代码部分开启时钟配置时基单元配置CCR配置GPIO配置复用和重定义功能 开启定时器代码实现 &#xff1a;实现呼吸灯 OC介绍 PWM介绍 PWM参数计算 分辨率越细&#xff0c;分的分量越精细&#xff0c;越稳定&#xff0c;假如它为…

洛谷P8972 『GROI-R1』 一切都已过去(树上前缀和+运算符重载)

『GROI-R1』 一切都已过去 题目背景 悦关上窗&#xff0c;拉上帘布。 果然还是想不起来啊。 隐约记得曾和什么人一起做过这样的事。 仰面躺下&#xff0c;手执一只木笺。 「究竟如何&#xff0c;才能拥有“过去”啊……」 她闭上双眼。 「6 岁前的记忆……究竟如何才能…