GPT-4o来了,超拟人语音合成系统的关键都在这里

在众多科技企业竞相提升大模型的多模态能力,致力于将文本总结、图像编辑等功能集成到移动设备中的时候,OpenAI 又双叒叕上新了!CEO奥特曼用了3个字母表达他的状态:her(就像电影《Her》一样)。

图片

5月14日凌晨,OpenAI 首次“春季新品发布会”上,正式发布最新的 GPT-4o ,并展示了一系列新功能。不仅颠覆了产品的形态,更是又一次让全球科技界为之沸腾。GPT-4o 作为一款人机交互的先进大模型,融合了文本、语音和图像三种模态的理解能力,其响应速度之快、情感表达之丰富以及对人类行为的深刻理解,都标志着人机交互领域的又一次飞跃。

FounderPark

,赞6400

大家惊叹于Her时代来了,AI超拟人化也备受关注。 拟人化TTS指的是系统能够模拟自然对话中的口语特征,如延长音、停顿、口语化词汇填充、重复、倒装和重读等。为了实现这一点,TTS模型在建模时必须复现这些口语化事件,并考虑到文本和声学的上下文。

此外,模型还需要关注更多的非语言信息,以增强语音的自然性和表达力。下面是Base TTS模型对于各项指标的评估,可以看副语言和情感评分最低,这表明情感和副语言的合成仍然是语音合成任务中最具挑战性的任务。

图片

来自论文 BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data

01 开发拟人化TTS系统的挑战

数据的获取和处理

开发拟人化的TTS系统面临的一个主要挑战是数据的获取和处理。

首先,为了训练一个能够精确处理非语言信息,如语调、强度和情感状态的TTS系统,需要依赖于大量的、高质量的、详细标注的语音数据。这些数据的标注不仅需包含文字信息,还应详细记录语音的多种声学特征,以便系统能够学习并复现自然语音中的复杂变化。

其次,语音数据的多样性也是一个关键因素。由于不同地区、不同性别、不同年龄群体的人们在说话时会展现出独特的语音特征和习惯,为了确保TTS系统在多种口音和语言风格中都能保持良好的表现,必须收集来自极其广泛背景的语音样本。这包括多种方言、口音以及从正式到非正式的各种语言风格,以确保系统的广泛适用性和自然性。因此,高质量和高多样性的数据收集及其处理,成为开发拟人化TTS系统的重大挑战之一。

模型的设计和训练

开发拟人化的TTS系统在模型的设计和训练方面面临重大挑战,主要集中在模型复杂性和声音的自然性与一致性两大领域。

1. 模型复杂性

为了精准捕捉和再现人类的副语言信息,如语调、停顿、强调和情感变化,TTS模型必须具备高度的复杂性和表现力。这要求模型不仅能理解文本的字面意义,还需深入解析文本中蕴含的情感和语境,进而在语音输出中体现这些细微差别。

情感的自动检测是通过NLP技术实现,如情感分析,但如何将这些情感映射到具体的声音表达上,如语调的高低、语速的快慢及音量的强弱,仍然是AI研究中的前沿问题。

此外,模型还需要能够处理各种复杂的语音模式和非标准语言表达,如方言、口音或特定群体的说话习惯。

2. 声音的自然性与一致性

在自然对话中,人们根据上下文和情感状态不断调整自己的语调和语速,这种动态的语音调整在TTS系统中实现极为困难。

尽管现代TTS系统通过采用先进的机器学习模型如深度神经网络已经能够提高语音合成的自然度,但在保持语音输出的一致性和真实感方面仍存在挑战。尤其是在处理长文本或复杂对话时,保持语音的流畅性和自然度,同时不失去情感的真实表达,是技术上的难点。

此外,为了提高自然性,TTS系统经常需要在运行时做出复杂的决策以适应文本内容的变化,这对实时语音生成的算法效率和响应速度提出了更高的要求。

针对这些挑战,研究人员正在探索包括但不限于以下方向:增强的情感建模技术、上下文感知的语音生成算法、以及利用大规模数据进行深度学习训练的方法。通过对大量的语音数据进行深入分析和学习,TTS系统能够更好地理解和模拟人类的语言多样性和复杂性,进而提升语音合成的自然度和应用广度。

02 应对挑战的解决方案

1.  LLM模型的辅助TTS

Zhifan Guo et.al 开发了一个文本到语音(TTS)系统(被称为PromptTTS),该系统接受包含风格和内容描述的提示作为输入,以合成相应的语音。

PromptTTS包括一个风格编码器和一个内容编码器,用于从提示中提取相应的表示,以及一个语音解码器,根据提取的风格和内容表示合成语音。

与以往需要用户具备声学知识以理解诸如韵律和音高等风格因素的可控TTS作品相比,PromptTTS更加用户友好,因为文本描述是表达语音风格的更自然的方式。该模型能很好的捕捉语音合成中的风格和韵律等副语言信息。

图片

出自论文 PROMPT TTS: controllable Text-to-Speech with text descriptions

2.  带副语言标注的合成数据库

由于精细化标注的含副语言标签的TTS数据库不足,目前少有研究通过直接训练而非借助语言模型来提升TTS系统中副语言的合成效果。

然而,直接使用这些数据训练TTS模型可以更直接有效地学习如何表达情感、语气等副语言特征,简化系统结构,提高数据的一致性与质量,增强模型的泛化能力,并减少对外部系统的依赖。这为开发者提供了更好的用户定制性,允许针对特定需求优化TTS输出。

尽管直接训练的好处显著,但其挑战却很大,尤其是在高质量标注数据的获取上需要巨大的时间和资源投入,可能还需开发新技术以最大化数据的效用。

03 海天瑞声精标副语言数据集

为了应对当前市场上精细标注副语言信息的中文语音合成数据库的短缺,海天瑞声推出创新精标副语言数据集,专为副语言现象如拖音、重音和停顿等进行了详细标注。

主要聚焦于对话环境下的闲聊语料,非常适合用来训练和优化文本到语音(TTS)系统,以提高其在实际对话应用中的自然性和表达力。该数据库的特点包括:

丰富的副语言标注:每条语音数据不仅标注了基本的发音和语调信息,还精细标记了如拖音、重音和停顿等多种副语言信息,使得TTS系统能更真实地复现人类的语言表达。

对话式语料设计:所有语料都是基于对话场景,尤其是闲聊类型的对话,这有助于TTS系统更好地应用于聊天机器人、虚拟助手等互动式应用。

高质量音频采集:采用专业录音设备在声学处理过的环境中录制,确保语音数据的纯净度和高质量。

全新推出的精细标注副语言信息的中文语音合成数据集,将成为AI聊天机器人、虚拟助手、教育软件和游戏娱乐等领域开发人员的强大工具,能够极大地提升语音交互的自然性和表达力

该数据集能够有效的促进TTS系统的研发,更精准的复现人类语音的多样性和复杂性,推动超拟人语音合成技术的广泛应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/629581.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Android ashmem 原理分析

源码基于:Andoird U Kernel-5.10 0. 简介 ashmem 称为匿名共享内存(Anonymous Shared Memory),它以驱动程序的形式实现在内核空间中。它有两个特点: 能否辅助内存管理系统来有效地管理不再使用的内存块(pin / unpin); 通过Bind…

嵌入式学习-PWM输出比较

简介 PWM技术 输出比较框图介绍 定时器部分 比较器控制部分 输出控制部分 相关寄存器

Linux:文件、fd

Linux:文件、fd 前言一、C语言中常见打开文件的函数接口二、打开文件的系统调用接口三、文件描述符fd四、为何Linux下一切皆文件 前言 文件 内容 属性 所有对文件的操作本质上就分为:对内容的修改和对属性的修改。  内容是数据,属性也是数据。所以存…

web自动化系列-使用普通模式编写测试用例以及存在问题(十六)

前面已经把selenium的主要操作介绍完毕 ,接下来我们通过编写几条测试用例感受下selenium的用法 。 1.用例需求 还是以登录为例 ,需要实现的测试用例为 : case1:输入正确的用户名和密码进行登录case2 : 输入正确的用户名和错误的…

小红书“脆皮”用户健康研究报告

人均脆皮、血脉觉醒、爆肝打工、脱发危机……各式各样的健康议题不断被推上生活舞台,年轻人纷纷自嘲:“20多岁的年纪,却有了60多岁的身体”。 近年,大健康行业欣欣向荣,小红书成为大众分享健康生活的聚集地&#xff0c…

Python 小抄

Python 备忘单 目录 1.语法和空格 2.注释 3.数字和运算 4.字符串处理 5.列表、元组和字典 6.JSON 7.循环 8.文件处理 9.函数 10.处理日期时间 11.NumPy 12.Pandas 要运行单元格,请按 ShiftEnter 或单击页面顶部的 Run(运行)。 1.语法和空格…

关于 vs2019 c++20 规范里的一个全局函数 _Test_callable

(1)看名思议,觉得这个函数可以测试其形参是否是可以被调用的函数,或可调用对象? 不,这个名字不科学。有误导,故特别列出。看下其源码(该函数位于 头文件): 辅…

50.乐理基础-拍号的类型-混合拍子

混合拍子的定义: 1.由不同的单拍子组合起来的,如图1。 2.因为组合顺序有多种可能,所以次强拍的位置也有多种可能,如图3。 图1:四二拍是单拍子,四三拍也是单拍子,四二拍 与 四三拍就是 不同的单拍…

Google Ads被暂停的原因,如何防范?

跨境出海业务少不了需要做Google Ads推广业务;其中让投手们闻风丧胆的消息就是帐户被暂停。当 Google 检测到任何违反其政策且可能损害用户在线体验的行为时,就会发生这种情况。那么如何在做广告推广的同时,保证账号不被封禁呢?看…

59.基于SSM实现的网上花店系统(项目 + 论文)

项目介绍 本站是一个B/S模式系统,网上花店是在MySQL中建立数据表保存信息,运用SSMVue框架和Java语言编写。并按照软件设计开发流程进行设计实现充分保证系统的稳定性。系统具有界面清晰、操作简单,功能齐全的特点,使得基于SSM的网…

Springboot+MybatisPlus如何实现带验证码的登录功能

实现带验证码的登录功能由两部分组成::1、验证码的获取 2、登录(进行用户名、密码和验证码的判断) 获取验证码 获取验证码需要使用HuTool中的CaptchaUtil.createLineCaptcha()来定义验证码的长度、宽度、验证码位数以及干扰线…

算术平均数

算术平均数(average)是一组数据相加后除以数据的个数而得到的结果,是度量数据水平的常用统计量,在参数估计和假设检验中经常用到。比如:用职工平均工资来衡量职工工资的一般水平,用平均体重来观察某一人群体…

uac驱动之const修饰的变量和const修饰的指针

const int*p // p所指向的空间是常量 不可修改 ,但p可以修改 int*const p // p所指向的空间是可以修改 ,p不可以修改 #include <stdio.h> #include <string.h>struct usb_string {char id;const char *s; };enum {STR_ASSOC,STR_AC_IF,STR_USB_OUT_IT,STR_USB_O…

4种企业防泄密的办法,强烈推荐第二种

4种企业防泄密的办法&#xff0c;强烈推荐第二种 企业信息泄密常见的原因有内部人员、黑客、违规收集信息、第三方合作商&#xff0c;以下将为你详细分析这些泄密原因以及应对的方法。 1、内部人员泄密 内部员工由于能够接触到敏感数据&#xff0c;成为主要的泄露数据群体。这…

2024年中国国际厨卫家居展览会(上海KIB厨卫展)

中国国际厨卫家居博览会&#xff08;KIB&#xff09;由中国五金制品协会、中国国际贸易促进委员会轻工行业分会、北京奥维云网大数据科技股份有限公司主办。从最初的“中国国际橱柜、厨房卫浴产品与技术博览会(CIKB&#xff09;”&#xff0c;到2001年与中国国际五金展&#xf…

【React】 打包扫描出现高风险文件 YUI 版本太低 JSEncrypt

漏洞定位 扫出漏洞的情况&#xff0c;多是在说下面几个工具&#xff1a; jquery js-cookie jsencrypt 参考链接 YUI:2.9.0 (Link) http://www.cvedetails.com/cve/CVE-2012-5883/ 1.于是在打包后的代码中搜索 YUI&#xff08;不区分大小写&#xff0c;不进行全字匹配&…

数据结构初阶 顺序表的补充

一. 题目的要求 写出三种链表的接口函数 它们的功能分别是 1 查找数的位置 2 在pos位置插入值 3 在pos位置删除值 二. 实现pos 这个其实很简单 找到一步步遍历 找到这个数字就返回 找不到就提示用户下 这个数字不存在 int SLFind(SL* ps,SLDateType x) {assert(ps);int…

27_Scala功能函数

文章目录 功能函数1.功能函数处理集合数据2.扁平化操作3.按照指定条件将数据集中的数据进行过滤4.集合通过 自定义函数进行分组5.mapValues6.sortBy函数 功能函数 1.功能函数处理集合数据 –集合的功能函数 map List --> map( logical ) --> newList–实现一个不确定的…

【Arduino】Free RTOS系统

目录 1、任务创建 2、任务删除 3、延迟函数 4、示例&#xff1a; ESP32的SDK包中内置了FreeRTOS&#xff0c;在FreeRTOS中&#xff0c;线程&#xff08;Thread&#xff09;和任务&#xff08;Task&#xff09;的概念是相同的。每个任务就是一个线程&#xff0c;有着自己的一…

QT实现Home框架的两种方式

在触摸屏开发QT界面一般都是一个Home页面&#xff0c;然后button触发进入子页面显示&#xff0c;下面介绍这个home框架实现的两种方式&#xff1a; 1.方式一&#xff1a;用stackedWidget实现 &#xff08;1&#xff09;StackedWidget控件在Qt框架中是一个用于管理多个子窗口或…