跨语种「AI同传」颠覆语音翻译!Meta谷歌连发重大突破

Meta谷歌接连放出重磅成果!Meta开源无缝交流语音翻译模型,谷歌放出无监督语音翻译重大突破Translation 3。

就在Meta AI成立10周年之际,研究团队重磅开源了在语音翻译领域的突破性进展——「无缝交流」(Seamless Communication)模型。

图片

作为首个开源的「大一统模型」,Seamless集成了其他三款SOTA模型的全部功能(SeamlessExpressive、SeamlessStreaming和SeamlessM4T v2),可以实时进行更自然、更真实的跨语言交流。

甚至可以说,它从本质上实现了通用语音翻译器(Universal Speech Translator)的概念。

图片

紧接着,谷歌也分享了自己在无监督语音翻译的突破——Translation 3。

通过利用SpecAugment、MUSE嵌入和反向翻译,Translatotron 3在翻译词汇的同时,更能处理停顿、语速、说话者身份等非文本语音细微差异。

不仅如此,Translatotron 3在还可以直接从单语数据学习,摆脱了对并行数据的依赖。

图片

论文地址:https://arxiv.org/abs/2305.17547

结果显示,在翻译质量、说话者相似性和语音自然度方面表现出色,Translation 3都超越了传统系统。

探索沟通的未来,Translatotron 3或将以前所未有的效率和准确性打破语言障碍。

Seamless:「无缝」语音翻译大一统

Seamless将SeamlessM4T v2的高质量和多语言、SeamlessStreaming的低延迟和SeamlessExpressive的表达一致性,全部融合到了一个统一的系统之中。

由此,Seamless也为了第一个能够同时保持声音风格和语调的流式翻译模型。

图片

SeamlessExpressive:完美保留语音语调

虽然现有的翻译工具能熟练地捕捉对话内容,但它们的输出通常依赖于单调的机器人文本到语音系统。

相比之下,SeamlessExpressive则可以保留语音的细微差别,如停顿和语速,以及声音风格和情感基调。

为了在不同语言中保留说话者的语音风格,研究人员在SeamlessM4T v2基础模型中加入了表现力编码器。这一过程可确保单元生成遵循预期的语速和节奏。

此外,将SeamlessM4T v2中的HiFi-GAN单元声码器替换为以源语音为条件的表现力单元到语音生成器,可实现音调、情感和风格的无缝传输。

图片

SeamlessStreaming:AI版「同声传译」

SeamlessStreaming是首个大规模多语言模型,其翻译延迟时间约为两秒,准确度几乎与离线模型相同。

SeamlessStreaming以SeamlessM4T v2为基础,支持近100种输入和输出语言的自动语音识别和语音到文本翻译,以及近100种输入语言和36种输出语言的语音到语音翻译。

Meta AI最先进的流模型SeamlessStreaming能够智能地决定何时有足够的语境来输出下一个目标文本或语音片段。

SeamlessStreaming学习到的读/写策略,会根据部分音频输入来决定是「写」并生成输出,还是「读」并继续等待更多输入。并且,还可以自适应不同的语言结构,从而在许多不同的语言对中发挥更强的性能。

图片

SeamlessM4T v2:更高质量、更高精度

2023年8月,Meta AI推出了第一版SeamlessM4T——一个基础多语言和多任务模型,可为跨语音和文本的翻译和转录提供SOTA的结果。

在此基础上,研究人员于11月推出了改进版的SeamlessM4T v2,作为全新SeamlessExpressive和SeamlessStreaming模型的基础。

升级后的SeamlessM4T v2采用非自回归文本到单元解码器,从而提高了文本和语音输出之间的一致性。

其中,w2v-BERT 2.0编码器是在450万小时的语音数据基础上训练出来的。相比之前,第一版的训练数据只有100万小时。

此外,SeamlessM4T v2还通过全新的SeamlessAlign,为低资源语言补充了更多数据。

评估结果显示,SeamlessM4T v2在BLEU、ASR-BLEU、BLASER 2等任务上的表现,明显优于之前的SOTA模型。

图片

SeamlessAlignExpressive

基于之前在WikiMatrix、CCMatrix、NLLB、SpeechMatrix和SeamlessM4T方面所做的工作,Meta AI推出了首个表达式语音对齐程序——SeamlessExpressive。

从原始数据开始,富有表现力的对齐程序会自动发现成对的音频片段,这些片段不仅具有相同的含义,而且具有相同的整体表现力。

基于此,Meta还创建了第一个用于基准测试的多语言音频对齐的大型基准测试数据集——SeamlessAlignExpressive。

图片

Translatotron 3:引领无监督语音翻译新时代

谷歌联合DeepMind提出的无监督语音到语音翻译架构Translatotron 3,不仅为更多语言对之间的翻译,还为停顿、语速和说话人身份等非文本语音属性的翻译打开了大门。

这种方法不用对目标语言进行任何直接的监督,而且可以在翻译过程中保留源语音的其他特征(如语调、情感等)。

图片

Translatotron 3在保留源语音其他特征(如语调、情感等)的同时,无需对目标语言进行任何直接的监督,并且还

摒弃了对双语语音数据集的需求。

其设计包含三个关键方面:

1. 使用SpecAugment将整个模型作为mask自动编码器进行预训练

SpecAugment是一种简单的语音识别数据增强方法,可在输入音频(而非原始音频本身)的对数梅尔频谱图上进行操作,从而有效提高编码器的泛化能力。

2. 基于MUSE的无监督嵌入映射

多语言无监督嵌入是在未配对的语言上进行训练的,可以让模型学习源语言和目标语言之间共享的嵌入空间。

3. 基于反向翻译的重构损失

这种方法可以完全采用无监督的方式,来训练编码器-解码器S2ST模型。

效果展示(西班牙语-英语)

输入

CommonVoice11 Input

CommonVoice11 Synthesized Input

Conversational Input

TTS合成

CommonVoice11 TTS

CommonVoice11 Synthesized TTS

Conversational TTS

Translatotron 3

CommonVoice11 Translation 3

CommonVoice11 Synthesized Translation 3

Conversational Translation 3

结构

Translatotron 3采用共享编码器对源语言和目标语言进行编码。其中,解码器由语言解码器、声音合成器(负责翻译语音的声音生成)和单一注意力模块组成。

相比于上一代Translatotron 2,Translatotron 3配备有两个解码器,一个用于源语言,另一个用于目标语言。

在训练过程中,研究人员使用单语语音-文本数据集(这些数据由语音-文本对组成;并且没有进行翻译)。

编码器

编码器的输出分为两部分:第一部分包含语义信息,第二部分包含声学信息。

其中,前半部分的输出被训练成输入语音频谱图文本的MUSE嵌入。后半部分在没有MUSE损失的情况下进行更新。

值得注意的是,源语言和目标语言共享同一个编码器。

基于MUSE嵌入的多语言性质,编码器能够学习源语言和目标语言的多语言嵌入空间。

这样一来,编码器就能将两种语言的语音编码到一个共同的嵌入空间中,而不是为每种语言保留一个单独的嵌入空间,从而更高效、更有效地对输入进行编码。

解码器

解码器由三个不同的部分组成,即语言解码器、声音合成器和注意力模块。

为了有效处理源语言和目标语言的不同属性,Translatotron 3配备有两个独立的解码器,分别用于源语言和目标语言。

训练

训练由两个阶段组成:(1)自动编码与重构;(2)反向翻译。

第一个阶段中,使用MUSE损失和重构损失对网络进行训练,从而将输入内容自动编码到多语言嵌入空间,确保网络生成有意义的多语言表征。

在第二阶段中,利用反向翻译损失进一步训练网络翻译输入频谱图。为了减轻灾难性遗忘的问题,并确保潜空间是多语言的,此阶段依然采用MUSE损失和重构损失。

为了确保编码器学习输入的有意义属性,而不是简单地重构输入,研究人员在两个阶段都对编码器输入应用了 SpecAugment。事实证明,通过增强输入数据,可以有效提高编码器的泛化能力。

- MUSE损失:MUSE损失衡量的是输入频谱图的多语言嵌入与反向翻译频谱图的多语言嵌入之间的相似性。

- 重构损失: 重构损失衡量的是输入频谱图与反向翻译频谱图之间的相似度。

图片

性能

评估中包括Common Voice 11数据集,以及从对话和Common Voice 11数据集衍生出的两个合成数据集。

其中,翻译质量是通过翻译语音的ASR(自动语音识别)转录的BLEU(越高越好)与相应的参考翻译文本进行比较来衡量的。而语音质量则通过MOS分数来衡量(越高越好)。此外,说话人相似度是通过平均余弦相似度来衡量的(越高越好)。

由于Translatotron 3是一种无监督方法,因此研究人员使用了由ASR、无监督机器翻译(UMT)和 TTS(文本到语音)组合而成的级联S2ST系统作为基准。

结果显示,Translatotron 3在翻译质量、说话者相似性和语音质量等各方面的表现都远远优于基线,在会话语料库中的表现尤为突出。

此外,Translatotron 3实实现了与真实音频样本相似的语音自然度(以MOS衡量,越高越好)。

图片

图片

图片

参考资料:

https://ai.meta.com/research/seamless-communication/

https://blog.research.google/2023/12/unsupervised-speech-to-speech.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/220733.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

http面试题,三次握手四次挥手

在浏览器中输入网址按下回车经历了一个怎样的过程? 总的来说分为以下几个过程: 1、DNS解析:将域名解析为IP地址; 2、TCP连接:TCP三次握手; 3、发生HTTP请求; 4、服务器处理请求并返回HTTP报文; 5、浏览器解析渲染页面; 6、断开连接…

二叉树的基本概念(详解)

树的定义 树是一种非线性数据结构,由n(n>1)个节点以及n-1条边组成,其中有且仅有一个节点作为根节点。树的定义具有以下特点: 每个节点具有零个或多个子节点。除了根节点外,每个节点有且仅有一个父节点…

【江科大--32课程中讲解到的外部设备】

一、传感器模块(GPIO模块) 1.基本介绍 传感器模块:传感器元件(光敏电阻/热敏电阻/红外接收管等)的电阻会随外界模拟量的变化而变化,通过与定值电阻分压即可得到模拟电压输出,再通过电压比较器进…

资料分析(花生)

基期A(给出BR或BX) 前期:代入、直除、假设分配隔年前期:求出间隔增长率,再变成第一类考法前期差值:假设分配法求得两个前期作差。 现期B 有增量求现期:求出 X,列不等式即可有增速求现…

子集(回溯、图解)

78. 子集 - 力扣(LeetCode) 题目描述 给你一个整数数组 nums ,数组中的元素 互不相同 。返回该数组所有可能的子集(幂集)。 解集 不能 包含重复的子集。你可以按 任意顺序 返回解集。 样例输入 示例 1:…

【人体解剖学与组织胚胎学】练习一高度相联知识点整理及对应习题

文章目录 [toc]骨性鼻旁窦填空题问答题 关节填空题简答题 胸廓填空题简答题![在这里插入图片描述](https://img-blog.csdnimg.cn/direct/827e7d1db3af42858d8734bb81911fea.jpeg)补充 骨性鼻旁窦 填空题 问答题 关节 填空题 简答题 胸廓 填空题 简答题 补充 第二肋对应胸骨…

Day02 Liunx高级程序设计2-文件IO

系统调用 概念 是操作系统提供给用户使其可以操作内核提供服务的一组函数接口 用户态和内核态 其中 ring 0 权限最高,可以使用所有 CPU 指令, ring 3 权限最低,仅能使用 常规 CPU 指令,这个级别的权限不能使用访问硬件资…

外贸平台辅助工具常见代码有哪些?

在当今的数字化时代,外贸平台已成为企业开展国际贸易的重要渠道之一,为了提高外贸平台的运营效率和客户满意度,企业需要借助各种外贸平台辅助工具,这些工具可以帮助企业自动化、智能化地完成各种外贸业务流程,如产品发…

sql 读写注入

root高权限读写注入 load_file 读取文件 大姐我真是整了半天都是nullnullnull缝子 结果看了半天这个my.ini是被隐藏的大哥 load_file()读取文件结果为null_mysql load_file返回null解决办法_黑小薛的博客-CSDN博客 终于读出来了 此时参数值系统变量 secure_file_priv已经被修…

【Transformer论文精读系列】(一)如何理解Transformer里的注意力机制?

论文:Attention Is All You Need 参考李沐老师的讲解视频: Transformer论文逐段精读【论文精读】_哔哩哔哩_bilibili 其他参考: 超强动画,一步一步深入浅出解释Transformer原理!_哔哩哔哩_bilibili Transformer论文逐段…

Unity 网格布局控件-Grid Layout Group

Unity 网格布局控件-Grid Layout Group是Unity中的UGUI控件,用于在 UI 中创建网格布局, 它的作用是:自动将子对象排列成网格,即我们可以通过该组件对子对象按行和列的形式排列,根据指定的约束条件自动调整它们的大小和…

java:封装统一的响应体code、data、msg、paging

背景 我们在写接口的时候一般不会直接返回给前端数据,而是会有响应体,比如 code、data、msg,这样就有一个统一的结构方便前端处理,那么今天就来封装一个统一的响应体 封装基本响应体 1、在 config 包里新建 ApiResponse.java …

大学如何自学嵌入式开发?

今日话题,大学如何自学嵌入式开发?了解大学生如何自学嵌入式开发是一项重要的任务。可以大概给个学习路线,从学习C语言开始,这是嵌入式编程的基础,掌握51单片机,学习基础电路知识,这对于理解硬件…

rancher harvester deploy demo 【部署 harvester v1.2.1】

简介 Harvester 是一个现代的、开放的、可互操作的、基于Kubernetes的超融合基础设施(HCI)解决方案。它是一种开源替代方案,专为寻求云原生HCI解决方案的运营商而设计。Harvester运行在裸机服务器上,提供集成的虚拟化和分布式存储功能。除了传统的虚拟机…

Jmeter 接口-加密信息发送(一百九十九)

方式1:使用函数助手 比如MD5加密方式: 如图,需要对${user}进行MD5加密 1、打开函数助手,找到MD5,输入需要加密的值 2、将${__MD5(${user},)}放到请求中 3、查看请求,请求成功 方式2:导入jar包…

执法记录仪、一体化布控球等目前支持的AI智能算法、视频智能分析算法有哪些

一、前端设备实现AI算法 主要是基于安卓的布控球实现,已有的算法包括: 1)人脸;2)车牌;3)是否佩戴安全帽;4)是否穿着工装; 可以支持定制开发 烟雾&#xf…

题目:小明的彩灯(蓝桥OJ 1276)

题目描述&#xff1a; 解题思路&#xff1a; 一段连续区间加减&#xff0c;采用差分。最终每个元素结果与0比较大小&#xff0c;比0小即负数输出0。 题解&#xff1a; #include<bits/stdc.h> using namespace std;using ll long long; const int N 1e5 10; ll a[N],…

C++智能指针及简单实现

C智能指针 堆内存、栈内存与静态内存静态内存栈内存堆内存 动态内存管理new、delete运算符智能指针实现智能指针 shared_ptr智能指针的线程安全问题解决 unique_ptrweak_ptr循环引用 思维导图本模块思路 动态内存管理 - cppreference.com 堆内存、栈内存与静态内存 静态内存 …

上午面了个腾讯拿 38K 出来的,让我见识到了基础的天花板

今年的校招基本已经进入大规模的开奖季了&#xff0c;很多小伙伴收获不错&#xff0c;拿到了心仪的 offer。 各大论坛和社区里也看见不少小伙伴慷慨地分享了常见的面试题和八股文&#xff0c;为此咱这里也统一做一次大整理和大归类&#xff0c;这也算是划重点了。 俗话说得好…

WIN10下解决HIVE 初始化MYSQL表报错:Unknown version specified for initialization

今天本地WINDOWS装HIVE&#xff0c;走到最后一步初始化数据库死活不通过&#xff1a; D:\hive\hive-rel-release-3.1.3\bin\ext>hive --service schematool -dbType mysql -initSchema --verbose SLF4J: Class path contains multiple SLF4J bindings. SLF4J: Found bind…