谷歌发布基于声学建模的无限虚拟房间增强现实鲁棒语音识别技术

声学室模拟允许在AR眼镜上以最少的真实数据进行训练,用于开发鲁棒的语音识别声音分离模型。

随着增强现实(AR)技术的强大和广泛应用,它能应用到各种日常情境中。我们对AR技术的潜能感到兴奋,并持续不断地开发和测试新技术与体验。其中一个研究方向是探索语音模型对人际交流潜力的改变。例如,在我们之前进行的可穿戴字幕工作中,通过全天候语音转录来增强交流已经证明了其在聋哑人群体和听损人群等多个用户研究中的价值,也可以用于跨语言交流。这种增强尤其在群体对话或嘈杂环境中非常有用,在这些环境下,人们可能会遇到难以区分他人说话内容的困扰。因此,在可穿戴设备中准确地分离声音并进行语音识别是提供可靠且有价值用户体验所必需的关键要素。

在现实环境中,无论是在群体对话(左侧)还是周围存在多个说话者的嘈杂环境(右侧),语音字幕生成都面临着极大挑战

开发音频信号处理的深度学习解决方案需要访问大规模高质量数据集。对于训练声音分离模型而言,通过在实际设备上录制音频可以捕获到特定声学特性,然而考虑到需要在具有代表性的真实环境中使用实际设备,这一记录过程既耗时又困难。相比之下,利用模拟数据(例如房间模拟器)能够快速且低成本地进行操作,但可能无法准确捕捉到设备的良好声学特性。

在IEEE ICASSP 2024上发表的研究"基于模拟器的数据增强对增强现实眼镜语音识别性能的影响"证明了通过混合训练集,即由少量真实录音和大量模拟数据组成的配备麦克风头戴显示器原型,在提高模型性能方面具有显著效果。这种混合方法不仅可以捕获实际硬件声学特性(无法在模拟数据中获取),还可以便捷快速地生成适用于不同房间大小和配置声学场景的大量模拟数据,而使用实际设备记录这些数据则非常耗时。此外,该研究还对原型麦克风的方向性进行建模,以增加模拟结果的真实感,并进一步减少所需真实数据量。

室内声音传播机制

声波从A点到B点的传播模型如下:

其中,x(t)代表点A的时域声音信号,y(t)代表点B的声音信号。数学上通过脉冲响应(IR) h(t)来描述声波在经过A和B之间介质传播时的变化情况。

以下是一个在中度混响室内录制的红外信号示例。IR由三个主要部分组成:初始延迟、主峰和尾翼。初始延迟反映了声波从A点传播到B点所需时间延迟;主峰表示直接路径(即视距)上从A到B的声波传播;尾翼则由于墙壁、地板和天花板等处发生反射(也称为混响),导致较长距离和较晚到达以及振幅降低。

使用头戴式麦克风拍摄房间红外(IR)的示例。其中,(a)声波从扬声器传播到麦克风存在初始延迟,(b)主峰表示直接传播(即视距传播),(c)尾部代表来自房间的声音反射。

混合数据集

为了捕捉原型在一系列代表性环境中的独特声学特性,我们开发了一个混合数据集管道。通过使用头-躯干模拟器(HATS)在实际设备上记录房间脉冲响应(RIRs),我们能够获取真实数据。我们利用9个扬声器和一个嘴巴模拟器提供10个声源,并借助电动转台控制声源与原型之间的角度,从而记录每个房间720个RIRs(360°/ 5°增量× 10个声源)。这些扬声器分别放置在样机周围不同距离(1.0 - 4.2米)和高度(1.3 - 1.8米)的位置。所记录的RIR数据集被划分为训练集和评估集。对于模拟数据集,我们使用房间模拟器生成了8000个具有不同RT60混响时间(0.2-1.5秒)、房间体积(长/宽:2-6米,高度:2-6米)和扬声器位置(高度:1.3-2.1米,与原型距离:0.2-4米)的IRs。所有这些模拟RIR仅用于训练。

数据收集装置。麦克风原型安装在一个旋转平台上,周围有9个扬声器,另外还有一个10口模拟扬声器。在使用和不使用头部和躯干模拟器的情况下进行了720次RIR记录。

在训练过程中,我们使用了公共数据集(LibriTTS和FSD50K)以及记录和模拟的RIRs对语音和噪声样本进行了空间化处理,并将它们混合在一起。通过能够访问单独的预混合空间化源,我们可以获得用于监督训练的真实数据。根据所使用的训练集(记录的、模拟的或两者兼有)组合不同基于CNN的Conv-TasNet模型,并比较它们之间的性能。所有模型都保持相同的架构和超参数。

声学建模

在声学建模过程中,我们假设麦克风的指向性可以增强模拟的冲击响应(IRs)的真实感,因为麦克风指向性是录制IRs时关键的声学特征。因此,我们将模拟的RIRs扩展为具有麦克风指向性,并通过计算直达混响比(DRR)来衡量直达径(视线)音频与其混响部分之间功率上的差异。正如我们所假设的那样,我们得出了以下结论(见下文),即通过使模拟IRs更接近于录制IRs行为,并提高模拟数据集质量,从而进一步提升整体模型性能,而无需进行昂贵且耗时的录制过程。值得注意的是随着模拟IRs与录制IRs越来越接近,在混合数据集中以更多比例使用模拟IRs相对于记录IRs变得可行。因此,在不影响模型性能情况下,这种额外声学建模方法还可以进一步减少所需记录数据量。

结果

为了评估模型的性能,我们在预处理步骤上遵循与训练中相同的流程。不同之处在于,我们使用录制的IRs作为评估集,并排除了训练数据中的语音和噪声音频。推理后,分离出来的输出音频被传递到一个现成的自动语音识别(ASR)引擎进行计算单词错误率(WER)。我们使用未经修改过且与Pixel Recorder APP中使用的引擎相同的ASR引擎,在每个模型上重复执行相同推理过程以便与下面总结结果进行比较。

研究结果显示,使用混合数据集训练的模型相较于仅从记录数据集或模拟数据集训练的模型表现更优。混合模型S[4000]+M[720](包含4000个模拟和720个测量)与M[1440](包含1440个测量)具有类似性能,由于训练数据中已经包含了4000个模拟IRs,因此只需一半数量的记录- 1440→720 -。同时,S[4000]+M[720]也优于在S[8000](包含8000个模拟)上进行训练的模型,这说明小子集中所提取出来的记录IRs数量减少了所需的模拟IRs数量(8000→4000 )。

不同的数据增强方法与实测和模拟IRs进行比较。M表示测量,S表示模拟;括号中的内容分别代表IRs数量、D代表模拟中的麦克风指向性,G代表对被测房间使用匹配几何的模拟。WER的降低是相对于基线(没有声音分离)而言WER得到了改进。

结论

尽管可穿戴设备上的语音识别具有挑战性,特别是在噪声和混响条件下,但结论显示其具有解锁许多关键应用的潜力。本文量化了使用房间模拟器来训练作为语音识别前端的声音分离模型的有效性。通过(a)大幅增加可用模拟IRs数量、(b)利用麦克风指向性以及(c)与少量测量IRs合并,证明了模拟IRs对提高语音识别至关重要。

仿真技术成为开发可穿戴语音识别系统强有力的工具。我们得出一个重要结论:逼真的声学建模可以显著减少所需真实世界数据量,并且即使使用模拟数据来补充有限真实世界数据也能带来巨大性能提升。

这项研究为强大的语音驱动AR体验开辟了新途径,并为无数应用程序中增强通信铺平了道路。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/571544.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

SpringBoot---------整合Mybatisplus

快速入门 第一步&#xff1a;导入依赖 <dependency><groupId>org.mybatis.spring.boot</groupId><artifactId>mybatis-spring-boot-starter</artifactId><version>2.3.1</version></dependency> 第二步&#xff1a;编写mapper…

区块链 | OpenSea 相关论文:Toward Achieving Anonymous NFT Trading(下)

&#x1f951;原文&#xff1a; Toward Achieving Anonymous NFT Trading VII 讨论&#xff1a;关于匿名性与市场平台的困境 在本文的这一部分&#xff0c;我们将讨论关于隐藏 NFT 所有者地址的困境&#xff0c;以及为什么像 OpenSea 这样的 NFT 市场平台几乎必须得到完全的信…

Java | 选择排序算法实现

大家可以关注一下专栏&#xff0c;方便大家需要的时候直接查找&#xff0c;专栏将持续更新~ 题目描述 编写一个Java程序&#xff0c;实现选择排序算法。程序需要能够接收一个整型数组作为输入&#xff0c;并输出排序后的数组。 选择排序是一种简单直观的排序算法&#xf…

imx6ull -- SPI

SPI 是 Motorola 公司推出的一种同步串行接口 技术&#xff0c;是一种高速、全双工的同步通信总线&#xff0c; SPI 时钟频率相比 I2C 要高很多&#xff0c;最高可以工作 在上百 MHz。 SPI 以主从方式工作&#xff0c;通常是有一个主设备和一个或多个从设备&#xff0c;一般 SP…

ASP.NET Core WEB API 使用element-ui文件上传组件el-upload执行手动文件文件,并在文件上传后清空文件

前言&#xff1a; 从开始学习Vue到使用element-ui-admin已经有将近快两年的时间了&#xff0c;在之前的开发中使用element-ui上传组件el-upload都是直接使用文件选取后立即选择上传&#xff0c;今天刚好做了一个和之前类似的文件选择上传的需求&#xff0c;不过这次是需要手动点…

[InternLM训练营第二期笔记]5. LMDeploy 量化部署 LLM 实践

该系列是上海AI Lab举行的书生 浦语大模型训练营的相关笔记部分。 该笔记是第五节课&#xff0c;学习大语言模型量化的基本概念&#xff0c;以及利用LMDeploy工具进行微调。 0. 模型部署的概念 0.0 背景 如果要将大模型在特定平台&#xff08;大到服务器集群&#xff0c;小到…

需求 分析

需求分析的任务 需求分析的任务 1、需求分析是软件定义时期的最后一个阶段&#xff0c;它的基本任务是准确地回答“系统必须做什么?”这个问题。 2、确定系统必须完成哪些工作&#xff0c;也就是对目标系统提出完整、准确、清晰、具体的要求。 3、系统分析员应该写出软件需求…

Docker网络及CPU资源控制

一、实现原理 Docker使用Linux桥接&#xff0c;在宿主机虚拟一个Docker容器网桥(docker0)&#xff0c;Docker启动一个容器时会根据Docker网桥的网段分配给容器一个IP地址&#xff0c;称为Container-IP&#xff0c;同时Docker网桥是每个容器的默认网关。因为在同一宿主机内的容…

Gradio 最快创建Web 界面部署到服务器并演示机器学习模型,本文提供教学案例以及部署方法,避免使用繁琐的django

最近学习hugging face里面的物体检测模型&#xff0c;发现一个方便快捷的工具&#xff01; Gradio 是通过友好的 Web 界面演示机器学习模型的最快方式&#xff0c;以便任何人都可以在任何地方使用它&#xff01; 一、核心优势&#xff1a; 使用这个开发这种演示机器学习模型的…

【C++题解】1302. 是否适合晨练?

问题&#xff1a;1302. 是否适合晨练&#xff1f; 类型&#xff1a;分支 题目描述&#xff1a; 夏天到了&#xff0c;气温太高&#xff0c;小明的爷爷每天有晨练的习惯&#xff0c;但有时候温度不适合晨练&#xff1b;小明想编写一个程序&#xff0c;帮助爷爷判断温度是否适合…

5分钟——测试搭建的springboot接口(二)

5分钟——测试搭建的springboot接口&#xff08;二&#xff09; 1. 查看数据库字段2. 测试getAll接口3. 测试add接口4. 测试update接口5. 测试deleteById接口 1. 查看数据库字段 2. 测试getAll接口 3. 测试add接口 4. 测试update接口 5. 测试deleteById接口

计算机网络-IS-IS基础配置实验

前面我们了解了IS-IS的一些基础理论&#xff0c;从建立邻接、链路状态数据库同步以及路由计算&#xff0c;现在开始学习下配置操作。 一、IS-IS配置 网络拓扑图&#xff1a; 拓扑图 IS-IS有Level级别的区分&#xff0c;Level-1可以是性能较低的设备只维护区域内的LSDB&#xff…

论文辅助笔记:LLM-MOB代码解读

论文笔记 Where Would I Go Next? Large Language Models as Human Mobility Predictor-CSDN博客 1 主函数 1.1 导入库 import os import pickle import time import ast import logging from datetime import datetime import pandas as pd from openai import OpenAIclie…

Sqli-labs靶场第25关[Sqli-labs-less-25]自动化注入-SQLmap工具注入

过滤了AND OR 使用的函数是 preg_replace 特点&#xff1a;只对值进行一次检测闭合方式为 单引号 可以使用双写进行绕过 手工注入 ?id0 union select 1,database(),user() -- sqlmap自动化注入 sqlmap.py -u http://192.168.58.114:802/sqli-labs/Less-25/?id2 --batch -…

Aurora-64B/10B、XDMA与DDR结合设计高速数据流通路设计/Aurora光纤设计/XDMA读取DDR设计/基于FPGA的高速数据传输设计

因最近想通过FPGA把数据从光纤传到PC&#xff0c;借此机会和大家一起学习Aurora、XDMA结合DDR 制作不易&#xff0c;记得三连哦&#xff0c;给我动力&#xff0c;持续更新&#xff01;&#xff01;&#xff01; 完整工程文件下载&#xff1a;XDMA读写DDR工程 提取码&…

[Algorithm][前缀和][和为K的子数组][和可被K整除的子数组][连续数组][矩阵区域和]详细讲解

目录 1.和为 K 的子数组1.题目链接2.算法原理详解3.代码实现 2.和可被 K 整除的子数组1.题目链接2.算法原理详解3.代码实现 3.连续数组1.题目链接2.算法原理详解3.代码实现 4.矩阵区域和1.题目链接2.算法原理详解3.代码实现 1.和为 K 的子数组 1.题目链接 和为 K 的子数组 2.…

网络安全攻击溯源的重要性及挑战

网络安全攻击溯源是一个复杂且至关重要的过程&#xff0c;它涉及对网络攻击事件的来源进行追踪和分析&#xff0c;以便确定攻击者的身份、动机和攻击路径。在IP技术背景下&#xff0c;网络安全攻击溯源更是显得尤为重要&#xff0c;因为IP地址作为网络设备的唯一标识&#xff0…

Kafka 3.x.x 入门到精通(02)——对标尚硅谷Kafka教程

Kafka 3.x.x 入门到精通&#xff08;02&#xff09;——对标尚硅谷Kafka教程 2. Kafka基础2.1 集群部署2.1.1 解压文件2.1.2 安装ZooKeeper2.1.3 安装Kafka2.1.4 封装启动脚本 2.2 集群启动2.2.1 相关概念2.2.1.1 代理&#xff1a;Broker2.2.1.2 控制器&#xff1a;Controller …

css中新型的边框设置属性border-inline

一、概念与背景 border-inline 是 CSS Logical Properties and Values 模块中的一个属性&#xff0c;用于控制元素在流内&#xff08;inline&#xff09;方向上的边框。该模块旨在提供与书写模式&#xff08;writing mode&#xff09;无关的布局和样式描述方式&#xff0c;使得…

【现代交换原理与通信网技术】期末突击

文章目录 自己老师画的重点1. 程控交换机结构2. 测试模拟电路的七项功能3.中继电路的六项功能4.数字用户电路和模拟用户电路比较5.路由规划的基本原则6.七路信令的结构7.随路信令和公共信道信令8.软交换9.无极网和分级网10.路由选择.流量控制的原则/方法11.电路交换&&分…