LeCun转发,AI让失语者重新说话!纽约大学发布全新「神经-语音」解码器 | 最新快讯

  新智元报道

  编辑:LRT

  通过采集皮层电图(ECoG)的数据信号,模型可以将其转换为可解释的语音参数(如音高,响度,共振峰频率等),并合成出既准确又自然的语音波形。

  脑机接口(BCI)在科研和应用领域的进展在近期屡屡获得广泛的关注,大家通常都对脑机接口的应用前景有着广泛的畅享。

  比如,由于神经系统的缺陷造成的失语症不仅严重阻碍患者的日常生活,还可能限制他们的职业发展和社交活动。随着深度学习和脑机接口技术的迅猛发展,现代科学正向着通过神经语音假肢来辅助失语者重新获得交流能力的方向迈进。

  脑机接口在解码人的语音、动作等信号方面已经有了一系列激动人心的进展。特别值得一提的是,埃隆·马斯克(Elon Musk)的 Neuralink 公司在这一领域也取得了突破性进展。

  该公司成功地在一位试验对象的大脑中植入了电极,实现了通过简单的光标操作来进行打字、游戏等功能。这标志着我们在向更高复杂度的神经-语音/动作解码迈进的路上又进了一步。相比于其他脑机接口技术,神经-语音解码的复杂性更高,其研发工作主要依赖于特殊的数据源——皮层电图(ECoG)。

  皮层电图在临床上主要是从进行癫痫治疗的患者那里收集的,因为这些患者通常会植入电极以监测大脑活动。研究人员利用这些电极,在发音时收集大脑皮层的数据。这些数据不仅具有高度的时空分辨率,而且已经在语音解码研究中取得了显著成果,极大地推动了脑机接口技术的发展。通过这些先进技术的帮助,未来我们有望看到更多患有神经障碍的人士重获交流的自由。

  最近在《自然》杂志上发表的一项研究取得了突破,研究中在一位植入设备的患者身上使用了量化的 HuBERT 特征作为中间表征,结合预训练的语音合成器将这些特征转化为语音,这种方法不仅提高了语音的自然度,也保持了高准确性。

  然而,HuBERT 特征并不能捕捉到发音者的独特声学特征,生成的声音通常是统一的发音者声音,因此仍需额外的模型来将这种通用声音转换为特定患者的声音。

  另一个值得注意的点是,该研究及大部分先前尝试采用了非因果架构,这可能限制了其在需要因果操作的脑机接口应用中的实际使用。

  2024 年 4 月 8 日,纽约大学 VideoLab 和 Flinker Lab 联合在《Nature Machine Intelligence》杂志上发表了一项突破性研究。

  论文链接:https://www.nature.com/articles/s42256-024-00824-8

  研究相关代码开源在 https://github.com/flinkerlab/neural_speech_decoding

  更多生成的语音例子在:https://xc1490.github.io/nsd/

  这项名为“A neural speech decoding framework leveraging deep learning and speech synthesis”的研究,介绍了一个创新的可微分语音合成器。

  该合成器结合了轻量级卷积神经网络,能够将语音编码为一系列可解释的语音参数,如音高、响度和共振峰频率等,并利用可微分的技术重新合成语音。

  此研究通过将神经信号映射到这些具体的语音参数,成功构建了一个高度可解释并适用于小数据集的神经语音解码系统。这一系统不仅能重构出高保真且听起来自然的语音,而且为未来脑机接口应用的高准确性提供了实证基础。

  研究团队共收集了 48 位受试者的数据,并在这一基础上进行了语音解码的尝试,为高精度脑机接口技术的实际应用和发展打下了坚实的基础。

  图灵奖得主 Lecun 也转发了研究进展。

  研究现状

  在当前神经信号到语音解码的研究中,面临两大核心挑战。

  首先是数据量的限制:为了训练个性化的神经到语音解码模型,通常每个病人的可用的数据时间总长仅约十分钟,这对于依赖大量训练数据的深度学习模型而言是一个显著的制约因素。

  其次,人类语音的高度多样性也增加了建模的复杂度。即便同一人反复发音拼读同一个单词,其语速、语调和音调等因素亦可能发生变化,从而为模型的构建增添了额外的难度。

  在早期尝试中,研究者们主要采用线性模型来解码神经信号到语音。这类模型不需庞大的数据集支持,具备较强的可解释性,但其准确率通常较低。

  近期,随着深度学习技术的进步,特别是卷积神经网络(CNN)和循环神经网络(RNN)的应用,研究者在模拟语音的中间潜在表征和提升合成语音质量方面进行了广泛尝试。

  例如,一些研究通过将大脑皮层活动解码为口型运动,再转化为语音,尽管这种方法在解码性能上较为强大,重建的声音却往往听起来不够自然。

  此外,一些新方法尝试利用 Wavenet 声码器和生成对抗网络(GAN)来重建自然听感的语音,虽然这些方法能够改善声音的自然度,但在准确度上仍有局限。

  主要模型框架

  在该研究中,研究团队展示了一种创新的从脑电(ECoG)信号到语音的解码框架。他们构建了一个低维度的潜在表示空间,该空间通过一个轻量级的语音编解码模型,仅使用语音信号来生成。

  这一框架包含两个核心部分:首先是 ECoG 解码器,它负责将 ECoG 信号转换为一系列可理解的声学语音参数,如音高、是否发声、响度及共振峰频率等;其次是语音合成器部分,负责将这些参数转换为频谱图。

  通过构建一个可微分的语音合成器,研究人员实现了在训练 ECoG 解码器的同时,也对语音合成器进行优化,共同减少频谱图重建的误差。这种低维度潜在空间的可解释性强,结合轻量级的预训练语音编码器生成的参考语音参数,使得整个神经语音解码框架高效且适应性强,有效解决了该领域中数据稀缺的问题。

  此外,这个框架不仅能生成与说话者非常接近的自然语音,而且在 ECoG 解码器部分支持插入多种深度学习模型架构,并能进行因果操作。

  研究团队处理了 48 名神经外科病人的 ECoG 数据,并使用了多种深度学习架构(包括卷积、循环神经网络和 Transformer)来实现 ECoG 解码。

  这些模型在实验中均显示了高准确度,尤其是采用 ResNet 卷积架构的表现最为出色。该研究框架不仅通过因果操作和相对较低的采样率(10mm 间隔)实现了高准确度,还展示了能从大脑的左右半球都有效进行语音解码的能力,从而将神经语音解码的应用范围扩展到了右脑。

  本研究的核心创新之一是开发了一种可微分的语音合成器,这大大提高了语音重合成的效率,并能合成接近原声的高保真音频。

  这种语音合成器的设计灵感来源于人类的发声系统,将语音细分为两个部分:Voice(主要用于元音的模拟)和 Unvoice(主要用于辅音的模拟)。

  在 Voice 部分,首先使用基频信号生成谐波,然后通过由 F1 至 F6 共振峰构成的滤波器,以获得元音的频谱特征。

  对于 Unvoice 部分,通过对白噪声进行特定滤波,生成相应的频谱。一个可学习的参数控制这两部分在每个时间点的混合比例。

  最后,通过调整响度信号和添加背景噪声,生成最终的语音频谱。

  基于这种语音合成器,研究团队设计了一个高效的语音重合成框架及神经-语音解码框架。详细的框架结构可以参考原文的图6。

  研究结果

  1. 具有时序因果性的语音解码结果

  在此项研究中,研究者首先对不同的模型架构进行了直接比较,包括卷积网络(ResNet)、循环神经网络(LSTM)和 Transformer 架构(3D Swin),以评估它们在语音解码性能上的差异。

  值得注意的是,这些模型均能执行时间序列上的非因果或因果操作。

  在大脑-计算机接口(BCI)的应用中,解码模型的因果性具有重要意义:因果模型只利用过去和当前的神经信号来生成语音,而非因果模型还会参考未来的神经信号,这在实际操作中是不可行的。

  因此,研究的重点在于比较同一模型在执行因果和非因果操作时的性能表现。结果显示,即使是因果版本的 ResNet 模型,其性能也能与非因果版本相媲美,二者之间没有显著的性能差异。

  类似地,Swin 模型的因果和非因果版本性能相近,但 LSTM 的因果版本在性能上显著低于其非因果版本。研究还展示了几个关键的语音参数的平均解码准确率(总样本数为 48),包括声音权重(区分元音和辅音的参数)、响度、基频 f0、第一共振峰 f1 和第二共振峰 f2。

  准确地重建这些语音参数,特别是基频、声音权重和前两个共振峰,对于实现精确的语音解码和自然地重现参与者声音至关重要。

  研究结果表明,无论是非因果还是因果模型,都能提供合理的解码效果,这为未来的相关研究和应用提供了积极的启示。

  2. 对左右大脑神经信号语音解码以及空间采样率的研究

  研究者在最新的研究中进一步探索了左右大脑半球在语音解码上的性能差异。

  传统上,大多数研究主要集中在与语音和语言功能密切相关的左脑半球。

  然而,关于右脑半球在语言信息解码方面的能力,我们了解的还很有限。为了探索这一领域,研究团队比较了参与者左右脑半球的解码性能,验证了使用右脑半球进行语音恢复的可行性。

  在研究中收集的 48 位受试者中,16 位的 ECoG 信号来自右脑。研究者通过比较使用 ResNet 和 Swin 解码器的性能,发现右脑半球同样能够有效地进行语音解码,其效果与左脑半球相近。这一发现为那些左脑受损且失去语言功能的患者提供了一种可能的语言恢复方案。

  研究还涉及到了电极采样密度对语音解码效果的影响。以往的研究多使用较高密度的电极网格(0.4 mm),而在临床实践中常用的电极网格密度则较低(1 cm)。

  本研究中有五位参与者使用了混合类型(HB)的电极网格,这类网格主要是低密度,但添加了一些额外的电极。其余四十三位参与者均使用了低密度采样。

  结果显示,这些混合采样(HB)的解码表现与传统的低密度采样(LD)相近,表明模型能够有效地从不同密度的大脑皮层电极网格中学习语音信息。这一发现暗示了在临床常用的电极采样密度可能已足够支持未来的脑机接口应用。

  3. 对于左右脑不同脑区对语音解码贡献度的研究

  研究者还探讨了大脑中与语音相关区域在语音解码过程中的作用,这一点对于将来可能在左右脑半球植入语音恢复设备具有重要意义。为了评估不同大脑区域对语音解码的影响,研究团队采用了遮挡技术(occlusion analysis)。

  通过对 ResNet 和 Swin 解码器的因果与非因果模型进行比较,研究发现,在非因果模型中,听觉皮层的作用更加显著。这一结果强调了在实时语音解码应用中使用因果模型的必要性,因为实时应用无法依赖未来的神经反馈信号。

  此外,研究也显示,无论在大脑的左半球还是右半球,传感运动皮层特别是腹部区域对语音解码的贡献度都相似。这一发现表明,在右半球植入神经假肢来恢复语音可能是一个可行的方案,提供了对未来治疗策略的重要见解。

  结论(启发展望)

  研究团队开发了一种新型的可微分语音合成器,这一合成器使用轻型卷积神经网络将语音编码为一系列可解释的参数,如音高、响度和共振峰频率等,并利用同一可微分合成器对语音进行重新合成。

  通过将神经信号映射到这些参数上,研究者们构建了一个高度可解释并适用于小数据集的神经语音解码系统,能够生成自然听感的语音。

  这一系统在 48 名参与者中表现出高度的可复现性,能够处理不同空间采样密度的数据,并能同时处理左、右脑半球的脑电信号,展示了其在语音解码方面的强大潜力。

  尽管取得了显著进展,研究者也指出了模型当前的一些局限性,如解码过程依赖于与 ECoG 记录配对的语音训练数据,这对于失语症患者可能不适用。

  未来,研究团队希望建立能够处理非网格数据的模型架构,并更有效地利用多病人、多模态的脑电数据。随着硬件技术的持续进步和深度学习技术的快速发展,脑机接口领域的研究仍处于早期阶段,但随着时间的推移,科幻电影中的脑机接口设想将逐步成为现实。

  参考资料:

  A neural speech decoding framework leveraging deep learning and speech synthesis | Nature Machine Intelligence

  本文第一作者: Xupeng Chen (xc1490@nyu.edu), Ran Wang,通讯作者: Adeen Flinker

  更多关于神经语音解码中的因果性讨论,可以参考作者们的另一篇论文:

  https://www.pnas.org/doi/10.1073/pnas.2300255120

来自: 网易科技

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/598814.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

【C++ | 函数】默认参数、哑元参数、函数重载、内联函数

😁博客主页😁:🚀https://blog.csdn.net/wkd_007🚀 🤑博客内容🤑:🍭嵌入式开发、Linux、C语言、C、数据结构、音视频🍭 ⏰发布时间⏰:2024-05-04 1…

【Flutter】App内购支付集成 Google和Apple支付和服务器验证全流程

Flutter支付集成 前言: 以谷歌内购为例,我们需要做的总共为三步 需要在谷歌市场配置商品,设置测试渠道,配置开发者账号,设置对应权限。配置完商品之后,如何在 Flutter 中获取到商品,购买指定…

如何为数据库中新建用户B复制用户A的表和视图权限?

故事背景: 公司使用的是SQL Server数据库,经常会碰到一种情况,需要为新入职的员工赋予同组内其他同事的权限。 常用方法: 1) 为同一组申请创建统一的Security Group(安全组),为创建的组分配相关表和视图的访问权限。不管员工入职…

基于POSIX标准库的读者-写者问题的简单实现

文章目录 实验要求分析保证读写、写写互斥保证多个读者同时进行读操作 读者优先实例代码分析 写者优先示例代码分析 实验要求 创建一个控制台进程,此进程包含n个线程。用这n个线程来表示n个读者或写者。每个线程按相应测试数据文件的要求进行读写操作。用信号量机制…

FileLink跨网文件交换,推动企业高效协作|半导体行业解决方案

随着信息技术的迅猛发展,全球信息产业已经迎来了前所未有的繁荣与变革。在这场科技革命中,半导体作为信息产业的基础与核心,其重要性日益凸显,半导体的应用场景和市场需求将进一步扩大。 然而,在这一繁荣的背后&#x…

解决 SyntaxError: Unexpected token ‘.‘ 报错问题

这个报错一般是编译问题&#xff0c;浏览器的版本过低没通过代码 解决办法&#xff1a; 在package.json文件中加上这个 "browserslist": ["> 1%","last 2 versions","not dead","not ie < 6","Android > 4&…

源代码防泄露可以通过哪些方法实现?七种有效方法分享

在当今数字化时代&#xff0c;访问安全和数据安全成为企业面临的重要挑战。传统的边界防御已经无法满足日益复杂的内网办公环境&#xff0c;层出不穷的攻击手段已经让市场单一的防御手段黔驴技穷。当企业面临越来越复杂的网络威胁和数据泄密风险时&#xff0c;更需要一种综合的…

stable-diffusion-webui配置

源码地址 https://github.com/AUTOMATIC1111/stable-diffusion-webui.git报错Fresh install fail to load AttributeError: NoneType object has no attribute _id pydantic降级 pip uninstall pydantic pip install pydantic1.10.11记得要把clip-vit-large-patch14放在opena…

Java集合 总结篇(全)

Java集合 集合底层框架总结 List 代表的有序&#xff0c;可重复的集合。 ArrayList -- 数组 -- 把他想象成C中的Vector就可以&#xff0c;当数组空间不够的时候&#xff0c;会自动扩容。 -- 线程不安全 LinkedList -- 双向链表 -- 可以将他理解成一个链表&#xff0c;不支持…

C语言猜数字游戏

用C语言实现猜数字游戏&#xff0c;电脑随机给出一个范围内的数字&#xff0c;用户在终端输入数字&#xff0c;去猜大小&#xff1b;对比数字&#xff0c;电脑给出提示偏大还是偏小&#xff1b;不断循环&#xff0c;直到正确 #include <stdio.h> #include <time.h>…

【系统架构师】-选择题(十一)

1、紧耦合多机系统一般通过&#xff08;共享内存&#xff09;实现多机间的通信。对称多处理器结构&#xff08;SMP&#xff09;属于&#xff08; 紧耦合&#xff09;系统。 松耦合多机系统又称间接耦合系统,—般是通过通道或通信线路实现计算机间的互连。 2、采用微内核的OS结构…

从互联网医院源码到搭建:开发视频问诊小程序的技术解析

如今&#xff0c;视频问诊小程序作为医疗服务的一种新形式&#xff0c;正逐渐受到人们的关注和青睐。今天&#xff0c;小编将为您详解视频问诊小程序的开发流程。 一、背景介绍 互联网医院源码是视频问诊小程序开发的基础&#xff0c;它提供了一套完整的医疗服务系统框架&…

【vue-echarts】 报错问题解决 “Error: Component series.pie not exists. Load it first.“

目录 问题描述解决【解决1】【解决2】 问题描述 使用 vue-echarts 时导入的文件 import VChart from vue-echarts/components/ECharts import echarts/lib/chart/line import echarts/lib/chart/bar import echarts/lib/chart/pie import echarts/lib/component/legend impor…

MySQL 报错: “Host ‘xxx‘ is not allowed to connect to this MySQL server“

MySQL 报错 “Host ‘xxx’ is not allowed to connect to this MySQL server” 通常是因为数据库服务器上的权限设置不允许来自特定主机&#xff08;‘xxx’&#xff09;的连接。解决这个问题通常涉及修改 MySQL 的访问控制设置。 以下是一些可能的解决步骤&#xff1a; 使用…

高效工作之:开源工具kettle实战

在运营商数据处理领域&#xff0c;Oracle存储过程一直是数据处理的核心工具&#xff0c;但随着技术的发展&#xff0c;寻找替代方案变得迫切。Kettle&#xff0c;作为Oracle存储过程的替代品&#xff0c;以其强大的功能和易用性&#xff0c;正逐渐受到运营商的青睐。本文将介绍…

C++基础——深拷贝和浅拷贝

C中类的拷贝有两种&#xff1a;深拷贝&#xff0c;浅拷贝&#xff1a;当出现类的等号赋值时&#xff0c;即会调用拷贝函数 一、概念 浅拷贝&#xff1a;同一类型的对象之间可以赋值&#xff0c;使得两个对象的成员变量的值相同&#xff0c;两个对象仍然是独立的两个对象&#…

【全网首发】Typecho文章采集器火车头插件去授权版

内容目录 一、详细介绍二、效果展示1.部分代码2.效果图展示 三、学习资料下载 一、详细介绍 目前市面上基本没有typecho火车头采集器 而分享的这一款采集器&#xff0c;牛的一批 内置使用方法与教程&#xff01; 二、效果展示 1.部分代码 代码如下&#xff08;示例&#…

嘎嘎好用的虚拟键盘第二弹之中文输入法

之前还在为不用研究输入中文而暗自窃喜 这不新需求就来了&#xff08;新需求不会迟到 它只是在路上飞一会儿&#xff09; 找到了个博主分享的代码 是好使的 前端-xyq 已经和原作者申请转载了 感谢~~ 原作者地址&#xff1a;https://www.cnblogs.com/linjiangxian/p/16223681.h…

Amazon Q Business现已正式上市!利用生成式人工智能协助提高员工生产力

在 2023 年度 AWS re:Invent 大会上&#xff0c;我们预览了 Amazon Q Business&#xff0c;这是一款基于生成式人工智能的助手&#xff0c;可以根据企业系统中的数据和信息回答问题、提供摘要、生成内容额安全地完成任务。 借助 Amazon Q Business&#xff0c;您可以部署安全、…

Java多线程编程之synchronizaed和锁分类

并发编程第三周 1 锁的分类 1.1 可重入锁&#xff0c;不可重入锁 Java提供的synchronized&#xff0c;ReentrantLock,ReentrantReadWriteLock都是可重入锁 可重入&#xff1a;当前线程获取到A锁&#xff0c;在获取之后尝试再次获取A锁是可以直接拿到的。 不可重入:当前线程…