WAVENET: A GENERATIVE MODEL FOR RAW AUDIO

ABSTRACT

   这篇论文提出了WaveNet,一个生成原始音频波形的深度神经网络。这是一个完全的概率自回归模型,它基于之前已经生成的所有样本,来预测当前音频样本的概率分布;不过,我们将会展示它可以在每秒数万采样率的音频数据上高效地进行训练。将其应用到语音合成,它可以获得当前业界最佳的性能,不管是英语还是中文普通话,相比之前最好的参数式和拼接式系统,人类听众评价其在自然度上有大幅度进步。单一模型的WaveNet可以以相同的保真度捕获很多说话人的特征,并可以针对说话者进行训练后在多人之间切换。当训练对音乐建模,我们发现它可以产生新颖的高度真实的音乐片段。同时,我们也会展示它可以作为判别模型应用在音素识别中,获得有可观前景的结果。

1 INTRODUCTION

近来对图像(van den Oord et al., 2016a;b)和文本(Jozefowicz et al., 2016)等复杂分布进行建模的神经自回归生成模型有了进展,受这些进展的启发,我们研究了原始音频生成技术。使用神经架构,把像素或者单词的联合概率视作条件概率分布的乘积的建模方法,取得了业界最佳的成绩。

  特别是,这些架构可以对上千个随机变量(例如,在PixelRNN中64x64像素(van den Oord et al., 2016a))的概率分布进行建模。这篇论文要解决的问题是,同样的方法是否可以在宽带原始音频波形的生成中奏效,这些音频波形信号具有非常高的时间分辨率,至少每秒16000个样本(参照图1)。

 这篇论文介绍WaveNet,一个基于PixelCNN(van den Oord et al., 2016a;b)架构的音频生成模型。这份研究的主要贡献如下:

  • 我们展示了WaveNet可以生成在语音合成(TTS)领域前所未有的主观自然度的原始语音信号,这是由人类打分员进行评价的。
  • 为了处理原始音频生成中所需的大跨度时间依赖,我们基于扩大因果卷积开发了新的架构,它具有非常大的感受野。
  • 我们展示了如果基于说话人身份进行训练,单个模型可以生成不同风格的语音。
  • 同样的架构在小规模语音识别数据集的测试中获得了很好的结果,同时用于音乐等其他形态的音频生成中也有很好的前景

 我们相信WaveNet为很多依赖于音频生成的应用(如语音合成,音乐,语音增强,语音转换,声源分离),提供了一个通用的灵活的框架。

2 WAVENET

这篇论文中我们提出一个新的生成模型,它能直接产生原始音频波形。音频波形的联合概率x = {x1, . . . , xT }可以分解成如下条件概率分布的乘积:

因此每一个音频样本 xt都依赖之前所有步骤产生的样本。

  与PixelCNNs (van den Oord et al., 2016a;b)类似,条件概率分布由若干卷积层堆叠进行建模。网络中没有池化层,模型的输出与输入具有相同的时间维度。模型使用softmax层输出下一个值xt的类别分布,使用最大对数似然方法对参数进行优化。由于对数似然易于处理,我们在验证集上对超参数进行调优,可以容易地测定模型过拟合或者欠拟合。

2.1 DILATED CAUSAL CONVOLUTIONS

  WaveNet的主要成分是因果卷积。因果卷积确保了模型输出不会违反数据的顺序:模型在t时刻输出的p(xt+1|x1,...,xt)不会依赖任何一个未来时刻的数据xt+1,xt+2,...,xT,如图2所示。对图像来说,因果卷积等价于一个遮蔽卷积(van den Oord et al., 2016a),可以在使用前通过构建一个遮蔽张量与卷积核进行点乘来实现。对于音频这样的一维数据来说实现起来更简单,将正常卷积的输出偏移几个时间步即可。

在训练阶段,由于标定真实数据x的所有时间步都是已知的,因此所有时间步的条件概率预测可以并行进行。在推断阶段,预测结果是串行的:每一个预测出的样本都反馈给网络用于预测下一个样本。

  由于使用因果卷积的模型中没有循环连接,通常训练起来比RNN更快,特别是对于很长句子的训练。因果卷积存在的一个问题是它需要很多层,或者很大的卷积核来增大其感受野。例如,在图2中,感受野只有5(= 层数 + 卷积核长度 - 1)。在这篇论文中,我们使用扩大卷积(dilated convolution)使感受野增大几个数量级,同时不会显著增加计算成本。

  扩大卷积(也称为带洞卷积),是卷积核在比自身大的数据上进行卷积时跳步的卷积方法。这与通过用零补边使卷积核扩大的效果是一样的,但是这样效率更高。与正常卷积相比,扩大卷积有效地使网络可以执行粗粒度的卷积操作。这与池化或者跳步卷积类似,只是这里的输出保持与输入大小相同。作为特例,扩大因子=1的扩大卷积就是标准卷积。图3描绘了扩大因子为1,2,4,8的扩大因果卷积。扩大卷积之前在不同的上下文中被使用过,如信号处理(Holschneider et al., 1989; Dutilleux, 1989),图像分割(Chen et al., 2015; Yu & Koltun, 2016)。

 

     堆叠式扩大卷积使得网络只通过少数几层便拥有了非常大的感受野,同时保留了输入分辨率和计算效率。本论文中,扩大系数每层都翻倍直到上限,然后重复循环,如:1,2,4,…,512,1,2,4,…,512,1,2,4,…,512。

  这种配置其背后的直觉有两个。首先随着深度增加,扩大因子的指数增长可以使感受野呈指数级增大(Yu & Koltun, 2016)。例如每一组1,2,4,…,512这样的卷积模块都拥有1024大小的感受野, 可视为与1x1024卷积对等的更高效的(非线性)判别式卷积操作 。其次,将多组这样的卷积模块堆叠起来会进一步增大模型容量和感受野大小。

2.2 SOFTMAX DISTRIBUTIONS

   对单个音频样本的条件概率分布p(xt+1|x1,...,xt)进行建模的一个方法是使用混合模型,如混合密度网络(Bishop, 1994)或者条件高斯尺度混合模型(MCGSM) (Theis & Bethge, 2015)。然而,van den Oord et al. (2016a)指出softmax分布倾向于更有效,即便数据是隐含式的连续数据(图像的像素亮度或者音频采样值),该方法同样有效。原因之一是类别分布更灵活,并且由于对数据的形状没有假定前提,所以它更容易对任意分布进行建模。

  因为原始音频通常保存为16位整数序列(每个时间步骤一个值),对每个时间步骤的所有可能值,softmax层将需要输出65536个概率,为了更容易处理,我们先对数据实施一个µ律压扩变换(ITU-T, 1988),然后量化成256个可能值:

其中-1< xt<1, μ=255。与简单的线性量化相比,这个非线性量化处理可以对数据进行更好的重构。特别是对于语音数据,我们发现这样重构后的信号听起来非常接近原始信号。

2.3 GATED ACTIVATION UNITS

   我们使用与gated PixelCNN (van den Oord et al., 2016b)中相同的门控激活单元:

 其中 ∗∗代表卷积操作,⊙⊙代表点乘操作, σ(.)�(.)是sigmoid函数,k是层索引,f和g是各自的滤波器和门,W是可学习的卷积核。我们在最初的试验中观察到,对于音频信号建模,这个非线性操作显著优于ReLU激活函数(Nair & Hinton, 2010)。

2.4 RESIDUAL AND SKIP CONNECTIONS

 网络中使用了残差(He et al., 2015)和参数化跳步连接,以加速收敛并允许更深的模型训练。 在图4中我们展示了模型中的一个残差模块,网络中会将多个这样的模块堆叠在一起。

2.5 CONDITIONAL WAVENETS

给定一个额外输入h,WaveNets可以由这个给定输入,建模音频的条件分布p(x|h)。这时公式(1)就变成了:

 基于其他的输入变量进行条件建模,我们可以引导WaveNet产生要求特征的音频。例如,在多人对话场景中,通过把说话人身份作为额外的条件输入给模型,我们可以从模型中选择某个说话人进行音频输出。类似的,在TTS任务中,我们需要额外的关于文本的信息输入给模型。

  基于其他输入进行条件建模有两种方式:全局条件和局部条件。全局条件的特点是,通过单一的隐式表征h,在所有时间步骤上影响输出分布,例如TTS模型中的说话人嵌入。公式(2)的激活函数现在变成了:

其中, V∗,k∗,是可学习的线性映射,向量 VT∗,k,ℎ是在时间维度的广播。

  局部条件建模,我们有第二个时间序列htℎ,可能有比音频信号更低的采样频率,比如TTS模型中的语言学特征。我们首先用转置卷积网络(上采样)将其映射到一个新的时间序列y = f(h),使其具有与音频信号相同的分辨率,然后交由激活单元处理,如下:

 其中 Vf,k∗y,现在是一个1x1卷积。作为转置卷积网络的替代方法,也可以使用 Vf,k∗h��,�∗ℎ,然后沿时间重复这些值。但是在我们的实验中,这个方法的表现稍差一些。

2.6 CONTEXT STACKS

   我们提出了多种方法来增加WaveNet的感受野大小:增加扩大卷积模块数,模块内使用更多的扩大卷积层,更大的卷积核,更大的扩大因子,或者他们的组合。增加感受野的另外一个补充方法是,使用一个独立的更小的上下文堆栈来处理语音信号的长跨度信息,并局部调试一个更大的WaveNet只用来处理语音信号的更短的局部信息(在结尾处截断)。可以使用多个变长的具有不同数量隐藏单元的上下文堆栈,拥有越大感受野的堆栈其每层含有的隐藏单元越少。上下文堆栈还可以使用池化层来降低频率,这使得计算成本被控制在合理范围,也与用更长的跨度对时间相关性建模会使体量更小的直觉相吻合。

3 EXPERIMENTS

   为了测量WaveNet音频建模的性能,我们在三个不同的任务上对其进行评估:多说话人语音生成(没有基于文本训练),文本合成语音,音乐音频建模。我们在附随的网站上公布了实验中WaveNet生成的音频样本:WaveNet: A generative model for raw audio - Google DeepMind

3.1 MULTI-SPEAKER SPEECH GENERATION 

  

第一个实验进行自由格式的语音生成(没有基于文本进行调节训练)。我们使用VCTK(Yamagishi, 2012)数据集中的英文多人语料,并基于说话人进行了条件建模,通过将说话人ID以one hot 编码的形式输入进行条件建模。数据集总共包含109位不同说话人的44小时语音数据。

  由于模型没有基于文本进行建模,因此它会产生不存在的但是听起来很像人类语言的词语,而且很流畅,语调逼真。这与语言或图像的生成模型很相似,其生成的样本咋一看很逼真,细看就不自然了。生成的语音在长跨度上缺乏连贯性,部分是由于受模型感受野大小的限制(大概300毫秒),这意味着模型只能记住它产生的之前2-3个音素。

  单个WaveNet可以通过one-hot编码对任意一个说话人的语音进行建模。这确认了单个模型也能够从数据中捕获所有109人特征的足够强大的能力。我们观察到,与在单人数据集上训练相比,增加训练集的说话人数量可以在验证集上获得更好的性能。这提示我们,WaveNet的内部表征在多个说话人中是共享的。

  最后,我们观察到除了声音本身之外,该模型还提取了音频中的其他特征。例如,它还模仿了声学和录音质量,以及扬声器的呼吸和嘴巴动作。

3.2 TEXT-TO-SPEECH

  

第二个实验选择了TTS。我们使用Google北美英语和中文普通话TTS系统构建相同的单说话人语音数据集。北美英语数据集包含24.6小时语音数据,中文普通话数据集包含34.8小时,两个数据集都由专业女播音员录制。

  在TTS任务中,首先基于从输入文本获得的语言学特征进行局部调节训练WaveNet。另外还在语言学特征+对数基频(log F0)上调节训练了WaveNet。两种语言都训练了外部模型,用来从语言学特征预测对数基频和音长。WaveNet的感受野是240毫秒。还构建了HMM单元选择拼接(Gonzalvo et al., 2016)语音合成器作为基于例句的基线,以及LSTM-RNN统计参数(Zen et al., 2016)语音合成器作为基于模型的基线。由于使用相同的数据集和语言学特征来训练基线语音合成器和WaveNet模型,对结果的性能比较应该是公平的。

  为了评估TTS任务中WaveNet的性能,我们实施了主观配对比较测试和平均意见得分(MOS)测试。在主观配对比较测试中,听完每一对样本,评分者会选择他们更喜欢哪一个样本,如果没有倾向也可以选择中立。在MOS测试中,听完每一个合成结果,评分者会对语音的自然度进行5分制打分(1:很差,2:差,3:一样,4:好,5:很好),详细情况请参考附录B。

   图5展示了主观配对比较测试的部分结果(全部测试结果请看附录B)。从结果来看,WaveNet在两种语言上都优于基线的参数式和拼接式语音合成器。我们发现只用语言学特征调节训练的WaveNet,其合成的语音有很自然的断句,但有时候会弄错重音而使韵律不自然。这可能是由于F0轮廓的大跨度依赖造成的:WaveNet的感受野只有240毫秒,不能捕获这么大跨度的依赖。而同时用语言学特征和F0训练的WaveNet就没有这个问题:预测F0的外部模型以低频(200Hz)运行,所以它可以学到存在于F0轮廓中的大跨度

 表1展示了MOS测试结果。从表中可以看出WaveNet的自然度在5分制MOS评分中超过了4分,比基线系统高出一大截。它们是这些训练集和测试句子上目前MOS得分的最高纪录。合成语音与人类自然语音的MOS得分差距,在美式英语中从0.69下降到0.34(51%),中文普通话从0.42下降到0.13(69%)。

3.3 MUSIC

 第三组实验选择对两个音乐数据集建模:

  • MagnaTagATune数据集 (Law & Von Ahn, 2009),包含200小时音乐音频。每个片段29秒,片段都加注了标签(总共188种),包括流派,乐器,节拍,音量和情绪。
  • YouTube钢琴数据集,包含60小时从YouTube视频中获得的钢琴独奏音乐。由于限定于单一乐器,所以建模相对容易。

  尽管模型评估难以量化,但是可以通过倾听生成的样本进行主观评价。我们发现扩大感受野是获取悦耳音频的关键。即使把感受野增加到数秒长,模型也没能取得长时间的一致性,每秒的流派,乐器,音量和声音质量都有变化。然而,即使是非条件建模产生的音乐样本,听起来也很和谐,令人愉悦。

  一个特殊的兴趣是进行条件建模,使模型产生特定标签的音频,如不同流派或乐器的音乐。与条件语音生成模型类似,每个音乐片段都有关联的音乐标签,把这些标签用二进制向量表达,然后给模型插入一个依赖于这些二进制向量的偏置参数。这样通过给模型传入一个编码了想要属性的二进制向量,就使得在模型生成合成样本时可以控制输出的不同特性。我们在MagnaTagAtune数据集上训练模型,尽管数据标签有噪声和遗漏,经过清洗合并类似标签并移除相关音乐片段过少的标签,训练结果还是不错的。

3.4 SPEECH RECOGNITION

       尽管WaveNet被设计成生成模型,但是也可以直接修改来处理语音识别这样的判别任务。

  传统上,语音识别研究主要关注对数梅尔滤波器组能量谱,或者梅尔频率倒谱系数(MFCCs)的使用,但是近期的研究(Palaz et al., 2013; Tuske et al., 2014; Hoshen et al., 2015; Sainath et al., 2015)开始转向直接对原始语音数据进行建模。循环神经网络,如LSTM-RNNs(Hochreiter & Schmidhuber, 1997),在这些新的语音分类流水线中已经成为主要组件,因为它允许对大跨度上下文进行建模。使用WaveNet的扩大卷积,相比LSTM,可以用极低的成本增大感受野。

  最后一个实验,我们在TIMIT (Garofolo et al., 1993)数据集上用WaveNet进行语音识别。这个实验中我们在扩大卷积后面增加了一个平均池化层,它把激活输出聚合成10毫秒的帧(160×下采样)。池化层后接几个非因果卷积。损失函数包含两项,一项是下一个样本的预测损失,另一项是数据帧分类损失,两项损失比单项损失的泛化能力更好,在测试集上获得了18.8 PER,据我们所知,这是从TIMIT原始音频直接训练的模型中获得最佳分数。

4 CONCLUSION

    这篇论文提出了WaveNet,一个可直接在波形级别运行的音频数据的深度生成模型。WaveNet是自回归的,它结合了因果卷积和扩大卷积,让感受野随着模型深度增加而指数级增加。感受野的增加对建模音频信号的长时依赖非常重要。我们还展示了WaveNet如何基于其他输入进行全局(例如,说话人身份)和局部(例如,语言学特征)条件建模。应用到TTS中,WaveNet生成的语音样本在主观自然度上优于目前的最佳合成系统。最后,WaveNet在音乐建模和语音识别上也很有前景。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/309237.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

精华整理几十个Python数据科学、机器学习、深度学习、神经网络、人工智能方面的核心库以及详细使用实战案例,轻松几行代码训练自己的专有人工智能模型

精华整理几十个Python数据科学、机器学习、深度学习、神经网络、人工智能方面的核心库以及详细使用实战案例,轻松几行代码训练自己的专有人工智能模型。 机器学习 人工智能的核心,是使计算机具有智能的根本途径。机器学习专注于算法,允许机器学习而不需要编程,并在暴露于新…

【VTKExample::Visualization】第四期 BLOW

很高兴在雪易的CSDN遇见你 VTK技术爱好者 QQ:870202403 前言 本文分享Blow样例,用于挤出吹塑工艺的有限元分析,希望对各位小伙伴有所帮助! 感谢各位小伙伴的点赞+关注,小易会继续努力分享,一起进步! 你的点赞就是我的动力(^U^)ノ~YO 目录 前言 1. Blow样例

求幸存数之和 - 华为OD统一考试

OD统一考试&#xff08;C卷&#xff09; 分值&#xff1a; 100分 题解&#xff1a; Java / Python / C 题目描述 给一个正整数列nums&#xff0c;一个跳数jump&#xff0c;及幸存数量left。运算过程为:从索引为0的位置开始向后跳&#xff0c;中间跳过 J 个数字&#xff0c;命中…

netdisk-fast-download强大的网盘直链解析工具源码

源码介绍 开源的网盘直链解析工具 netdisk-fast-download&#xff0c;这款强大的工具能够解析各类网盘直链&#xff0c;实现文件的快速上传与下载。目前已完美支持蓝奏云、奶牛快传、移动云空间、UC网盘、夸克网盘、小飞机盘、亿方云以及123云盘等众多知名网盘平台。 直链&am…

Spark---行动算子RDD

文章目录 1.行动算子1.1 reduce1.2 collect1.3 first1.4 count1.5 take1.6 takeOrdered1.7 aggregate1.8 fold1.9 countByKey1.10 countByValue1.11 save 相关算子1.12 foreach 1.行动算子 Spark的行动算子是触发作业执行的方法&#xff0c;它们会直接触发计算并返回结果。 行…

【集合大练习】---------------简易学生管理系统

目标&#xff1a; 实现学生对象新增&#xff0c;删除&#xff0c;查看&#xff0c;对象信息修改 整体实现思路&#xff1a; 1.定义学生类-------------创建学生对象 2.管理界面代码编写-------------命令提示面板 3.添加学生的代码编写---------add功能实现 4.查看学生信…

PPT插件-大珩助手-清除同类

清除同类-颜色 对于选定的形状&#xff0c;删除相同颜色 清除同类-文本 删除当前幻灯片中的文本对象 清除同类-非文本 删除当前幻灯片中的非文本对象 清空当页 删除当前幻灯片中的所有对象 选中的形状动画 删除选中的对象上的形状动画 当前页形状动画 对于当前页中的…

HDFS相关API操作

文章目录 API文档环境配置API操作准备工作创建文件夹文件上传文件下载文件删除文件的更名和移动获取文件详细信息 API文档 HDFS API官方文档&#xff1a;https://hadoop.apache.org/docs/r3.3.1/api/index.html 环境配置 将Hadoop的Jar包解压到非中文路径&#xff08;例如D:…

移动通信原理与关键技术学习之信道编解码(5)

先回顾调制的过程&#xff1a;调制就是对信号源的信息进行处理加到载波上&#xff0c;使其变为适合于信道传输的形式的过程&#xff0c;就是使载波随信号而改变的技术。 1.什么是IQ调制&#xff1f; 答&#xff1a;将数据分为两路&#xff0c;分别进行载波调制&#xff0c;两…

多维时序 | Matlab实现RIME-HKELM霜冰算法优化混合核极限学习机多变量时间序列预测

多维时序 | Matlab实现RIME-HKELM霜冰算法优化混合核极限学习机多变量时间序列预测 目录 多维时序 | Matlab实现RIME-HKELM霜冰算法优化混合核极限学习机多变量时间序列预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab实现RIME-HKELM霜冰算法优化混合核极限学…

2024年中国杭州|网络安全技能大赛(CTF)正式开启竞赛报名

前言 一、CTF简介 CTF&#xff08;Capture The Flag&#xff09;中文一般译作夺旗赛&#xff0c;在网络安全领域中指的是网络安全技术人员之间进行技术竞技的一种比赛形式。CTF起源于1996年DEFCON全球黑客大会&#xff0c;以代替之前黑客们通过互相发起真实攻击进行技术比拼的…

【开源】基于JAVA+Vue+SpringBoot的厦门旅游电子商务预订系统

目录 一、摘要1.1 项目介绍1.2 项目录屏 二、功能模块2.1 景点类型模块2.2 景点档案模块2.3 酒店管理模块2.4 美食管理模块 三、系统设计3.1 用例设计3.2 数据库设计3.2.1 学生表3.2.2 学生表3.2.3 学生表3.2.4 学生表 四、系统展示五、核心代码5.1 新增景点类型5.2 查询推荐的…

redis复习笔记04(小滴课堂)

新版SpringBoot2.X项目创建 在线创建springboot项目选择web和redis依赖就行。 SpringBoot2.x整合Redis客户端单元测试 SpringDataRedis配置RedisTemplate介绍 1.编写配置文件 2.单元测试进行测试&#xff1a; 可以看到我们设置进的值&#xff0c;乱码后面会解决。 获取不到设…

网络正常运行时间监控工具

正常运行时间是衡量系统可靠性的指标&#xff0c;表示为机器工作和可用时间的百分比。当提到 IT 网络时&#xff0c;正常运行时间是衡量网络设备、网站和其他服务的可用性的指标。网络正常运行时间通常以百分位数来衡量&#xff0c;例如“五个 9”&#xff0c;这意味着系统在 9…

RPA财务机器人在厦门市海沧医院财务管理流程优化汇总的应用RPA全球生态 2024-01-05 17:27 发表于河北

目前国内外研究人员对于RPA机器人在财务管理流程优化领域中的应用研究层出不穷&#xff0c;但现有研究成果主要集中在财务业务单一领域&#xff0c;缺乏财务管理整体流程一体化管控的研究。RPA机器人的功能绝非单一的财务业务处理&#xff0c;无论从自身技术发展&#xff0c;或…

如何使用vite框架封装一个js库,并发布npm包

前言介绍 最近&#xff0c;公司项目上需要把很多公用函数封装起来&#xff0c;作为一个公共的库使用。以前的做法是使用webpack或者Rollup。Rollup和Webpack都是常用的JavaScript模块打包工具&#xff0c;用于构建现代化的Web应用程序。但是&#xff0c;不管是webpack或者Roll…

Hive基础题-1

别看我&#xff0c;不看答案我也不会写 正因为不会写&#xff0c;所以才要每天一练 本地hive练习题 SET hive.exec.mode.local.autotrue; -- 默认 false SET hive.exec.mode.local.auto.inputbytes.max50000000; SET hive.exec.mode.local.auto.input.files.max5; -- 默认 4# …

docker 容器添加指定网络地址

docker 容器添加指定网络地址 在搭建halo博客时&#xff0c;准备让 halo、mysql8.1、nginx 三个容器在同一个网段中&#xff0c;并指定IP。 实现docker内部容器之间网络互通。 查看容器网络信息命令 docker inspect 容器名各容器部署成功后网络效果如下&#xff1a; nginx …

HCIP实验1

华子目录 实验拓扑实验要求实验步骤合理的划分网段配置IP地址RIP宣告路由全网可达&#xff08;V1与V2需相互兼容&#xff09;R2访问R7走R5访问R1为运营商&#xff0c;r1远程登录r2实际登录r7测试 实验拓扑 实验要求 实验步骤 合理的划分网段 配置IP地址 R1 R2 R3 R4 R5 …

国产化嵌入式AI芯片

中国在嵌入式AI芯片领域已经取得了显著进展&#xff0c;产生了许多有竞争力的品牌和产品。 以下是一些知名的中国嵌入式AI芯片品牌及其产品系列和特点&#xff1a; 华为海思&#xff08;HiSilicon&#xff09; 芯片系列&#xff1a;麒麟系列产品特点&#xff1a;麒麟系列在智能…