语音识别:基于HMM

HMM语音识别的解码过程

从麦克风采集的输入音频波形被转换为固定尺寸的一组声学向量:

\mathbf{Y}_{1:T} = \mathbf{y}_{1}, \mathbf{y}_{2}, ..., \mathbf{y}_{T}

其中\mathbf{y}_{t}, t=1,2, ...,TD维的语音特征向量(例如MFCC)。

解码器尝试去找到上述特征向量序列对应的单词(word)的序列:

\mathbf{w}_{1:L} = w_{1}, w_{2},...,w_{L}

单词序列的长度是L

也即是解码器尝试寻找模型产生\mathbf{Y}的那个最有可能的单词序列\mathbf{w}

\widehat{\mathbf{w}} = \underset{\mathbf{w}}{arg max}{P(\mathbf{w} | \mathbf{Y})}

经过贝叶斯公式:

\widehat{\mathbf{w}} = \underset{\mathbf{w}}{arg max}\left \{ P(\mathbf{Y} | \mathbf{w}) P(\mathbf{w}) \right \}

似然概率P(\mathbf{Y} | \mathbf{w})是语音识别的声学模型,先验概率P(\mathbf{w})是语音模型。

P(\mathbf{Y}|\mathbf{w}) = \underset{\mathbf{Q}}{\sum_{}}P(\mathbf{Y|Q})P(\mathbf{Q}|\mathbf{w}))

\mathbf{Q} = \mathbf{q}^{(w_{1})}, \mathbf{q}^{(w_{2})}, ..., \mathbf{q}^{(w_{L})}

\mathbf{q}^{(w_{l})} = q_{1}, q_{2}, ...,q_{K_{w_{l}}}是一个单词由基本音素组成的发音序列(也就是单词的音标),

\mathbf{Q}是该句子的一个可能发音序列,由该句子的每个单词的基本音素拼接而成。

这里的求和是使用了全概率公式,因为一个单词可能由多个发音,所以句子的发音序列也是多个。

对于该句子的一个可能发音序列\mathbf{Q},可得

P(\mathbf{Q}|\mathbf{w}) = \prod_{l=1}^{L}P(\mathbf{q}^{(w_{l})}|w_{l})

剩下就是计算P(\mathbf{Y|Q})了。

P(\mathbf{Y|Q}) = \underset{\mathbf{S} }{\sum}P(\mathbf{S}, \mathbf{Y} | \mathbf{Q})

给定发音序列,对每一个可能的状态序列\mathbf{S}求句子HMM的概率。

\mathbf{S} = S_0, S_1, ... , S_{T+1}是特征序列对应的一个候选的状态序列。

P(\mathbf{S}, \mathbf{Y} | \mathbf{Q}) = a_{S_{0}S_{1}}\prod_{t=1}^{T}b_{S_{t}}(\mathbf{y}_t)a_{S_{t}S_{t+1}}

解码过程不需要计算所有可能状态序列的似然概率,我们只需要使用维特比(Viterbi)算法获取概率最大的那个状态序列路径。

P^{*}(\mathbf{Y}|\mathbf{Q}, \lambda ) = \underset{\mathbf{S}}{max}P(\mathbf{S}, \mathbf{Y}|\mathbf{Q}, \lambda )

模型参数:

HMM语音识别声学模型的训练过程(单音素)

R个语料片段,每个语料片段对应的特征向量序列为\mathbf{Y}^{(r)},r = 1, 2, ..., R\mathbf{Y}^{(r)}序列的长度为T^{(r)}

HMM的训练(选择正确的参数)意味着:找到模型的参数(如转移概率和发射概率),使得给定的所有输入语料\mathbf{Y}^{(r)},r = 1, 2, ..., R的概率最大:

关于\lambda

Maximize \sum_{r=0}^{R}\underset{\mathbf{S}}{\sum }p(\mathbf{Y}^{(r)}, \mathbf{S}|\lambda )

E-step

前向概率:

\alpha _{t}^{(rj)} = P(\mathbf{Y}_{1:t}^{(r)}, S_{t} = j;\lambda )

即对\mathbf{Y}^{(r)}的前t个特征向量与t时刻的状态为j的联合概率;

后向概率:

\beta _{t}^{(rj)} = P(\mathbf{Y}_{t+1:T^{(r)}}^{(r)},|S_{t} = i;\lambda )

给定t时刻的状态为i,模型生成t+1到T^{(r)}之间的特征向量序列的条件概率。

给定前向和向后的概率,对于任何给定的语料r,模型在时间t时占据状态j的概率是

其中,P^{r} = p(Y^{(r)};\lambda )可通过前向概率或者后向概率的递推公式获得,等于t = T^{(r)}+1时刻的前向概率,也等于t = 0时刻的后向概率。

M-step

对于所有的语料,给定初始的模型参数\lambda _{0}(均值,方差,转移概率),可通过如下的公式迭代参数

注意,这里使用的是单个高斯分布建模观察概率b_{j}(\mathbf{y}_{t}^{(r)}) = N(\mathbf{y}_{t}^{(r)}, \mu _{j}, \Sigma _{j})而不是GMM。

Kaldi中使用的HMM声学模型训练方法

因为转移概率对识别结果的影响很小,甚至有时候可以忽略。Kaldi中一般是将转移概率固定不变,不在训练中更新转移概率。声学模型包含的信息主要是状态定义和各个状态的观察概率(发射概率)分布。

使用从左到右的线性HMM模型结构(只有向右跳转和自跳转),训练过程中只更新每个状态的高斯混合模型(GMM)参数。

上面介绍的HMM训练方法是经典的训练HMM的方法(baum welch算法),该算法就是在给定一个初始的模型参数,通过不断的E-step,M-step迭代模型的参数。一种更加实际的方法是使用Viterbi训练方法:

1、给定初始的参数\lambda^{0}

2、使用维特比算法和当前的参数\lambda ^{k}找到能够解释\mathbf{Y}^{(r)}, r = 1, 2,..., R的最可能的状态序列\mathbf{Z}^{*},这样就得到了每一帧\mathbf{y}^{(r)}_{t}对应的状态。这个过程也叫做对齐(Align)或者强制对齐(Forced alignment),目的是获取每一帧对应的状态。

3、使用统计公式更新模型的参数\lambda ^{k+1}。因为此时已经有大量已知隐藏状态和特征(观察值)的帧,所以可以更新每个状态对应的发射概率分布(GMM)的均值和协方差以及权重等参数(可能会用到GMM的EM算法估计GMM的参数)

4、重复步骤2、3,直到状态序列不再更新(收敛)。

参考:

[1] Gales and Young (2007). “The Application of Hidden Markov Models in Speech Recognition”, Foundations and Trends in Signal Processing , 1 (3), 195–304: section 2.2.\
[2]《Kaldi语音识别实战》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/503504.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

HAProxy + Vitess负载均衡

一、环境搭建 Vitess环境搭建: 具体vitess安装不再赘述,主要是需要启动3个vtgate(官方推荐vtgate和vtablet数量一致) 操作: 在vitess/examples/common/scripts目录中,修改vtgate-up.sh文件,…

计算机网络——32差错检测和纠正

差错检测和纠正 错误检测 EDC 差错检测和纠错位(冗余位) D 数据由差错检测保护,可以包含头部字段 错误检测不是100%可靠的 协议会泄露一些错误,但是很少更长的EDC字段可以得到更好的检测和纠正效果 奇偶校验 单bit奇偶校验 …

opejdk11 java 启动流程 java main方法怎么被jvm执行

java启动过程 java main方法怎么被jvm执行 java main方法是怎么被jvm调用的 1、jvm main入口 2、执行JLI_Launch方法 3、执行JVMInit方法 4、执行ContinueInNewThread方法 5、执行CallJavaMainInNewThread方法 6、创建线程执行ThreadJavaMain方法 7、执行ThreadJavaMain方法…

YOLOv9改进策略 :主干优化 | ConvNeXtV2:适应自监督学习,让 CNN “再一次强大”?

💡💡💡本文改进内容:完全卷积掩码自编码器框架 ConvNeXt V2,它显著提高了纯convnet在各种识别基准上的性能,包括ImageNet分类,COCO目标检测和ADE20k分割。还提供了各种尺寸的预训练ConvNeXt v2模型,从而在ImageNet上具有76.7%精度的3.7M Atto model和88.9%精度的650…

CrossOver软件2024免费 最新版本详细介绍 CrossOver软件好用吗 Mac电脑玩Windows游戏

CrossOver是一款由CodeWeavers公司开发的软件,它可以在Mac和Linux等操作系统上运行Windows软件,而无需在计算机上安装Windows操作系统。这款软件的核心技术是Wine,它是一种在Linux和macOS等操作系统上运行Windows应用程序的开源软件。 Cross…

本地虚拟机服务器修改站点根目录并使用域名访问的简单示例

说明:本文提及效果是使用vmware虚拟机,镜像文件是Rocky8.6 一、配置文件路径 1. /etc/httpd/conf/httpd.conf #主配置文件 2. /etc/httpd/conf.d/*.conf #调用配置文件 调用配置文件的使用: vim /etc/httpd/conf.d/webpage.conf 因为在主配…

【STM32 HAL库SPI/QSPI协议学习,基于外部Flash读取。】

1、SPI协议 简介 SPI 协议是由摩托罗拉公司提出的通讯协议 (Serial Peripheral Interface),即串行外围设备接口,是 一种高速全双工的通信总线。它被广泛地使用在 ADC、LCD 等设备与 MCU 间,要求通讯速率 较高的场合。 SPI 物理层 SPI 通讯…

【讲解下Docker in Docker的原理与实践】

🌈个人主页:程序员不想敲代码啊🌈 🏆CSDN优质创作者,CSDN实力新星,CSDN博客专家🏆 👍点赞⭐评论⭐收藏 🤝希望本文对您有所裨益,如有不足之处,欢迎在评论区提…

elementUI this.$msgbox msgBox自定义 样式自定义 富文本

看这个效果是不是很炫?突出重点提示内容,对于用户交互相当的棒! 下来说说具体实现: let self = this const h = self.$createElement; this.$msgbox({title: null,message: h("p", {style: "margin-top:10px"}, [h("i", {class: "el-i…

Linux——将云服务器作为跳板机,frp实现内网穿透

文章目录 操作步骤1. 准备工作:2. 配置frp服务器端:3. 配置frp客户端:4. 启动frp客户端:5. 测试连接:6. 安全注意事项: 云服务器性能分析阿里云具体操作步骤1. 购买:2. 登录:3. 首次…

Redis 慢日志

Redis慢日志 1.Redis 慢查询日志概述 客户端从发送命令到获取返回结果经过了以下几个步骤: 客户端发送命令该命令进入 Redis 队列排队等待执行Redis 开始执行命令 - Redis 命令执行完成命令执行结果返回给客户端 Redis 慢查询日志统计的时间,只包含第…

Docker 哲学 - compose.yaml 指令

compose.yaml 的 image commond working_dir 和 dockerfile的 from cmd workdir 区别在哪里 。为什么 dockerfile制定过了。compose还要再写一个。是处于个性化还是 有不同的意义 如果 dockerfile 的 from 是 node:16 ,compose.yaml 的 images 是 node:18 那么 直接…

杰发科技——Jlink插件使用

0. 简介 杰发自带的烧录工具是ATCLink,基于DapLink适配。个人不太喜欢ATCLink,推荐使用Jlink,毕竟自己买,不用问原厂要,而且带Jlink,至少5Mhz以上。 V9烧录器使用7.50以下版本驱动。 V11烧录器可以使用7…

生信数据分析——GO+KEGG富集分析

生信数据分析——GOKEGG富集分析 目录 生信数据分析——GOKEGG富集分析1. 富集分析基础知识2. GO富集分析(Rstudio)3. KEGG富集分析(Rstudio) 1. 富集分析基础知识 1.1 为什么要做功能富集分析? 转录组学数据得到的基…

Java中将字符串的指定部分赋值给另一个字符串

正如标题所示,不说废话,直接上代码: public class test{public static void main(String[] args) {String str1 "我真的会谢谢你";/*原则是左闭右开,左边是起始下标,右边是终止下标字符串的下标是从0开始*…

【微服务】软件架构的演变之路

目录 单体式架构的时代单体式架构(Monolithic)优点缺点适用场景单体式架构面临诸多问题1.宽带提速,网民增多2.Web2.0时代的特点问题描述优化方向 集群优点缺点适用场景搭建集群后面临诸多问题用户请求问题用户的登录信息数据查询 改进后的架构 垂直架构优点缺点 分布…

python opencv之提取轮廓并拟合圆

图片存储地址为:C:\Users\Pictures\test.png,该图像图片背景是黑色的,目标区域是亮的,目标区域是两段圆弧和两段曲线构成的封闭区域,其中两段圆弧属于同一个圆,但在目标区域的相对位置,也就是不…

SSTI模板注入(jinja2)

前面学习了SSTI中的smarty类型,今天学习了Jinja2,两种类型都是flask框架的,但是在注入的语法上还是有不同 SSTI:服务器端模板注入,也属于一种注入类型。与sql注入类似,也是通过凭借进行命令的执行&#xff…

硬件RAID横评(上)

正文共:3857字 50图,预估阅读时间:12 分钟 之前误打误撞测试了软件RAID(Windows下软RAID测试),发现性能基本上是线性的,而据说硬件RAID性能比这个高的很。那本文将就硬件RAID展开测试&#xff0…

Flutter 开发学习笔记(2):第一个简单的Flutter项目(下)

文章目录 前言官方Flutter案例侧边栏添加代码初始化展示效果 子组件私有数据空间导航栏转为有状态WidgetsetState手动转换页面实现效果 响应式动态切换宽度添加收藏夹,跨Widget传数据实现效果 完整代码后续进阶效果总结 前言 接着继续上一章的内容 官方Flutter案例…