语音识别概述

语音识别概述

一.什么是语音?

语音是语言的声学表现形式,是人类自然的交流工具。

在这里插入图片描述
图片来源:https://www.shenlanxueyuan.com/course/381


二.语音识别的定义

语音识别(Automatic Speech Recognition, ASR 或 Speech to Text, STT)是将语音转换为文本的任务。其主要目标是解决机器“听清”问题,处理声学和(部分)语言上的混淆,确保每个人的语音都能被正确识别为文本。

1.主要解决的问题:
  1. 将语音转换成文本。
  2. 解决机器“听清”问题。
  3. 处理声学和部分语言上的混淆。
  4. 确保不同人的语音都能被正确识别。
2.不解决的问题:
  1. 说话人识别。
  2. 副语言信息的分析与识别(如发音、质量、韵律、情感)。
  3. 语言理解。
3.评估标准:
  1. Accuracy(准确率):

    • 音素错误率(Phone Error Rate, PER)
    • 词错误率(Word Error Rate, WER)
    • 字错误率(Character Error Rate, CER)
    • 句错误率(Sentence Error Rate, SER)
  2. Efficiency(效率):

    • 实时率(Real-time Factor, RTF)
4.错误率计算实例:
Ref:  THE CAT IN       THE        HAT
Hyp:      CAT IS   ON  THE  GREEN HAT
       DEL     SUB  INS       INS

在这个例子中:

  • 第一行为正确的抄本(Ref)。
  • 第二行为识别结果(Hyp)。
  • 错误类型:第一列为删除错误(DEL),第三列为替换错误(SUB),第四列和第六列为插入错误(INS)。

错误率计算公式:Error rate=100×(1S+1D+2I)/5=80

计算过程中关注三种错误:插入错误、替换错误和删除错误。实际计算时,错误率有可能超过100%。

5.语音识别系统分类:
  1. 说话人:特定人、非特定人
  2. 语种:单一语种、多语种
  3. 词汇量:大词汇量、中词汇量、小词汇量
  4. 设备:云端、端侧
  5. 距离:近距离、远距离

三.语音识别的重要性

语音识别(ASR,Automatic Speech Recognition)是一项极具挑战性的技术,被誉为“镶嵌在人工智能皇冠上的明珠”。它在现代技术和应用中占有重要地位,主要体现在以下几个方面:

1. 快速、便捷、无接触的优点
  • 快速:语音输入的速度通常比键盘输入更快,使信息传递更加高效。
  • 便捷:用户只需说话,无需学习复杂的输入方法,使用门槛低。
  • 无接触(Hands-Free):特别适用于开车、做家务等需要双手操作的场景,提升了用户的便利性和安全性。
2. 音频内容分析与理解的基础
  • 文字转写:语音识别是将音频内容转化为文本的第一步,这一过程是进一步分析与理解音频内容的基础。
  • 文本分析:转写后的文本可以进行情感分析、主题识别等处理。
  • 数据存档:转写文本便于存储和检索,提升了数据的可用性。
3. AIoT和智能服务的入口
  • AIoT(人工智能物联网):语音识别是AIoT设备的主要交互方式,用户可以通过语音控制智能家居、可穿戴设备等。

    • 智能家居:语音助手控制灯光、温度、家电等。
    • 可穿戴设备:语音识别用于健康监测、运动记录等。
  • 智能服务:语音识别在智能客服、自动翻译等领域有广泛应用。

    • 智能客服:自动应答用户问题,提高客服效率。
    • 自动翻译:实时翻译语音内容,打破语言障碍。
4. 满足自然人机交互和内容理解与生成的需求
  • 自然人机交互:语音识别使人机交互更加自然,用户可以通过语音指令与设备进行交流,提升用户体验。

    • 虚拟助手:如Siri、Alexa、Google Assistant等通过语音识别实现自然对话。
    • 导航系统:通过语音输入目的地,提高驾驶安全性。
  • 内容理解与生成:语音识别技术与自然语言处理(NLP)结合,实现内容的理解与生成。

    • 语音搜索:用户通过语音进行信息搜索,快速获取答案。
    • 语音生成:将文本转化为自然语音,实现双向交流。
5. 技术与应用的广泛性
  • 医疗领域:医生通过语音输入病历,提高工作效率,减少误诊。
  • 教育领域:语音识别用于语言学习、课堂记录等,提高学习效果。
  • 安防领域:通过语音识别进行身份验证和监控,提高安全性。

四.语音交互

在这里插入图片描述
图片来源:http://techchannel.att.com/play-video.cfm/2011/8/10/AT&T-Archives-The-Speech-Chain


五.语音生成

语音生成(Speech Production)是指通过大脑指挥神经系统发出肌肉命令,进而控制发音器官运动,最终产生声音的过程。

1.语音生成过程
  • 大脑指挥:大脑发出神经信号,控制肌肉运动。

  • 神经肌肉命令:神经系统将命令传递到发音器官。

  • 发音器官运动:发音器官(如声带、口腔、鼻腔等)根据神经信号进行运动,产生声音。

2.发音的基本原理
  • 声门运动:声门的快速打开与关闭产生不同的声音。
  • 基本频率:声门震动的快慢决定声音的基本频率。
  • 口腔、鼻腔、舌头的位置及嘴型:这些因素共同决定声音的内容。
  • 肺部空气压力:肺部压缩空气的力量决定音量。
2.声音类型
  • 浊音(Voiced Sounds):由声带震动引起,波形具有明显的周期性,人们可以感受到稳定的高音。

  • 清音(Unvoiced Sounds):声带不震动,波形类似白噪声,人们无法感受到稳定的高音。

3.语音单元
  1. 音素(Phonemes):

    • 音素是语言中语音的最小单元,分为辅音(consonants)和元音(vowels)。
    • 音素的数量因语言而异。
    • 同位异音(Allophone):音素的声学实现受到上下文影响,一个音素可能有不同的实现。
  2. 词素(Morpheme):语言中最小的具有语义的结构单元。

  3. 音节(Syllable):

    • 由元音和辅音结合构成。
    • 音节头(声母):元音之前的辅音。
    • 韵母:音节头后的元音及随后的辅音。
      • 音节核:韵母中的元音。
      • 音节尾:随后的辅音。
    • 在中文中,一个汉字的读音为一个带调音节(如普通话约1300多个带调音节,去掉声调后约400个基础音节)。
4.声学特征
  1. 共振峰(Formants):

    • 在声音的频谱中,能量相对集中的区域。
    • 共振峰决定音质,反映声道的物理特征,不同元音会产生不同种类的共振。
  2. 协同发音(Coarticulation):

    • 发音过程中,每个音素会受到前后音素的影响。
    • 协同发音使得音素的声学实现与上下文强相关,因此语音识别中常建立上下文相关模型。
5.音素抄本

音素抄本(Phonetic Transcription)是一段语音对应的音素列表,可以带或不带边界。音素抄本提供时间信息,可以通过人工标注或自动对齐获得。它在语音识别的声学建模中非常重要。


六.语音感知

语音感知(Speech Perception)是指人耳将外界声音信号传递到大脑,并由大脑进行处理和理解的过程。该过程包括外耳、中耳和内耳的协同工作,以及声音的物理特性与人耳听觉特性之间的关系。

1.人耳结构
  1. 外耳

    • 功能:声源定位,对声音进行放大。
    • 组成:耳廓和外耳道。
  2. 中耳

    • 功能:进行声阻抗变换,放大声压,保护内耳。
    • 组成:鼓膜和听小骨(锤骨、砧骨、镫骨)。
  3. 内耳

    • 功能:将声压刺激转化为神经冲动,发送到大脑。
    • 组成:耳蜗和听神经。
2.物理特性与听觉特性

语音感知涉及声音的物理量和感知量之间的关系。下表总结了这些关系:

物理量 (Physical Quantity)感知量 (Perceptual Quantity)
声强 (Intensity)响度 (Loudness)
基频 (Fundamental Frequency)音高或音调 (Pitch)
频谱形状 (Spectral Shape)音色或音品 (Timbre)
起始/结束时间 (Onset/offset time)时间感知 (Timing)
双耳听觉的相位差 (Phase difference in binaural hearing)定位 (Location)
3.声音三要素
  1. 响度(Loudness):

    • 响度是人主观感受到的声音强度,与声音的频率成分有关。
    • 闻阈:人耳刚好能听见的最小响度。
    • 痛阈:声音使人耳感到疼痛时的响度。

在这里插入图片描述

图片来源:https://www.shenlanxueyuan.com/course/381

  1. 音高或音调(Pitch):

    • 音调是人耳对声音频率的感知,是非线性的,近似对数函数。

    • 音调和频率的近似关系:𝑇𝑚𝑒𝑙=2595log10⁡(1+𝑓7000)。

      𝑓为物理频率,𝑇𝑚𝑒𝑙为音调,单位是美(Mel)

  2. 音色或音品(Timbre):

    • 音色由声音波形的谐波频谱和包络决定。
    • 基音:声音波形的基频产生的最清楚的音。
    • 泛音:各次谐波的微小震动产生的音。
    • 纯音:单一频率的音。
    • 复音:具有谐波的音。
    • 不同声源的音色特征由声音波形各次谐波的比例和随时间的衰减大小决定。
4.掩蔽效应

掩蔽效应(Masking)是指一个较强声音掩蔽附近较弱声音,使其不易被察觉的现象。分为两种情况:

  • 同时掩蔽(Simultaneous Masking):一个强纯音会掩蔽其附近频率同时发生的弱纯音。

  • 异时掩蔽(Temporal Masking):在时间上相邻的声音之间的掩蔽现象。

掩蔽阈值是时间、频率和声压级的函数。


七.语音识别的挑战性

语音识别(Automatic Speech Recognition, ASR)是一个非常具有挑战性的任务,其在众多方面表现出强大的可变性。以下是影响语音识别性能的主要因素及其可变性:

1.主要影响因素及其可变性
因素可变性描述
规模词表大小、复杂度/困惑度、书面化或口语化
说话人是否特定说话人、适应特定说话人的特性
声学环境噪声、干扰人声、信道条件(麦克风、传输空间、空间声学)
讲话风格连续或孤立词、有计划或即兴对话、大声或轻声细语
口音/方言是否能识别各种口音
语种中文、英文、超过5000种语言、语言混杂
信道特性不同麦克风、不同采样率、传输编码等
环境影响距离衰减、噪声、混响、干扰人声
2.语音识别中的变异性
  • 说话人之间的变异性:不同说话人的口音、语速、发音方式、语调等各不相同。适应多种说话人的特性是语音识别的一个重要挑战。

  • 说话人之内的变异性:同一个人在不同时间、不同情绪状态、不同健康状态下,语音特性也会有所不同。不同讲话方式(如大声、轻声、低语)对语音识别系统的要求也各不相同。

  • 信道变异性:不同麦克风的性能、采样率和传输编码会影响语音信号的质量。在不同传输条件下,信号可能会受到干扰或衰减。

  • 环境变异性:环境噪声、回声、混响以及干扰人声等都会影响语音信号的清晰度。距离衰减效应,尤其在远讲场景下,语音信号会显著衰减。

3.特殊场景挑战

CHiME-5场景: 多说话人完全自由对话。现实生活中的家居声学场景。远讲情况下的语音识别。说话人移动及语音交叠。


八.语音识别的发展历史

1.早期阶段(1950-1960年代)

在语音识别研究的初期,研究人员主要集中于提出一些基础的方法和引入关键的思想与概念。由于受限于方法、计算能力和数据量,这一阶段的研究主要针对小词表的语音识别,且缺乏大规模测试。主要特点包括:

  • 初步探索:提出个别方法和概念。
  • 小词表研究:主要集中在小范围词汇的语音识别。
  • 技术限制:计算能力和数据量的限制使得研究进展缓慢。
2.现代语音识别的诞生(1970-1980年代)

这个阶段标志着语音识别从基础研究进入了统计学习时代,几乎忽略了语音学和语言学的专家知识,转而使用数据驱动的方法。关键技术和方法在此期间得以发展,包括:

  • 统计学习方法:将语音识别视为统计学习任务。
  • 关键技术:引入了EM算法、N-gram等。
  • 中大词表尝试:开始尝试中大词表的语音识别系统。
3.平稳发展期(1990-2000年代)

在这一阶段,GMM-HMM(高斯混合模型-隐马尔科夫模型)框架成为主导,语音识别系统得以进一步发展。主要进展包括:

  • GMM-HMM框架:成为语音识别的主流框架。
  • 上下文相关建模:声学建模开始考虑基于上下文相关的模型。
  • n-gram语言模型:使用大量文本统计概率关系。
  • 数据和任务复杂度增加:数据量和任务复杂度逐步增加。
  • 判别式学习:引入区分性训练技术推动进步。

尽管技术不断进步,但语音识别的准确率在这一时期鲜有显著提升。

3.深度学习时代(2006年至今)

2006年是语音识别历史上的一个重要转折点,标志着深度学习技术的引入和广泛应用。在此之后,语音识别的准确率显著提升,主要特点包括:

  • 深度神经网络(DNNs):深度学习模型的应用大幅提升了语音识别的性能。
  • 大规模数据和计算能力:利用更大的数据集和更强的计算能力进行训练。
  • 持续改进:技术不断进步,推动语音识别系统向更高的准确率和更广泛的应用场景发展。

九.现代语音识别框架

现代语音识别框架主要分为两类:统计模型和端到端系统。

1.统计模型

统计模型的核心思想是通过计算最有可能的单词序列来进行语音识别。假设有一个声学特征向量(观测向量)的序列 X,表示一个单词序列 W,那么最有可能的单词序列可以通过以下公式计算得出:
W ^ = arg ⁡ max ⁡ W P ( W ∣ X ) \hat{W} = \arg\max_W P(W|X) W^=argWmaxP(WX)
应用贝叶斯定理,这一公式可以进一步推导为:
P ( W ∣ X ) = p ( X ∣ W ) P ( W ) p ( X ) ∝ p ( X ∣ W ) P ( W ) P(W|X) = \frac{p(X|W)P(W)}{p(X)} \propto p(X|W)P(W) P(WX)=p(X)p(XW)P(W)p(XW)P(W)
其中:

  • p(X∣W) 是 声学模型,用于计算给定单词序列 W 下的声学特征向量 X的概率。
  • P(W) 是 语言模型,用于计算单词序列 W的先验概率。

通过组合声学模型和语言模型,统计模型可以通过给定的声学特征向量 X获取最有可能的词序列。

现代的统计模型通常使用三大组件:

  • 声学模型:用于计算声学特征向量的概率分布。

  • 语言模型:用于计算单词序列的先验概率。

  • 发音词典:提供单词与其发音之间的映射。
    在这里插入图片描述

    图片来源:https://www.shenlanxueyuan.com/course/381

2.端到端系统

端到端系统使用一个神经网络直接将输入的声学特征向量 X映射为词序列。这种方法简化了传统统计模型的复杂架构,避免了多个组件的独立优化和组合,具有以下特点:

  • 直接映射:通过神经网络直接将声学特征向量转换为单词序列。
  • 简化架构:省去声学模型、语言模型和发音词典的独立建模和组合。
  • 统一训练:在一个训练过程中同时优化声学和语言模型的参数。

在这里插入图片描述
图片来源:https://www.shenlanxueyuan.com/course/381


十.语料库与工具包

1.英文数据
  1. TIMIT:用于音素识别,由 LDC 管理版权。
  2. WSJ:新闻播报语料库,由 LDC 管理版权。
  3. Switchboard:电话对话语料库,由 LDC 管理版权。
  4. Librispeech:有声读物语料库,包含 1000 小时的开源数据。 Librispeech
  5. AMI:会议语料库,开源数据。 AMI
  6. TED-LIUM:TED 演讲语料库,开源数据。 TED-LIUM
  7. CHiME-4:平板远讲语料库,需要申请。
  8. CHiME-5/6:聚会聊天语料库,需要申请。
2.中文数据
  1. THCHS-30:30 小时的开源语料库。 THCHS-30
  2. HKUST:150 小时的电话对话语料库,由 LDC 管理版权。
  3. AIShell-1:178 小时的开源语料库。 AIShell-1
  4. AIShell-2:1000 小时的开源语料库,需申请。 AIShell-2
  5. aidatatang_200zh:200 小时的开源语料库。 aidatatang_200zh
  6. MAGICDATA:755 小时的开源语料库。 MAGICDATA
3.工具包
  1. HTK:一款语音识别工具包。 HTK
  2. Kaldi:目前使用最广泛的语音识别工具包,支持 C++ 和 Python。 Kaldi
  3. ESPNet:基于 Pytorch 的端到端语音识别工具包。 ESPNet
  4. Lingvo:基于 Tensorflow 的语音识别工具包。 Lingvo

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/800737.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

智能厕所系统让厕位状态清晰可见

在当今科技飞速发展的时代,智能化的应用已经渗透到我们生活的方方面面,智能厕所系统就是其中一个令人瞩目的创新。其中,厕位有人无人实时显示这一功能,为人们带来了极大的便利和舒适。 当身处一个繁忙的公共场所,如商场…

嵌入式全栈设计思路:STM32G4+ChibiOS+FreeRTOS+PID控制+PFC算法构建高效智能电源管理系统(附代码示例)

智能电源管理系统是一个基于STM32G4微控制器的高性能数字电源控制解决方案。本项目旨在设计一个功能全面、高效稳定的电源管理系统,可广泛应用于工业控制、新能源、通信设备等领域。 1.1 系统主要特点 高精度数字电源控制:利用STM32G4的高性能ADC和定时器,实现精确…

【NLP实战】基于TextCNN的新闻文本分类

TextCNN文本分类在pytorch中的实现 基于TextCNN和transformers.BertTokenizer的新闻文本分类实现,包括训练、预测、数据加载和准确率评估。 目录 项目代码TextCNN网络结构相关模型仓库准备工作项目调参预测与评估 1.项目代码 https://github.com/NeoTse0622/Te…

C++相关概念和易错语法(22)(final、纯虚函数、继承多态难点)

1.final final在继承和多态中都可以使用,在继承中是指不想将自己被继承,在多态中是指不想该函数被重写,比较简单,下面是一些使用例子。 2.纯虚函数 当我们需要抽象一个类的时候,我们就需要用到纯虚函数。所谓抽象的类…

【微服务】Spring Cloud Config解决的问题和案例

文章目录 强烈推荐引言解决问题1. 配置管理的集中化2. 配置的版本控制3. 环境特定配置4. 配置的动态刷新5. 安全管理敏感数据6. 配置的一致性 组件1. **配置服务器(Config Server)**2. **配置客户端(Config Client)** 配置示例配置…

电脑数据恢复软件哪个好?这六款软件轻松恢复数据

随着电脑使用的日益频繁,数据的丢失也成为了一个不可避免的问题。在生活中,我们常因误删除、误格式化、分区失败、中病毒等而丢失数据。在这种情况下,一个好的数据恢复软件就显得尤为重要。 电脑数据恢复软件哪个好?本文将为大家…

Midjourney 商业实战案例(附AI学习工具教程资料)

前言 Midjourney 商业实战案例 (附AI学习工具教程资料) 如何把 AI 绘画应用到设计工作中? AI 绘画技术可以应用于设计工作中,帮助设计师更快速、更高效地完成设计工作,以下是一些常见的应用: **1. 快速…

对接企业微信API自建应用配置企业可信IP

前言 为了实现系统调用团队会议功能,组织发起企业微信会议,于是需要和企业微信做API对接。对接过程很难受,文档不清晰、没有SDK、没有技术支持甚至文档报文和实际接口报文都不匹配,只能说企业微信的API是从业以来见过的最难用的AP…

【数据结构与算法 经典例题】判断二叉树是否对称

💓 博客主页:倔强的石头的CSDN主页 📝Gitee主页:倔强的石头的gitee主页 ⏩ 文章专栏:《数据结构与算法 经典例题》C语言 期待您的关注 目录 一、问题描述 二、解题思路 三、C语言实现代码 一、问题描述 给你一个二…

ENSP中NAT的相关实验(两个私网,一个公网)

题目 实验需求 1.按照图示配置IP地址,公网地址100.1.1.1/24 2.私网A通过NAPT,使R1接入到互联网,私网B通过EASY IP,使R3接入到互联网 3.私网A配置NAT SERVER把Telnet的Telnet服务发布到公网,使PC2可以访问 三、实验…

Vue中使用mind-map实现在线思维导图

概述 在前面的文章Vue中实现在线画流程图实现中介绍了流程图的在线绘制,在本文,给大家分享一下基于mind-map实现在线的思维导图,并实现:1. 导图导出为图片;2. 打开xmind文件。 实现效果 实现 1. mind-map简介 simp…

随笔(三):CSS

一、CSS .(类选择器)和 #(ID选择器)在CSS中的主要区别在于它们的选择范围和用途: 1. 选择范围 类选择器(. 开头): 类选择器用于选择具有指定类名的所有HTML元素。由于一个HTML元素…

spring boot基础知识

spring boot是整合spring 一系列的包的坐标集合 对依赖进行整合 总体介绍 spring boot是用来方便构建项目的工具 spring cloud是用来方便spring boot项目之间进行数据交互通讯和配置的 spring cloud data Flow 是用来进行数据的连接的 Spring 缺点 配置繁琐 虽然Spring的组件代…

超市管理系统 需求分析与设计 UML 方向

一、项目介绍 1.1项目背景 随着经济一体化和电子商务的迅速发展,网络传播信息的速度打破了传统信息传递的模式,互联网的高速发展和计算机应用在各个高校进展迅速,更多信息化产品的突飞猛进,让现代的管理模式也发生了巨大的变化&…

vue数据缓存

data 对象未定义或未正确传递:确保 data 对象在你调用 onMounted 钩子时已经存在且包含 base.columns 属性。 columns 响应式引用未定义:确保 columns 是一个使用 ref 或 reactive 创建的响应式引用。 异步数据问题:如果 data 是通过异步操…

vue 搭建 pinia

文章目录 环境设置存储读取数据【 storeToRefs】借助storeToRefs将store中的数据转为ref对象,方便在模板中使用【getters】当state中的数据,需要经过处理后再使用时,可以使用getters配置【$subscribe】通过 store 的 $subscribe() 方法侦听 s…

用动态规划算法均分纸牌,谈谈理解思路

🏆本文收录于《CSDN问答解答》专栏,主要记录项目实战过程中的Bug之前因后果及提供真实有效的解决方案,希望能够助你一臂之力,帮你早日登顶实现财富自由🚀;同时,欢迎大家关注&&收藏&…

升级自动交易!打通miniQMT接口!股票量化分析工具QTYX-V2.8.7

前言 我们的股票量化系统QTYX在实战中不断迭代升级!!! 我们用Python搭建自己的量化交易系统,之前主要以手动交易或者是easytrader库为主,属于曲线救国的方案。 在大家的强烈推荐下,我们决定使用正规的量化交易平台作为下单的最后环节——QMT&…

【Visual Studio】Visual Studio使用技巧及报错解决合集

目录 目录 一.概述 二.Visual Studio报错问题及解决方法 三.Visual Studio操作过程中遇到的问题及解决方法 四.Visual Studio编译优化选项 五.Visual Studio快捷键 一.概述 持续更新Visual Studio报错及解决方法,包括Visual Studio报错问题及解决方法、Visua…

mac安装win10到外接固态硬盘

1、制作win10系统 1.1 下载 winToUSB,打开后选择第一个 1.2 选择本地下载镜像, 我用的分区方案是适用于UEFI的GPT模式 1.3 点右下角执行,等待执行完成即可 2、mac系统下载win驱动 2.1 comman空格 搜索启动转换助理,打开后选择…