音频3A——初步了解音频3A

文章目录

  • 前言
  • 一、3A使用的场景和原理
    • 1.AEC
    • 2.AGC
    • 3.ANS/ANR
    • 4.硬件3A和软件3A的区别
      • 1)层级不同
      • 2)处理顺序不同
      • 3)优缺点
    • 5.处理过程
  • 二、3A带来的问题
  • 三、开源3A算法
  • 总结


前言

在日常的音视频通话过程中,说话的双端往往会面对比较复杂的场景,比如:环境存在较大的噪声,扬声器需要开启外放导致麦克风重新采集到,麦克风固定而人物需要走来走去等等的场景。

而为了面对这些复杂的场景,音频通话不得不引入算法对于声音进行预处理,再进行发送给远端。而3A是对于音视预处理的三种算法的统称。这三种算法分别是:

  • AEC(Acoustic Echo Cancellation):声学回声消除
  • AGC (Automatic Gain Control):自动增益控制

以及硬件3A和软件3A中不同的降噪技术:

  • ANS (Automatic Noise Suppression) : 自动噪声抑制(软件噪声抑制算法)
  • ANR(Active Noise Reduction):主动噪声消除(硬件噪声抑制算法)

本篇文章中,会对3A的应用场景、基本原理、一些开源的3A库、以及引入3A会带来哪些问题做详细的介绍


|版本声明:山河君,未经博主允许,禁止转载

一、3A使用的场景和原理

1.AEC

  • 解决问题:消除回声,尤其是在通话或会议过程中,扬声器声音被麦克风拾取,导致反复回传形成回声。
  • 应用场景:视频会议、电话会议、语音助手等涉及麦克风和扬声器同时使用的场景。
  • 工作原理:AEC 技术通过比较输入音频信号和输出信号,识别并减弱回声部分,确保只有原始的语音信号被传输。

2.AGC

  • 解决问题:自动调节音量,使得音频信号的强度保持在一个稳定的范围内,防止声音过大或过小。
  • 应用场景:语音通信、录音、音频采集系统中,用于在距离、音量差异较大的情况下确保音量一致性。
  • 工作原理:AGC 监测输入信号的电平,当声音过弱时自动提高增益,过强时降低增益,从而保证输出信号的音量在适当范围内。

3.ANS/ANR

ANS和ANR虽然目的都是为了降低音频通话过程中产生的噪声,但是两者在使用时机和原理上,存在很大的区别,具体

  • 解决问题:抑制背景噪声,如风声、键盘声、交通噪声等,以提高语音的清晰度和质量。
  • 应用场景:语音通信、会议、录音、语音识别等场景,特别是在嘈杂环境中进行的音频处理。
  • 工作原理:ANS 技术通过分析音频信号中的噪声成分并将其过滤,保留清晰的语音部分,从而提高音质。而ANR是通过使用麦克风捕捉环境噪声,并产生与噪声相位相反的声音信号来进行噪声抵消。

4.硬件3A和软件3A的区别

1)层级不同

  • 硬件3A是通过专用的DSP(音频处理芯片)或设备在硬件层面实现的音频增强功能,可以在模拟信号上就进行处理。
  • 软件3A通过音频处理算法和通用的DSP(音频处理芯片)在软件层面实现,包括在移动设备或电脑上运行的音频增强功能,是完全在数字信号领域上实现的。

2)处理顺序不同

  • 硬件3A处理顺序:AEC->ANR->AGC
  • 软件3A处理顺序:AEC->AGC->ANS

产生不同的原因:
硬件3A往往需要处理实时性高的任务,因此ANR被提前应用,因为硬件可以更高效地处理环境噪声,减少低频噪声干扰,再进行增益控制。

而软件3A通常以灵活性为目标,处理复杂的噪声场景,因此优先进行增益控制,然后再通过算法进行噪声抑制,以确保语音信号在处理前后的一致性。

3)优缺点

硬件3A软件3A
延迟低延迟: 由于硬件直接处理信号,通常具有较低的延迟由于音频信号需要经过处理器的计算,可能会带来一定的延迟
成本开发和制造专用硬件需要较高的成本,且设备升级或维修困难依赖现有的处理器和硬件,不需要额外的音频处理芯片,从而降低了成本
性能专用硬件可以更有效地处理音频信号,节省系统的CPU和电源资源,特别在移动设备或嵌入式系统中表现更好软件处理音频通常需要占用设备的CPU和内存资源,可能影响其他应用的运行
扩展性硬件方案较为固定,不容易根据不同场景需求进行调整或升级软件可以通过更新或升级实现新功能,而无需更换硬件设备
维护硬件处理通常是固定的,保证了一定的一致性和稳定性软件算法可以根据不同的需求进行调整和优化

5.处理过程

这里以硬件3A举例

在这里插入图片描述

整体3A工作流程如下:

  1. 近端麦克风采集到Noise, Speaker和人声
  2. AEC通过AF(滤波器)模拟回声通道,再通过NLP进行非线性回声消除
  3. 通过ANR进行噪声抑制
  4. 通过AGC进行音量增益
  5. 通过EQ和CNG增加语音舒适度(非必须)再发送到远端

二、3A带来的问题

既然3A能够带来那么多的好处,为什么使用场景上通常只是在音频通话中使用呢? 例如演唱会、音乐会等等不使用呢?并且在实际场景中,还要根据环境不同进行调节参数呢?

下面来看一看3A引入的一些问题:

  1. AEC(声学回声消除)相关问题:
  • 误消除问题:在回声和语音信号难以区分时,AEC可能误将真实语音当作回声进行消除,导致语音部分被削弱或失真。
  • 延迟引发的失效:AEC依赖于精确的时间同步,如果延迟过大,回声消除器可能无法及时捕捉并处理回声,导致回声仍然存在。
  • 双讲问题:当两个人同时说话时,AEC 可能无法准确处理双向回声,从而导致语音不清晰或部分对话丢失。
  1. AGC(自动增益控制)相关问题:
  • 过度增益调整:AGC可能会导致音量波动过大,特别是在安静的环境下,它会试图放大背景噪声,导致不必要的噪声变得明显。
  • 语音动态损失:在音乐或情感丰富的对话中,AGC可能削减声音的动态范围,使得声音显得过于平淡,失去了原有的情感表现。
  • 慢速反应:AGC可能会对快速变化的音量反应不及时,导致声音过大会有突然的削弱,或者在突然安静后有一段时间声音仍然较高。
  1. ANS(自动噪声抑制)相关问题:
  • 语音质量下降:ANS在过度抑制背景噪声时,可能会削减语音的自然部分,导致语音失真或听起来不自然、机械化。
  • 残留噪声或伪影:在抑制噪声时,ANS有时会留下残余噪声或产生伪影音效(如“嗡嗡”声),特别是在环境噪声复杂或变动较大的情况下。
  • 适应性不足:对于突发性或非持续性的噪声,ANS可能不够灵敏,导致这些噪声在处理时被漏过或抑制效果较差。
  1. 综合问题:
  • 处理延迟:音频3A技术的处理通常需要一些计算时间,特别是对于实时通话应用,这些延迟可能会影响自然的对话流畅性,导致讲话者之间出现不自然的停顿。
  • 复杂环境表现不足:在非常复杂的音频环境下(例如同时存在回声、噪声和音量差异),音频3A系统可能无法同时应对所有问题,导致回声未完全消除、噪声仍然存在或音量波动不稳定。
  • 算法适应问题:音频3A技术往往需要根据不同的环境和设备进行优化。如果没有正确调校,音频质量反而可能受到负面影响,尤其在不同设备(如不同品牌麦克风、扬声器)或不同声学环境中,可能会表现不一致。

三、开源3A算法

下面介绍一些常用的3A开源算法库

介绍功能优点缺点git地址
webrtc最为广泛使用的实时音频处理库之一AEC、AGC、ANS 、VAD(语音检测技术)功能丰富(不仅仅是3A)、跨平台、社区活跃、低延迟场景使用复杂度高、性能高、调节困难webrtc地址
SpeexDSP轻量级的开源音频处理库,适合低功耗或嵌入式设备AEC、AGC、ANS轻量级、易于集成、低功耗和低延迟功能不如 WebRTC 丰富、更新较少、高噪音环境表现一般SpeexDsp地址
PulseAudio AEC ModuleLinux 上常用的音频管理系统,它的模块中集成了回声消除功能,可以结合 WebRTC AEC 模块AEC(基于 WebRTC)无缝集成到桌面和应用程序中、基于 WebRTC、易用性局限于 Linux 平台、使用体验有时受限于 PulseAudio 的整体设置、仅提供回声消除功能PulseAudio 地址
RNNoise基于深度学习的噪声抑制库,通过机器学习模型有效减少环境噪音ANS(基于神经网络)在复杂的噪声环境中效果非常好,特别适合高噪声背景下的语音通信,高效且低延迟,可以根据不同场景进行模型的训练和微调只支持噪声抑制,训练模型难度,平台支持有限RNNoise地址

总结

  • WebRTC Audio Processing:功能全面,适合复杂的实时音频通信应用,但复杂且资源占用较大。
  • SpeexDSP:轻量、简单,适合嵌入式和低功耗设备,但功能较为基础。
  • PulseAudio AEC:适合 Linux 桌面应用,集成简单,但功能相对较少。
  • RNNoise:神经网络噪声抑制效果好,适合高噪声环境,但需要与其他库结合使用。

总结

本篇文章是先对音频3A的概念和一些常用的开源算法的介绍,后面博主会结合实际一一对3A中的算法进行介绍,实际上个人也是从事音视频开发工作后才慢慢了解到这些知识,为了梳理和避免遗忘才坚持在写博客,如果有些不足的地方还希望读者能够指点出来。

如果对您有所帮助,请帮忙点个赞吧!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/882667.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

Davinci 大数据可视化分析

Davinci 大数据可视化分析 一、Davinci 架构设计1.1 Davinci定义1.2 Davinci 应用场景 二、Davinci 安装部署2.1 部署规划2.2 前置环境准备2.3 Davinci部署2.3.1 物料准备2.3.2 安装配置 2.4 环境变量配置2.5 初始化数据库2.5.1 创建数据库及用户 2.5.2 建表2.6 初始化配置 三、…

Java反射机制入门:解锁运行时类信息的秘密

反射技术: 其实就是对类进行解剖的技术 类中有什么?构造方法 成员方法成员变量 结论:反射技术就是把一个类进行了解剖,然后获取到 构造方法、成员变量、成员方法 反射技术的应用案例: idea框架技术:Spr…

网络安全-ssrf

目录 一、环境 二、漏洞讲解 三、靶场讲解 四、可利用协议 4.1 dict协议 4.2 file协议 4.3 gopher协议 五、看一道ctf题吧(长亭的比赛) 5.1环境 5.2开始测试 ​编辑 一、环境 pikachu,这里我直接docker拉取的,我只写原…

基于vue框架的传统文化传播网站设计与实现f7r43(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。

系统程序文件列表 项目功能:用户,文化类型,传统文化 开题报告内容 基于Vue框架的传统文化传播网站设计与实现开题报告 一、研究背景 在全球化加速的今天,各国文化相互交融,但也面临着传统文化被边缘化的风险。中国拥有五千年文明史&#…

【通俗易懂介绍OAuth2.0协议以及4种授权模式】

文章目录 一.OAuth2.0协议介绍二.设计来源于生活三.关于令牌与密码的区别四.应用场景五.接下来分别简单介绍下四种授权模式吧1.客户端模式1.1 介绍1.2 适用场景1.3 时序图 2.密码模式2.1 介绍2.2 适用场景2.3时序图 3.授权码模式3.1 介绍3.2 适用场景3.3 时序图 4.简化模式4.1 …

数据的表示和存储 第3讲 C语言中的整数

深耕AI ​互联网行业 算法研发工程师 概括 本讲主要介绍了C语言中的整数表示。 无符号整数能够表示的最大值比带符号整数要大。带符号整数使用补码来表示,补码的运算系统是一种模运算系统,能够实现加减运算的统一。在C语言中,如果一个表达式…

利用F.interpolate()函数进行插值操作

函数简介 功能: 利用插值方法,对输入的张量数组进行上\下采样操作,换句话说就是科学合理地改变数组的尺寸大小,尽量保持数据完整。 torch.nn.functional.interpolate(input, sizeNone, scale_factorNone, modenearest, align_c…

【赵渝强老师】K8s的DaemonSets控制器

DaemonSet控制器相当于在节点上启动了一个守护进程。通过使用DaemonSet可以确保一个Pod的副本运行在 Node节点上。如果有新的Node节点加入集群,DaemonSet也会自动给新加入的节点增加一个Pod的副本;反之,当有Node节点从集群中移除时&#xff0…

EdgeRoute_镜像烧录

1. EdgeRouter 概述 EdgeRouter Lite 是由 Ubiquiti Networks 公司生产的一款高性能网络路由器,适用于家庭和小型办公环境。它的尺寸为200 x 90 x 30 mm,重量为345克,配备了双核500 MHz的MIPS64处理器,并带有硬件加速功能&#x…

MySQL_数据类型简介

课 程 推 荐我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈虚 拟 环 境 搭 建 :&#x1…

Vue使用Vue Router路由:开发单页应用

1、路由基础 在单页 Web 应用中,整个项目只有一个 HTML 文件,不同视图(组件的模块)的内容都是在同一个页面中渲染的。当用户切换页面时,页面之前的跳转都是在浏览器端完成的,这时就需要使用前端路由。 路…

APP自动化中 ADB Monkey用法

一、monkey是干什么的? 我们可以使用monkey做手机端性能的压力测试,稳定性测试 二、monkey在使用的时候,他的运行特性 monkey默认配置下执行,会在手机中随机的点击或者轻触我们的手机中应用,不过这个时候&#xff0…

Cortex-M7核心寄存器

参考内容:Cortex-M7编程手册 文章目录 软件执行的处理器模式和权限级别处理器模式软件执行的权限级别 栈Stacks核心寄存器Core registers通用寄存器General-purpose registers链接寄存器Link register程序计数器 Program counter程序状态寄存器Program status regis…

PMP--二模--解题--91-100

文章目录 14.敏捷91、 [单选] 在敏捷团队完成三次迭代之后,项目经理确定团队在这三次迭代中的平均速度是30个故事点。还有292个故事点来完成项目的剩余部分。团队需要多少次额外的迭代才能完成项目? 9.资源管理92、 [单选] 项目经理前往另一个国家执行最…

python yield用法

1 yield关键字 yield在函数中的功能类似于return,不同的是yield每次返回结果之后函数并没有退出,而是 每次遇到yield关键字后返回相应结果,并保留函数当前的运行状态,等待下一次的调用。如果 一个函数需要多次循环执行一个动作&am…

【自动驾驶】控制算法(九)深度解析车辆纵向控制 | 从算法基础到 Carsim 仿真实践

写在前面: 🌟 欢迎光临 清流君 的博客小天地,这里是我分享技术与心得的温馨角落。📝 个人主页:清流君_CSDN博客,期待与您一同探索 移动机器人 领域的无限可能。 🔍 本文系 清流君 原创之作&…

『功能项目』QFrameWorkBug关联Slot(插槽)【67】

我们打开上一篇66QFrameWorkBug拖拽功能的项目, 本章要做的事情是关联插槽Slot 修改脚本:UISlot.cs 修改脚本:UGUICanvas.cs 此时关联Slot已经完成 接下来的文章内容: 1.QFrameWork扔到地上UGUI 2.位置存储功能 3.点击名称寻…

Python可迭代对象(2)

目录 3。字典 字典的构造 字典的添加和修改 字典推导式的使用 以上全部代码编译结果展示 字典复习 4。集合(set) 集合的创建 集合的运算 集合的添加和删除元素 以上全部代码的编译结果 序列解包(Sequence unpacking) 3。字典 字典的构造 #字…

【Linux】nginx连接前端项目

文章目录 一、项目编译1.编译文件2.dist文件 二、Linux nginx配置三、启动nginx 一、项目编译 1.编译文件 2.dist文件 二、Linux nginx配置 在Xshell软件中,点击CtrlAltF进入文件传输找到地址:/usr/local/nginx/html将dist文件传入 找到nginx.conf&…

R包:VennDiagram韦恩图

加载R包 library(VennDiagram)数据 # Prepare character vectors v1 <- c("DKK1", "NPC1", "NAPG", "ERG", "VHL", "BTD", "MALL", "HAUS1") v2 <- c("SMAD4", "DKK1…