一、测试前期准备
-
一台电脑:用于作为控制播放和录制数据;
-
一台音频处理器(调音台):控制每个通道播放的数据,如噪声、人工头、模拟设备B输入的数据、收集标准麦克风,设备A处理完成的数据;
-
四个高保真音响:用于模拟环境噪声;
-
一台人工头或者高保真音响:模拟设备A前人讲话;
-
一只标准麦克风:用于采集设备A收到的声音,用于处理对比;
-
测试设备A:用于测试设备音频处理效果;
-
接收设备B:用于接收测试设备处理之后的数据;
-
测试使用转接线若干,需搭配音频处理器(调音台),音响使用;
二、环境搭建
NS和AGC测试环境拓扑图(这个拓扑图同样也适用于AEC)
-
设备A和设备B安装需要测的app,其中设备B是要进行测试的设备,设备A不做要求,性能满足要求即可 (接收和发送不出现掉帧,测试过程中不出现CPU80%以上)。
三、测试关注点和打分
-
噪声抑制ANS
噪声抑制评估主要包括以下几个方面:
1)噪声的收敛情况,即噪声是否收敛以及收敛的速度;
2)降噪后的音质是否损伤,即音质情况;
3)降噪算法的性能消耗情况(如cpu、内存)。
-
自动增益AGC
现实场景中,因主播采集设备差异、距离麦克风的距离不同等因素,导致采集到的声音忽大忽小。AGC的主要作用就是平滑这些差异,当输入语音音量过小时,将其适当放大;当输入语音信号音量过大时,则将适当降低幅度,避免削波失真和较差的音频体验。
AGC算法评测主要包括:
1)增益的大小和增益的平滑度;
2)噪声场景下,AGC是否将噪声放大。AGC测试素材包括大音量音频、小音量音频、噪声音频、以及音量变化音频。将输入和输出的音频做时域对齐,然后分段对比AGC前后幅度计算出平均增益幅度及平滑度。
3)响应时间速度和时间;
-
主观打分和核心指标
主观打分规则:
1.选取5人以上,分单讲双讲场景分段对测试音频打分;
2.评价方式是通过对比测试得到的音频文件与近端信号的主观评测;
3.评分说明:
优:5.0:非常好,听得很清楚,无失真感,无延时感,无回声;
良:4.0:次好,听得清楚,延时小,有轻微杂音,无回声;
中:3.0:还可以,听不太清楚,有一定延时,有杂音,有轻微失 真,有轻微回声;
差:2.0:勉强,听不太清楚,有较大杂音或断断续续,失真严重;
劣:1.0:极差,静音或完全听不清,杂音很大;
核心指标:
主观评价中主要关注以下几点:
1、噪声的抑制水平。包括收敛时间、抑制力度、残留平稳性等;
2、语音的损伤程度。好的降噪算法总是能够在这两者之间达到一个相对的平衡,既能有效的抑制噪声,又没有明显的损伤语音。
3、可懂度。表示对语义内容的理解程度,影响可懂度的方面有很多,比如:语音中混入噪声使得语音听不清楚,导致可懂度下降;语音中有大混响,导致语音拖尾,听不清楚。
4、流畅度。直接现象:语音断续、卡顿、丢字、高低起伏等;
5、自然度表示与原始语音的相似程度。影响自然度的典型问题有:算法处理引入的失真;声音放大过多造成的削波、过载等。
6、声音大小适中。研究表明,音量对音质的影响是显著的,在其他条件一致的情况下,音量越大,主观听感越好。讲话者说话声音洪亮,在一定程度上能提升听音者的可懂度。