带你读《2022技术人的百宝黑皮书》——淘宝直播端到端音视频评测方案首次公开(6) https://developer.aliyun.com/article/1243278?groupCode=taobaotech
噪声抑制ANS
噪声抑制评估主要包括以下几个方面:1)噪声的收敛情况,即噪声是否收敛以及收敛的速度。2)降噪后的音质是否损伤,即音质情况。3)降噪算法的性能消耗情况(如cpu、内存)。
降噪效果评估采用真实噪声场景、稳态噪声(如白噪声、粉红噪声等)、非平稳噪声、噪声变化等不同场景的噪声素材,以尽量覆盖各种噪声场景和分析算法的自适应能力。由于淘宝直播主要的使用场景是人声类场景(主播卖货),我们主要关注降噪后的语音质量。在此,我们使用不同信噪比的音频素材作为测试集,并采用主观评测和客观评测两种方式来评测降噪后音频的质量。客观评测主要采用PESQ(Perceptual evaluation of speech quality)和STOI(Short-Time Objective Intelligibility)两种方式来对比推流前和ANS处理后的音频质量。主观评测主要参考音质增强算法的评估标准(ITU-T P.835,ITU-R BS.1284-2, EBU subjective assessment),采用有源多元算法(不同App)对比,制定打分规则并进行打分。主观评测可以看不同算法的降噪后的效果。
回声消除AEC
在音视频会议或连麦场景中,远端传过来的语音信号经会议设备的扬声器或者音响设备放出后,经房间墙壁等一系列的反射,最后又被麦克风采集并传到远端。这样,远端用户就不仅听到了本地用户讲话的声音,也听到了自己讲话的声音回传,也就是“回声”。
回声消除算法效果评测主要是模拟单讲和双讲的场景下是否有回声,以及回声的收敛效果。将带有特征脉冲序列音频语音作为输入数据集,再利用Audition分析录制的单讲(或双讲)场景下的音频,来判断回声是否收敛和收敛时长。
自动增益AGC
现实场景中,因主播采集设备差异、距离麦克风的距离不同等因素,导致采集到的声音忽大忽小。AGC的主要作用就是平滑这些差异,当输入语音音量过小时,将其适当放大;当输入语音信号音量过大时,则将适当降低幅度,避免削波失真和较差的音频体验。
AGC算法评测主要包括:
1. 增益的大小和增益的平滑度;
2. 噪声场景下,AGC是否将噪声放大。AGC测试素材包括大音量音频、小音量音频、噪声音频、以及音量变化音
频。将输入和输出的音频做时域对齐,然后分段对比AGC前后幅度计算出平均增益幅度及平滑度。
带你读《2022技术人的百宝黑皮书》——淘宝直播端到端音视频评测方案首次公开(8) https://developer.aliyun.com/article/1243276?groupCode=taobaotech