原创 淘系音视频技术 淘系技术 2020-12-25
“听这声音仿佛回到了小时候,不仅脑海里有画面,甚至还有温度味道。”
“隔着屏幕已经感受到火光和扑面而来的温暖了”
“没想到在淘宝直播间也能听到asmr”
有这样一个特别的直播间,一位75岁的老奶奶,在淘宝直播间给烧柴火给网友听。
来自奶奶的科普:不同的柴火能烧出不同的声音
还真别说,直播间里,我们可以清晰地听到:稻田秸秆的滋滋声、玉米秸秆的沙沙声......
每一块柴火发出不同的声音,让人感到温暖又解压!闭上眼,仿佛感觉自己也坐在奶奶身边,陪着一起烤火~
伴随电商直播的火热发展,直播场景和直播形式也越来越多样化,除了烧柴的奶奶,还有很多音乐直播间,不少主播也会将直播场地选在开阔喧嚷的户外、喧闹的商场甚至是市场......复杂的场景化无疑对音频处理技术提出了更大的挑战!
阿里巴巴集团CTO鲁肃也曾分享了他购买古琴的经历,买古琴不能通过常规的图文描述来分辨古琴的好坏,卖家将程立引导到直播间,通过主播讲解,在直播间听声音来分辨古琴好坏。买到琴后发现琴的声音跟直播间里听到的完全一样,鲁肃对淘宝直播间乐器的音质大加赞赏,这种所见即所得的感觉是直播最大的优势。
音乐直播间高保真体验:
高清音质的体验一直是我们追求的重点。口播是主播卖货最直接有效的交流方式,但主播直播间声音环境复杂、音频设备多种多样、应用场景差异性大,从而导致一些场景的音质体验受到挑战。淘宝直播多样化的直播场景和声学设备类型,导致我们很难用一个通用算法解决所有声音问题,为此我们针对一些问题进行有针对性的优化工作。
历史上淘宝直播的场景以语音直播为主,后来随着商品场景的丰富,乐器、音乐直播逐渐增多。通过调研我们知道乐器商家对音质的要求非常严格,稍有失真就会直接影响销量。为了解决该问题,我们全链路分析影响音乐信号的环节,找到优化点,对每个产生音质损伤的点进行优化。
直播音频链路音质影响分析
生产侧
消费侧
音频编码
降噪处理
采集模式
播放器
硬件端
好的外接设备
低延时播放器
编解码模式和
不合理的降噪
采集模式影响
能够提供更好
对音频的加速
采集的原始音
参数会直接影
对音质有严重
的原始采集音
等处理会影响
频质量
影响
响音质
质
音质
上图列出了一些影响直播音质的环节,乐器直播一般都会配置声卡设备,所以硬件端一般输入音质都比较好。音频采集模式对音质影响较大,原始采集基本无损,但是如果加了系统自带的算法处理,音质会大打折扣,并且不合适的采集模式会导致外置声卡不可用。降噪、编解码和播放器的处理都是算法层面的影响,算法处理不当,会导致信号的频率失真、频宽等问题。最终,经过优化之后,乐器直播场景音质得到了极大提升,通过AB test验证,优化之后乐器场景粉丝平均停留时长增加明显。
线上优化前乐器直播效果:
线上优化后乐器直播效果:
“让画面更清晰,让声音更动听,打造最佳的视听体验”,一直以来都是淘宝直播体验优化的重点。在过去一年中,我们围绕音质和画质,建设了端侧窄带高清技术,使用图像增强的技术来提升低端设备的画质,并采用ROI感知编码来提高重点区域的质量。在音频方面,我们自研了基于数据驱动的智能降噪,在主观和客观指标上都对齐甚至超过了竞品,在消除噪声的同时对人声进行最大限度的保留;我们还推出高音质直播间,显著提升乐器类直播观看时长;通过采用自研软件3A,解决各种手机音质不一致的问题。
我们会持续优化画质和音质。通过主观质量优化来进一步提升直播间画质,通过智能PLC技术来恢复网络丢包,通过场景检测来识别当前的直播环境,并据此来选择最佳的语音降噪模式和降噪强度;我们还会设计声音美化功能,让男主播的声音更浑厚,女主播声音更清澈;在声音互动方面,我们还会支持直播连麦的变声功能,有效保护特定人群隐私。我们还会跟达摩院同学一起,在直播间引入智能语音TTS,ASR能力,提供语音播报,语音消息,实时字幕能力,更好的服务于主播和用户。