一、背景介绍
与机器进行语音交流,让机器明白你说什么,这是人们长期以来梦寐以求的事情。语音技术主要分为语音识别技术以及语音合成技术。语音识别技术就是让机器通过识别和理解把语音信号转变为相应的文字或命令从而执行某些动作,比如车联网、智能语音助手、智能家居等。语音合成则是利用计算机将文字信息转变为人可以听得懂并且是流利的汉语口语。比如新闻播报、有声阅读等。
二、语音直播实践
当今短视频、视频直播正如火如荼进行着,沉淀多年的语音直播也正迎来最大的风口。区别于传统的视频直播,语音直播所具备的天然优势是故事性更强、互动性更高、场景覆盖更广、内容具备沉淀价值,并且对于语音主播不需要露脸、不需要颜值、门槛降低,因此语音直播从整体来讲有着更持久的生命力。
虽然语音直播未来发展的潜力巨大,但现实中也面临着诸多挑战。 语音直播审核、个性化语音直播内容便是其中的典型。限于篇幅,我们本次只分享语音直播审核这一个话题。个性化语音直播内容后续再另起篇目讨论。
1)语音直播审核
语音直播的使用门槛虽然降低了,但是同样面临着可能出现的不当言论风险。因此内容审核是必不可少的一个流程。传统语音审核通常由审核员人工参与,虽然审核效果可控,但内容审核带来的工作量也是巨大的。一个审核员在极限条件下可以同时审核5~8场语音直播,但是在晚高峰期间同时在线的语音直播多达数千场甚至与万场,那么人工审核便是不可能完成的任务,所以传统的做法就是要么就限制开播场次,要么就干脆放弃审核,但这背后所面临的损失也是可想而知的。
针对上诉问题,我们提出了自动化机器审核外加人工干预的解决方案,简称为智能审核小助手。 该方案的大致流程为机器自动化实时完成在线语音直播的内容审核,在机器审核过程中会实时检索语音内容,该内容一旦命中敏感词、敏感字则会触发报警,该报警会根据提前设定的规则来自动完成一系列操作。比如通知审核员人工干预或者直接关闭该场直播。
语音直播自动化审核场景最基本的要求是语音的实时翻译以及翻译结果的准确性,这是自动化语音审核服务的最低要求,同时也是最大的挑战。在充分调研与测试评估后,我们选择集成阿里云智能语音交互方案。 该方案提供的语音识别服务满足我们的产品预期,同时也非常适合我们的使用场景以及对该业务的未来规划。实际上,自动化语音审核服务上线后确实解决了我们所遇到的问题。有80%的语音直播的内容审核是通过自动化方式来解决的。以下是系统集成架构:
语音直播过程中,语音翻译的实时性是非常严格的,不能出现延迟翻译或者是遗漏翻译,比如主播讲的话30秒后才翻译完成甚至于干脆漏掉了,这就严重不符合产品预期了。 我们使用阿里云智能语音交互服务还是比较早的,当时语音翻译类型还没有对外提供长语音实时翻译,只有一句话语音识别。为了满足自动化语音审核的实时行与连续性,我们的解决方案是对直播流进行切分,也就是说把主播讲的话做N段切分,以最小单位进行一句话实时翻译。 这么做的好处是保证了实时性,并且也不会遗漏翻译,但也存在缺点,那就是数据会出现冗余。但缺点即便可见,依然也符合我们早期的功能定位。 直播流如何进行切片呢?
这就需要关注到直播流原理以及直播协议了。 简单来说,直播流是由若干个M3U8小文件组成,m3u8文件中提供了音视频片段的下载地址。我们通过该地址url 可以下载到一段直播片段。该片段是视频格式的,因此需要对视频进行分离,将语音部分抽取出来并进行转码,最后post方式调用阿里云语音识别api。
在成功调用阿里云语音识别restful api后,语音翻译的结果会通过json格式返回。其中result字段存储翻译内容。 我们会将翻译内容实时展示在审核系统的页面中,从而实现机器审核、机器监控、人工干预等动作。相关效果如下图:
此外,我们还会将语音直播翻译内容存入到阿里云数据仓库odps中,也就是现在的阿里云MaxCompute。语音翻译内容对于用户画像建设、推荐算法模型训练等环节有着及其重要的数据价值。
三、未来展望
目前我们的解决方案是一句话语音翻译,虽然缓解了人工审核的工作量,但也存在着一些缺点。比如语音翻译数据冗余,语音翻译实效性不是准实时等。对此我们正在尝试将一句话识别换成实时语音识别。实时语音识别类似与同声传译,该效果会有效改善审核体验。