《英雄联盟》S10全球总决赛作为电竞顶流,在赛事期间聚集了无数观众在游戏直播平台。线上持续观战之时,很多观者有一项特殊发现,即游戏直播中竟出现了实时语音字幕,这让电竞主流之外的吃瓜之众也能迅速融入到大赛氛围中,感受S10的鼎沸热潮。
2020英雄联盟S10全球总决赛
准确而言,这是由阿里云视频云技术团队与达摩院语音识别和NLP团队共同研发完成,以实时语音字幕的形式展现在S10赛事中,并应用于国内某知名游戏直播平台。
更确切的说,针对这项游戏直播场景的实时字幕技术,阿里云视频云是第一个成功推出的先行者,据了解,即使在世界范围内,也是实时字幕技术于游戏场景成功尝试的首例。故,这也是首次应用在英雄联盟S10顶级赛事,开创了游戏直播体验的先河。
在S10直播中,该实时字幕技术的场景重要性在于两点:
第一,对一直存在的直播体验问题进行彻底改善,延伸了场景的可能性,例如针对不能直接听赛事的、或吵闹环境导致听不清楚的、或解说人的语言不标准造成理解困难、以及听力有点困难的这几类人群,他们可以通过实时字幕来辅助理解,解决歧义,从而拓展了在线观看的人群。
第二,实时字幕可以让视频分发更专业,提升直播平台对场景生产能力的专业性,特别是针对一些电竞的专有术语,可以让入门级的用户能理解其字,由字生义,由义明字,从而提升游戏直播的体验感,引导更多的泛电竞受众。
带有实时语音字幕的某平台S10直播
在游戏直播领域,该技术的输出核心在于,针对特定游戏场景进行特定的语音识别,并实时展示在直播流中,让分发端的观众可以借助字、音、画多维度信息理解视频内容。
对于未来的游戏直播行业,它开创了游戏赛事直播的新玩法尝试,让直播实时语音识别的技术帮助大型赛事游戏更好的分发,对整个行业具有更多维的延展性价值。
在该项目的技术方案实践中,最核心的研发环节与攻克难点在于两方面:
• 语音识别的准确率。
• 字、音、画三者实时且同步,然后合成展示。
在这两方面,视频云与达摩院整体协同并分别攻克。达摩院主要解决语音识别的准确率,通过特定游戏场景来训练模型,提高准确率;阿里云视频云提供全链路解决方案,进行客户直播流的接入、直播流的语音分离、调用达摩院的语音识别获取字幕、然后字音画同步、合成展示,最后分发。
对于实时字幕技术,起初,视频云实现的是实时插入字幕的功能,后来才逐步实现语音实时字幕,其与实时插入字幕有一个本质区别,即,实时语音字幕是一个字幕流,同时有一定的时效性,需要实时、字音画同步,且展示的时长机制不一样。
早在游戏直播场景的研发之前,阿里云视频云就曾成功研发全球速卖通(AliExpress)海外电商直播实时字幕项目,AliExpress作为“国际版淘宝”的跨境电商平台,其使用的是导播台做实时语音字幕和实时翻译,进行多国多语种字幕展示,也是视频云与达摩院共同打造的世界上第一个多语言电商直播实时翻译系统。
在该AliExpress项目上,视频云团队已经积累了对导播台实时语音字幕的各种功能与稳定性的把控力。“所以这次S10赛事支持,我们仅需要后端更新游戏场景的语音识别模型即可,不需要额外投入开发。仅和平台用户对接,让用户的流接入我们导播台,开通实时语音字幕即可,然后输出给用户。”阿里云视频云该项目的技术负责人表示。
精确地说,当前,S10赛事的实时字幕技术,运用了阿里云视频云导播台成熟的实时语音字幕方案来提供该功能,S10支持结束后,后续更多的游戏直播场景均可以更广泛地复用这套语音字幕的直播方案,包括优酷、B站、抖音、快手这样的视频平台。
未来在大型电竞赛事直播上,实时字幕技术、实时语音技术领域,还有新的技术空间思考:
• 需要进一步提升语音识别的准确率;
• 在应用情景上还可做实时翻译,确保多国分发;
• 实现更低的延时,目前是RTMP延迟3-5s,实际上可以做到更优质的RTS延迟1-2s,从而极大提升在线体验。
相较游戏直播、电商直播、或其他直播场景的实时语音字幕,在技术逻辑的本质上是一致的,均是字幕的同步、合成和展示,但是,不同场景,语音识别的模型完全不同,比如电商有电商的专业术语,游戏有游戏的专业术语,同时还有一些领域俚语,所以,需要进行特定的语音识别模型训练以完成。
未来,对实时字幕(支持实时语音字幕的直播)技术的研发,进一步的技术升级规划方向是:
• 一方面,让用户的接入更灵活,字幕模型配置以及字幕的样式展示更方便。
• 另一方面,支持更多的特定场景,提高特定场景的语音识别率,以此复用到更多具化场景的玩法尝试中。
也许,通过实时字幕技术,更多的圈外人能轻松get英雄联盟赛事解说人准确无误的描述,从而一起融入热血的电竞文化。而对更多场景、更多维度的技术探索,才能够真正推动新内容与新交互的未来。
发布时间:2020年10月23日
作者:IMMENSE