全球首个游戏直播实时字幕技术 热力支持英雄联盟 S10 赛事

简介: 作为实时字幕的先行者,阿里云视频云探索更多直播场景。来,一起英雄联盟!

来源:全球首个游戏直播实时字幕技术 热力支持英雄联盟 S10 赛事

作为电竞顶流的《英雄联盟》S10 全球总决赛,自 9 月开幕以来,目前已经进入最激烈的环节,SN,TES,G2,DWG 四支战队凭借强悍的实力,已杀出重围,闯入四强。赛事期间,电竞全民聚焦在游戏直播平台,线上持续观战之时,很多观者有一项特殊发现,即游戏直播中竟出现了实时语音字幕,这让电竞主流之外的吃瓜之众也能迅速融入到大赛氛围中,感受 S10 的鼎沸热潮。

1.png

2020 英雄联盟 S10 全球总决赛

准确而言,这是由阿里云视频云技术团队与达摩院语音识别和 NLP 团队共同研发完成,以实时语音字幕的形式展现在 S10 赛事中,并应用于国内某知名游戏直播平台。

更确切的说,针对这项游戏直播场景的实时字幕技术,阿里云视频云是第一个成功推出的先行者,据了解,即使在世界范围内,也是实时字幕技术于游戏场景成功尝试的首例。故,这也是首次应用在英雄联盟 S10 顶级赛事,开创了游戏直播体验的先河。

在 S10 直播中,该实时字幕技术的场景重要性在于两点:第一,对一直存在的直播体验问题进行彻底改善,延伸了场景的可能性,例如针对不能直接听赛事的、或吵闹环境导致听不清楚的、或解说人的语言不标准造成理解困难、以及听力有点困难的这几类人群,他们可以通过实时字幕来辅助理解,解决歧义,从而拓展了在线观看的人群。第二,实时字幕可以让视频分发更专业,提升直播平台对场景生产能力的专业性,特别是针对一些电竞的专有术语,可以让入门级的用户能理解其字,由字生义,由义明字,从而提升游戏直播的体验感,引导更多的泛电竞受众。

英雄联盟实时字幕.jpeg

带有实时语音字幕的某平台 S10 直播

在游戏直播领域,该技术的输出核心在于,针对特定游戏场景进行特定的语音识别,并实时展示在直播流中,让分发端的观众可以借助字、音、画多维度信息理解视频内容。对于未来的游戏直播行业,它开创了游戏赛事直播的新玩法尝试,让直播实时语音识别的技术帮助大型赛事游戏更好的分发,对整个行业具有更多维的延展性价值。

在该项目的技术方案实践中,最核心的研发环节与攻克难点在于两方面:1. 语音识别的准确率;2. 字、音、画三者实时且同步,然后合成展示。在这两方面,视频云与达摩院整体协同并分别攻克。达摩院主要解决语音识别的准确率,通过特定游戏场景来训练模型,提高准确率;阿里云视频云提供全链路解决方案,进行客户直播流的接入、直播流的语音分离、调用达摩院的语音识别获取字幕、然后字音画同步、合成展示,最后分发。

2.png

对于实时字幕技术,阿里云视频云团队已早有深厚积累,起初,视频云实现的是实时插入字幕的功能,后来才逐步实现语音实时字幕,其与实时插入字幕有一个本质区别,即,实时语音字幕是一个字幕流,同时有一定的时效性,需要实时、字音画同步,且展示的时长机制不一样。

早在游戏直播场景的研发之前,阿里云视频云就曾成功研发全球速卖通(AliExpress)海外电商直播实时字幕项目,AliExpress 作为 “国际版淘宝” 的跨境电商平台,其使用的是阿里云视频云的导播台做实时语音字幕和实时翻译,进行多国多语种字幕展示,也是视频云与达摩院共同打造的世界上第一个多语言电商直播实时翻译系统。

在该 AliExpress 项目上,视频云团队已经积累了对导播台实时语音字幕的各种功能与稳定性的把控力。“所以这次 S10 赛事支持,我们仅需要后端更新游戏场景的语音识别模型即可,不需要额外投入开发。仅和平台用户对接,让用户的流接入我们导播台,开通实时语音字幕即可,然后输出给用户。” 阿里云视频云该项目的技术负责人表示。

精确地说,当前,S10 赛事的实时字幕技术,运用了阿里云视频云导播台成熟的实时语音字幕方案来提供该功能,S10 支持结束后,后续更多的游戏直播场景均可以更广泛地复用这套语音字幕的直播方案,包括优酷、B 站、抖音、快手这样的视频平台。

未来在大型电竞赛事直播上,阿里云视频云对实时字幕技术、实时语音技术领域,还有新的技术空间思考:1、需要进一步提升语音识别的准确率;2、在应用情景上还可做实时翻译,确保多国分发;3、实现更低的延时,目前是 RTMP 延迟 [3-5s],实际上可以做到更优质的 RTS 延迟 [1-2s],从而极大提升在线体验。

相较游戏直播、电商直播、或其他直播场景的实时语音字幕, 在技术逻辑的本质上是一致的,均是字幕的同步、合成和展示,但是,不同场景,语音识别的模型完全不同,比如电商有电商的专业术语,游戏有游戏的专业术语,同时还有一些领域俚语,所以,需要进行特定的语音识别模型训练以完成。

未来,对实时字幕(支持实时语音字幕的直播)技术的研发,阿里云视频云还有进一步的技术升级规划方向: 一方面,让用户的接入更灵活,字幕模型配置以及字幕的样式展示更方便;另一方面,支持更多的特定场景,提高特定场景的语音识别率,以此复用到更多具化场景的玩法尝试中。

总之,期待其后的英雄联盟 S10 决赛之巅。也许,通过实时字幕技术,更多的圈外人能轻松 get S10 赛事解说人准确无误的描述,从而一起融入热血的电竞文化。更期待阿里云视频云对更多场景、更多维度的技术探索,真正推动新内容与新交互的未来。

「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。

image.png

相关实践学习
一键创建和部署高分电影推荐语音技能
本场景使用天猫精灵技能应用平台提供的技能模板,在2-5分钟内,创建一个好玩的高分电影推荐技能,使用模板后无须代码开发,系统自动配置意图、实体等,新手0基础也可体验创建技能的乐趣。
达摩院智能语音交互 - 声纹识别技术
声纹识别是基于每个发音人的发音器官构造不同,识别当前发音人的身份。按照任务具体分为两种: 声纹辨认:从说话人集合中判别出测试语音所属的说话人,为多选一的问题 声纹确认:判断测试语音是否由目标说话人所说,是二选一的问题(是或者不是) 按照应用具体分为两种: 文本相关:要求使用者重复指定的话语,通常包含与训练信息相同的文本(精度较高,适合当前应用模式) 文本无关:对使用者发音内容和语言没有要求,受信道环境影响比较大,精度不高 本课程主要介绍声纹识别的原型技术、系统架构及应用案例等。 讲师介绍: 郑斯奇,达摩院算法专家,毕业于美国哈佛大学,研究方向包括声纹识别、性别、年龄、语种识别等。致力于推动端侧声纹与个性化技术的研究和大规模应用。
相关文章
|
11月前
|
项目管理
推出体育直播竞猜比分原始码,是如何推动体育直播领域迅速发展
互联网时代,体育直播领域正以惊人的速度迅猛发展,体育直播网络平台变成球迷观赛和跟踪体育赛事的重要途径。为降低行业进入壁垒,“东莞梦幻网络科技”推出体育直播竞猜比分原始码。这一个原始码解决方案为体育赛事直播领域带来了很多优点,主要包括减少开发周期、减少开发风险、降低行业壁垒等。下面我们就探讨这原始码是如何推动体育直播领域迅速发展。
|
12月前
|
编解码 算法
超越感官,沉浸赛场——大型体育赛事云上实战精选-第二章 NBA 总决赛:窄带高清的视觉渲染力 NBA赛事超清画质的背后:「窄带高清2.0」技术深度解读(下)
超越感官,沉浸赛场——大型体育赛事云上实战精选-第二章 NBA 总决赛:窄带高清的视觉渲染力 NBA赛事超清画质的背后:「窄带高清2.0」技术深度解读
164 0
|
12月前
|
机器学习/深度学习 编解码 人工智能
超越感官,沉浸赛场——大型体育赛事云上实战精选-第二章 NBA 总决赛:窄带高清的视觉渲染力 NBA赛事超清画质的背后:「窄带高清2.0」技术深度解读(中)
超越感官,沉浸赛场——大型体育赛事云上实战精选-第二章 NBA 总决赛:窄带高清的视觉渲染力 NBA赛事超清画质的背后:「窄带高清2.0」技术深度解读
204 0
|
12月前
|
编解码 人工智能 算法
超越感官,沉浸赛场——大型体育赛事云上实战精选-第二章 NBA 总决赛:窄带高清的视觉渲染力-如临现场的视觉感染力,NBA决赛还能这样看?
超越感官,沉浸赛场——大型体育赛事云上实战精选-第二章 NBA 总决赛:窄带高清的视觉渲染力
159 0
|
12月前
|
开发框架 API 开发者
蚂蚁图形互动引擎 Galacean 1.0 发布会来了!
蚂蚁图形互动引擎 Galacean 1.0 发布会来了!
262 0
|
编解码 算法 视频直播
服贸会在京举行|淘宝直播携手佳能佳直播联合发布《电商直播高画质开播指南》让品质直播触手可及
服贸会在京举行|淘宝直播携手佳能佳直播联合发布《电商直播高画质开播指南》让品质直播触手可及
177 0
服贸会在京举行|淘宝直播携手佳能佳直播联合发布《电商直播高画质开播指南》让品质直播触手可及
|
机器学习/深度学习 编解码 人工智能
优酷发布最大工业级超高清视频数据集,超分辨率算法大赛落幕
在这场算法挑战赛上,不仅有刚刚出现在 CVPR 2019 的最新算法,还出现了年仅 18 岁的获奖选手。
767 0
优酷发布最大工业级超高清视频数据集,超分辨率算法大赛落幕