跨境电商直播实时字幕,如何做到 “实时”?

简介: 2020 的双 11 狂潮已然提早,年度氪金剁手大会已吹响号角。

比起往年,今年格外不同,天猫双 11 早在 10 月 21 日便揭起预售大幕,8 亿人蹲守淘宝直播,仅当日的李佳琦直播间,观看人次就突破了 1.5 亿,直至 10 月 31 日,连续长达 10 天的明星直播间和品牌商家总裁连麦均是亮点。

无疑,淘宝直播在双 11 期间发挥巨大作用,而电商直播已俨然成为标配输出,对大众而言,观看直播,是买货,是生活,是体验。

image.png

与此同时,跨境电商也参与到了直播带货中来。被称为 “国际版淘宝” 的阿里巴巴跨境电商平台 “速卖通”,面向海外买家,其平台商家也非常希望能更好地利用直播沟通把商品卖到海外。但直播时的语言成为一大问题,外国人听不懂我们卖什么,我们不明白外国人想要什么,这中间的 gap 很难在直播场景下融通。而实时语音翻译字幕,就打通了商家国外直播带货的任督二脉。

这项技术是由阿里云视频云与达摩院共同研发而成,以实时字幕技术和 AI 能力实现直播电商场景下的实时 “语言” 翻译,以 214 种语言的实时翻译字幕,大规模应用于此次双 11,掀起全球性的双 11 热潮。

image.png

阿里云视频云的实时字幕技术,要做到字幕与主播的语音、画面同步输出,才能满足直播时的翻译和理解需求。那么直播实时翻译字幕能否真的做到 “实时” 呢?答案是肯定的。
说起实时,肯定要谈论 “延迟” 的概念,一般延迟是指推流端到播放端的全链路端到端延迟时间。
当下互联网直播关于直播延迟的大概定义范畴如下:

  1. 延迟直播:20s 以上,一般是广电行业为了监播管控的需要,而做的故意延迟。
  2. 准实时直播:10s-20s, 一般使用 HLS/DASH 等切片流式直播。
  3. 实时直播:5s-10s, 一般使用 RTMP/http-flv 流式直播。
  4. 低延迟直播:2s-3s, 一般使用 srt 或者其它 UDP 等传输协议的流式直播。
  5. 超低延迟直播:1s-2s,比如阿里云视频云的提出的 RTS 直播,大概在 1s 左右的延迟。

直播的延迟和链路的传输协议有很大关系,当然也和链路每个环节的缓冲有关系,我们先看看端到端的链路,看看哪些环节可能产生延迟:

image.png

从上面的链路延迟图可以看到,理论上最小延迟可以在 500ms。如果减少云厂商内部链路,不走中心,比如上行和下行都是一个节点区域 (边缘节点),理论上可以在 200ms 左右。
而直播时 AI 翻译处理一般部署在中心,或者边缘节点,能否实时,就要看 AI 翻译引入的延迟链路了:

image.png

实际上就当前 AI 翻译模块是能够实时的,但是由于每个人说话的断句(停顿)以及语音的不标准以及重复冗余字符(比如额、嗯等等)等等各种因素,导致语音识别需要一定语音量缓冲和上下文环境理解,才能够识别字、词、短句正确。

而语音翻译需要根据识别后的文字进行翻译,一旦文字识别错误,(特别是同音不同字也不同义的)进行翻译后,会错的很离谱,当然翻译本身也是非常复杂的。

所以识别模型、文字处理模型、翻译模型都需要针对特定场景进行针对性训练。但是模型本身的计算不会引入多少延迟的,而另外两个延迟的引入是在字、音、画同步以及二次编码上,同时为了兼容某些语速较快的人,确保字符能够显示一定的时长,需要加些延迟。

可以依据整个链路延迟来看,AI 翻译直播的端到端理论延迟可以在 1s 左右,完全满足直播时翻译字幕对 “实时” 的需求。

回顾全球速卖通的实时语音翻译,是由阿里云视频云提供全链路解决方案,进行客户直播流的接入、直播流的语音分离、语音识别获取字幕、然后字音画同步、合成展示,最后分发。从而通过速卖通的跨境直播,让全球用户越过语言障碍,深度参与直播互动。

不仅是电商直播场景,包括游戏直播也可以加入实时字幕和翻译,如正在火热进行的 2020 英雄联盟 S10 全球总决赛,国内直播平台斗鱼,就采用了阿里云视频云云导播台的成熟的实时语音字幕方案进行直播,赛场解说语音通过 AI 实时识别转化为字幕,输出导播到直播画面上,全新提升直播游戏的观感体验。

阿里云视频云的实时字幕技术,早已完成产品化,并整合到了云导播台中。欲了解,可前往阿里云官网,搜索 “视频直播”、“云导播台”。

「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。

image.png

相关文章
|
语音技术 信息无障碍
直播源码搭建平台技术知识:实时语音识别字幕呈现功能
回到我们的直播源码平台开发上来,对于直播源码平台来说实时语音识别字幕呈现功能也是重要的功能之一,好了,正式进入我们今天的主题内容:直播源码搭建平台技术知识:实时语音识别字幕呈现功能!
直播源码搭建平台技术知识:实时语音识别字幕呈现功能
|
存储 缓存 监控
直播系统聊天技术(九):千万级实时直播弹幕的技术实践
疫情期间,线上演唱会是一种很常见的直播娱乐形式,由于线下社交距离的限制,线上形式演唱会比以往更火爆,而对技术的要求也更高。 本文基于网易云信针对TFBOYS某场线上演唱会的技术支持,为你分享千万级在线用户量的直播系统中实时弹幕功能的技术实践,希望能带给你启发。
410 0
|
消息中间件 编解码 人工智能
|
缓存 移动开发 边缘计算
淘宝拍照基于端云协同的视频流实时搜索实践
淘宝拍照基于端云协同的视频流实时搜索实践
287 0
|
Web App开发 移动开发 算法
关于 TRTC (实时音视频通话模式)在我司的实践 #78
关于 TRTC (实时音视频通话模式)在我司的实践 #78
352 0
|
Web App开发 人工智能 编解码
声网:如何自研支撑百万用户的毫秒级实时音视频系统?
大规模实时音视频(RTC)是疫情时代火热的在线课堂、直播、电话会议等的技术基础,但对于多数工程师来说,自研 RTC 系统的架构设计在客户端、服务端、运维、测试和质量监控上仍存在很多难点。因此我们整理了 QCon 全球软件开发大会(2021)北京站上,声网 Agora 行业架构师董海冰分享的三部分内容:RTC(实时音视频)的基础概念、场景及特点分析;自研 RTC 的架构设计和难点;展望 RTC 未来,帮你扣开实时音视频系统架构设计的大门。以下为老师分享的正文。(下文以董海冰老师第一人称叙述)
1000 0
声网:如何自研支撑百万用户的毫秒级实时音视频系统?
|
监控 黑灰产治理
直播平台开发干货分享——标准直播及快、慢直播的特性
 所谓自己做直播平台开发,要结合不同的应用场景,相对应的功能、硬件、软件配套技术也不同。根据应用场景的不同,自建直播平台可以分为标准直播、快直播和慢直播。本文将简单地为大家分析一下这三点的特性。
直播平台开发干货分享——标准直播及快、慢直播的特性
|
Web App开发 移动开发 缓存
【干货】跨端体验度量的思考与实现(含直播回放)
本文根据4月13日淘系技术前端团队出品的「阿里淘系用户体验优化前端实战系列直播」——《跨端体验度量的思考与实现》整理而成。
【干货】跨端体验度量的思考与实现(含直播回放)
|
人工智能 达摩院 自然语言处理
淘宝直播“一猜到底”——移动端实时语音识别技术方案及应用
过去一年淘宝直播快速发展,截止2020年9月底,80个淘宝直播产业基地在全国落地开花,从农村走出10万农民主播,直播真正意义上成为帮助商家和消费者完成交易的利器,同时通过各种互动玩法让直播购物变得有趣好玩。在2020年双11开始阶段,淘宝直播App升级了18年直播答题「点题成金」的玩法,推出「一猜到底」新玩法。如果说传统的直播答题是「选择题」,一猜到底的玩法更像是几万人同时在线的「抢答题」,将答题方式从文字选择升级成语音抢答,给出猜中价格高低提示,让用户增加了更多的参与的乐趣。
27015 0
淘宝直播“一猜到底”——移动端实时语音识别技术方案及应用
|
Web App开发 编解码 负载均衡
一对一语音直播系统源码如何解决音视频直播技术难点
直播作为实时性和互动性要求较高的音视频应用场景,存在非常多的技术难点,就连一对一的直播模式也毫不例外。比如低延迟、流畅性、回声消除、国内外互通和海量并发等问题,都是开发过程中的难点。但是,在开发过程中如果具备了优质的一对一语音直播系统源码,那么这些难点可能都会得到一定的解决。
一对一语音直播系统源码如何解决音视频直播技术难点