Salsify:高流畅度的实时视频传输新方式

简介: 与SVC不同,Salsify能即刻响应网络带宽的变化,从而调整视频帧的大小来避免网络拥堵,这样可以最大限度的保证实时视频流的流畅度。


与SVC不同,Salsify能即刻响应网络带宽的变化,从而调整视频帧的大小来避免网络拥堵,这样可以最大限度的保证实时视频流的流畅度。但这会带来额外的编码开销,并且由于没有硬件解码器的支持,Salsify可能只能在一些对视频流畅度有极端要求的场景下被采用。LiveVideoStack对原文进行了编译。


文 / Nadine Krefetz

译 / 纵一苇之所如

审校 / Ant

原文:

http://www.streamingmedia.com/Articles/Editorial/Featured-Articles/Re-Engineering-Real-Time-Video-Delivery-125300.aspx


斯坦福大学的一个科研项目——Salsify已经可以为实时通信应用(比如电话会议)提供更好的视频传输方式。


他们没有创建新的视频格式,而是创建了一种用于实时视频系统的新架构。Salsify并没有使用现有的两个独立控制环路的方式(其中一个用于传输,另一个用于视频编解码器),而是将他们连接成一个统一的控制环路来共同管理传输和视频编解码器。


视频编码器目前就像一个黑盒子——编/解码功能将视频转化成适合传输的大小,之后用传输协议进行视频的分发。Salsify项目使得整个系统对可用带宽的变化响应更加快速。从理论上讲,Salsify会带来更好的整体体验。


当前的传输方式


目前的视频传输框架,视频编解码器和传输协议各自独立运行,导致视频流对于网络来说可能太大或太小。斯坦福博士候选人和Salsify项目成员Sadjad Fouladi希望所交付的视频适合网络状况,从而减少故障和连接丢失,并减少缓存。


他们创建了一个实时视频系统,能够快速响应不断变化的网络状况并避免拥塞和故障。Salsify会根据当前网络容量的估算值来提供在这种情况下可以交付的视频帧。


他们的研究项目与FaceTime,Google Hangouts,Skype和WebRTC在谷歌浏览器中的参考实现相比,无论是否支持可伸缩视频编码(SVC),都能实现更低的视频延迟和更好的视频质量。对于视频会议,远程医疗或其他对视频传输延迟比较敏感的实时通信而言,低延迟比实时流式传输更为重要。


Fouladi说,“很多人在视频会议中遇到过连接不畅以及视频质量较差的情况,我们认为问题不在于编解码器,也不在于传输,而在于这些组件的集成方式。但是这些系统的整体性能并没有得到太大的提升,所以我们认为现在应该为整个系统建立新的架构,而不是改进单个组件。”


低延迟


Fouladi说,在诸如Skype的产品或WebRTC的协议中,传输协议不能很好地控制流。即使现在由于连接不通或网络拥塞不适合发送数据,传输协议仍然需要发送已经编码的帧。


目前的传输协议对传送给视频编解码器的网络速度有一定的估计。单帧的输出大小通常低于或超过估计的网络速度。如果该帧太大或太小,则会通过调整下一帧进行补偿。


在大约十到二十帧的过程中,它达到了平均网络速度。所以虽然理论上自纠正机制可行,但实际上一个比较大的帧仍然会导致拥塞和丢包,这将导致流延迟。此外,仅在平均水平上达到一定码率会使系统对网络变化反应迟钝。


底层


Salsify只关注下一帧的大小,而不是像之前编解码器那样根据平均比特率来进行编码。它的目标是确保没有任何视频帧会导致网络中的丢帧和拥塞。Salsify不是预估编码参数,而是为每个视频帧编码两个质量略有不同的版本,然后选择适合网络条件的版本并随时进行调整。“通过这种方式,传输过程可以对视频进行逐帧控制,并且可以更快地响应不断变化的网络条件。”Fouladi说。


Salsify的功能性视频编解码器为视频编解码器提供了一个保存/恢复状态的接口,使其能够更加方便地执行不同的参数配置,从而为传输提供了一个选项菜单。在传统的编解码器中,如果一帧被编码,它就成为了视频流的一部分,并且必须被发送,而在Salsify的编解码器中,该帧可以被丢弃并且旧状态可以恢复。


 “所以在这种情况下,如果网络出现故障或者发生了非常糟糕的状况,那么即便编解码器已经编码出可用帧,传输端都可以停止发送,以避免造成更严重的拥塞”,Fouladi说。与FaceTime,Hangouts,Skype和WebRTC相比,该项目使用该团队自主研发的VP8编解码器,平均可以带来4.6倍p95-delay的降低,以及2.1 dB SSIM的提升,并且有更高的主观质量。




Fouladi说,“现在我们可以访问黑盒子的内部,而且可以设计更复杂的系统,可以做更多的事情。我认为这个项目的目标之一是展示具有这个接口的好处,并说服编解码器设计者和实现者在未来的编解码器中包含该接口。”


Salsify开源编解码器仅限视频(无音频)。该项目是基于软件的编解码器,而且为每一帧编码两个版本会明显增大计算开销。为了在硬件上实现,他们将有与AV1一样漫长的道路要走,因此为了Salsify的实际应用,需要有更加创造性的思维。虽然他们面临很多挑战,但Salsify团队已经制定了一种方法来解决长期存在的问题。


更多信息请参考https://snr.stanford.edu/salsify。


LiveVideoStackCon 2018讲师招募



LiveVideoStackCon 2018是音视频技术领域的综合技术大会,今年是在10月19-20日在北京举行。大会共设立16个专题,预计邀请超过80位技术专家。如果你在某一领域独当一面,欢迎申请成为LiveVideoStackCon 2018的讲师,让你的经验帮到更多人,你可以通过speaker@livevideostack.com 提交演讲信息。了解大会更多详情,请点击『阅读原文』访问LiveVideoStackCon 2018官网,即刻享受6折优惠。

相关文章
|
25天前
|
存储 编解码 API
【视频花屏问题】解码天书:深入理解视频流花屏现象及其解决方案
【视频花屏问题】解码天书:深入理解视频流花屏现象及其解决方案
74 5
|
3月前
|
编解码 网络协议 Android开发
平衡操控应用场景探讨及RTSP技术实现
平衡操控应用场景探讨及RTSP技术实现
|
9月前
|
编解码 监控 数据安全/隐私保护
国标GB28181协议客户端开发(三)查询和实时视频画面
国标GB28181协议客户端开发(三)查询和实时视频画面
332 0
|
9月前
|
编解码 C++
基于Live555实现RtspServer及高清高分辨率和高码率视频传输优化
基于Live555实现RtspServer及高清高分辨率和高码率视频传输优化
381 0
|
边缘计算 编解码 CDN
语音直播平台,如何保证低延迟的音频传输
语音直播平台,如何保证低延迟的音频传输
|
Web App开发 监控 算法
详解 WebRTC 高音质低延时的背后 — AGC(自动增益控制)
本文将结合实例全面解析 WebRTC AGC 的基本框架,一起探索其基本原理、模式的差异、存在的问题以及优化方向。
详解 WebRTC 高音质低延时的背后 — AGC(自动增益控制)
|
机器学习/深度学习 Web App开发 编解码
|
Web App开发 移动开发 编解码
移动端法门:自适应方案和高清方案
笔者从毕业开始做前端到现在,90% 的项目是移动端打交道,所以当简历上写了“移动H5”几个字时,必会被问到自适应方案与高清方案
647 0
移动端法门:自适应方案和高清方案
|
人工智能 自然语言处理 算法
【技术揭秘】可控时延语音识别文本后处理技术
自动语音识别 (ASR) 原始输出的文本不含标点,且口语的ASR识别结果通常包含大量不顺滑的短语。随着自动语音识别(ASR)技术的广泛应用,以标点预测和顺滑检测为代表的语音识别文本后处理技术越来越受到重视。文本后处理技术能提升语音识别输出文字的可读性。此外,ASR的下游文本处理应用,包括机器翻译、对话系统等等,通常开发在顺滑和含有标点的规范文本上。因此,文本后处理技术还能提升下游任务的性能。本文将揭秘阿里语音AI原创的可控时延后处理模型CT-Transformer。
【技术揭秘】可控时延语音识别文本后处理技术
|
机器学习/深度学习 存储 编解码
基于内容的自适应视频传输算法及其应用
本文内容来自LiveVideoStack线上分享第四季第二期,由湖北经济学院副教授,胡胜红博士为大家介绍如何基于内容分析技术,从用户需求角度标注视频流重要性级别,构建自适应流传输策略,实现语义级QoE优化目标。
495 0
基于内容的自适应视频传输算法及其应用