弱网下的音视频技术-阿里云开发者社区

弱网下的音视频技术

2022-01-14 246

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 本文主要介绍弱网环境下的音视频技术点问题

弱网的场景

弱网与常规的互联网还是不一样的，常规的互联网对于极限挑战，已经是不错的。无论是直播、点播，基础设施、网络设备以及压缩处理技术等已经完全可以满足高清、超高清、多视点等需求了。但对于弱网来说，比如：应急救灾、远洋海事、无人图传、边防监控等，这些场景往往需要实时的通信，但这些场景下，依赖基站通信存在一定的自然原因可能会导致通讯受限，甚至中断。比如：大规模泥石流、地震等自然灾害。

极限通信架构

基于弱网实际的场景，以及实际存在的问题，南大实验室提出了一个极限通信的架构，主要体现在三个方面：

数据驱动
在线强化学习实现个性化
数据通信转向人工智能

数据驱动

从数十年的研究经验来看，从最基本的工程设计角度出发，来走向数据驱动，当然，这一点也被证明是可行的：比如：强化学习等来应用到控制网络带宽，视频编解码器等参数，这些参数都是比较复杂的。

在线强化学习实现个性化

当然，希望从数据驱动，可以再更进一步走向自动化、智能化，因为你无法知道接触的网络的变化，无法预计是什么样的分发存在。所以希望通过最新的在线学习的模型、策略等，实现端到端的视频通信。

数据通信到人工智能

大部分的视频通信，目前都是以数据通信的方式存在，例如：交换机等不知道数据到底是视频，还是图像，还是其它什么的。所以希望结合视频、图像内容，其本身在用户理解上，或者说语义层面上，真正从数据层走向人工智能。因为在用户感知中，即使视频丢失一帧，像素丢失，我们都可以通过补偿的办法给取回来。在网络最差的时候，我们是否可以在网络不能读取的时候，主动丢包，可以借助一些终端设备来处理。例如：一些比较流行的手机里包括芯片，这些芯片计算能力很强，可以在网络丢包时，终端给予补偿。我们前期在做一些测试：当把基于线性的模型推广到数据驱动的话，能把用户感知、视频通信感知的性能提升百分之十以上。同时，我们把离线的模型变成在线的模型，可以再次提升其性能。当然，如果在用户感知的角度主动丢包的话，可以予以提升。面临的困难是：如何把这些更好的部署到终端、网络节点、服务器上。

智能视频编码

对于大数据量的视频压缩与编码，这是很有必要的。那么，如何把压缩、编码做到最好，这是30多年来人们的一个追求。当然，这些年来，可以看到视频压缩还是有一定的进步。从MPEG-1到VVC、AVS3，有将近16倍的提升。

在最初，基于现有的理论，想通过人的理解系统，启发一个新的视频编解码系统。并且当时有相关的一些理论文章被提出。最后，考虑从生物视觉、脑视觉的角度出发，来做这一块的工作。

从工艺角度出发，随着现在工艺追求的越来越量级化，5纳米、3纳米，而且设备功耗、算力等成为最大的考虑。那么从2015年，谷歌开始研发自己的GPU。后续的话，苹果、华为等手机端也存在这种加速设备的卡。从工业上是可以这样做的，但其带来的牺牲是比较大的。

所以，现在研究的是，视频图像的内容，无非是人来看，或者是机器用。但都需要理解视频图像的内容，才能更好的决策。所以，看视频内容的时候，有时候是完成一种心理上的感应。比如：看悬疑、喜剧、恐怖等电影，有开心、快乐，也有悲伤。从人的角度，有视网膜，到中间的Nerve，再到大脑brain，相对应的初级视觉底层。这也是信息的局部抽取、分析、感知、理解。相对应的，我们称为机器智能的情况下，就监控而言，前端有相机Camera，连接上网络，通过网络会送到类似于城市大脑这样大型的计算中心进行一些决策。这样的一个系统过程，就类似于我们人的大脑信息的提取、传输，再到后面的心理决策，很直观。所以，我们可以从人的这样的一个理解系统来启发我们能否通过这样的方式来做。同时，我们也采纳了一些其他的材料，比如：国际上一些分支也在做这方面的研究。我们希望新的知识来帮助我们梳理、启发。在这种情况下，我们提出采用生物视觉或脑视觉来启发做这样的一件事。

回到基本的信息流，视频图像从人眼感知到视网膜成像，通过这样的pathway，到初级视网膜皮层，也会到其他的皮层，V2、V4、MT等。这才是一个完整的visual information flow，科学界也通过解剖分析这一系列的传输信息的过程。所以，我们想通过脑视觉、神经科学来做想做的一些事情。在历史发行的很多文章中，在六十年代，美国科学家提出，人眼视觉感知器，感知世界的时候处理大概是100MB/s，然后通过视网膜上的细胞，进行分离后，进入外侧系地层，大概压缩100倍：1MB/s，然后一系列细胞，再到V1初级视觉皮层时，只有40b/s。因为人眼关注的区域，分辨率会很高，不关注的分辨率会较低。把其放大10倍的话，现在最好的视频标准VVC，在广播的条件情况下，也是1000倍左右。同时，人眼对于图像视频是非局部的操作，因为人眼的扫视、转动，对于某些区域、颜色、形状会特别的敏感。这就是注意力机制，德国的一个博士早20年开始做，V1所呈现出来的跟这个注意力机制就非常相似，所以我们加了这个模块：nonlocal attention。后面的一些模块，跟V1之后，传输到更深层次的语义，我们设计成hyper，主要是帮助信息的重建与信息的提取。最后做成简单的端到端的对称，通过对称来提取信息表针。很有趣的是，这样的信息表针，不管是图像的像素，或者是多幅图像的运动也好，还是有运动的参差也好，都能很好的表达。所以我们称为：A Hypothetical Feedforward System with Feedback这样一个model，简称HFF。然后这个HFF对于像素都是一个完整的表达，这个model应用到视频压缩、图像压缩，结果还是比较喜人的。最近的图像压缩已经超过VVC的效果。

对于设计中，也存在一定的挑战，比如：视频的复杂度。之后提出了一种新的方式，基于脑视觉的方式与传统的视频压缩结合起来，主要是2个原因，性能方面，现在图像压缩已经超过了国际的标准，但视频压缩中还是略低。第二个就是现有的设备上已经有一些的存在，所以最有效的方法是，能否在已有的设备通过一些简单的net，这样让新的脑信息的启发处理实实在在的用起来，所以提出了新的方案：Performance/Complexity。这主要的概念是，人的大脑不会像解码器一样，只是部分的解析、最后更多是融合的过程。同时，人的细胞对于不同的图像特征的敏感程度是不一样的。

网络自适应传输

首先，通过的BBR去做码率控制的话，是比较有限的。所以，有一个思考：能不能把网络的trace、network变化作为一种方式来做强化学习，从而推出基于强化学习的视频网络自适应。学习国际上比较先进的经验，把这个应用到实时系统中，产生了离线ARS训练算法。当然，对比于当前先进算法BBR、GCC，提升12%左右的QoE性能。但是，这个过程也不是完美的演进，存在一定的缺陷。比如：离线训练的过程中存在样本受限，与实际环境不相符。在收集很多的网络模块，比如：4G的，那么对于5G的网络特征是否不一样。所以需要在线学习，在线学习就网络状况进行分类、视频分类的都需要进行处理。主要涉及到网络状况和视频内容的聚类、分类。这样，总算给出一个较优的性能。同时，会对于每个用户的信息进行一个新模型的提炼，当这样的状态与平均状态的区别太大时，就会使用新模型，同时，会自动部署训练，形成一个模型滚动方案体系。根据最新的演进，那么对比于离线学习的模型，在线学习的性能明显提升8.1%的归一化QoE。从离线的OffLine ARS，到OnLine的ARS，在内容上提升的性能还是不一样的，但大部分都有较高的提升。从离线学习，由局部的环境以及训练的资源受限，到在线学习时，实时的获取用户的信息源以及环境因素，可以很好的为新模型训练提供更多、更好的保障，这样训练出来的模型，可以更好的兼容实际情形下的环境因素等变化，同时，可以在新环境中，作为一些补充、完善来生成新的模型，是有利于实时网络模型训练的。

总结

弱网环境的主要问题有两个方面，一方面是带宽极低，其实也不是很大问题，只要网络平稳。那么就涉及到第二个问题，网络抖动。其实弱网不仅仅在应急救灾、远洋海事等，尤其现在5G上来后，频率变高，需要直线传输，当遇到许多阻碍的时候会带来网络的变化比较大，这种也称为弱网。当然，有时候，wifi下也会存在弱网的出现。面对带宽低，主要是信息量，提高压缩。面对网络抖动大，通过网络控制、机器学习来学习网络的状态。目前我们的研究还是比较领先于国际的，尤其是对于压缩编码。在现有的模型算法中，我们的性能有很大的优势。