带你读《2022技术人的百宝黑皮书》——基于机器学习的带宽估计在淘宝直播中的探索与实践(4)-阿里云开发者社区

带你读《2022技术人的百宝黑皮书》——基于机器学习的带宽估计在淘宝直播中的探索与实践(4)

2023-06-07 169 发布于辽宁

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 带你读《2022技术人的百宝黑皮书》——基于机器学习的带宽估计在淘宝直播中的探索与实践(4)

带你读《2022技术人的百宝黑皮书》——基于机器学习的带宽估计在淘宝直播中的探索与实践(3) https://developer.aliyun.com/article/1243296?groupCode=taobaotech

二是让 RL 算法在真实的动态网络场景中充分生效。理想情况下，一旦 OnRL 算法决定了发送速率，编码器需要按照同样的码率来产生视频流。然而实际情况是，视频编码器根据图像的动态程度、压缩策略甚至是设备的计算能力，影响自己的控制逻辑，造成与 RL 的码率决策的偏差。为了解决这个问题，我们将这个偏差输入给 RL 的神经网络，来调节它的反馈操作。

三是做到健壮地混合学习。一个强化学习的网络通过“尝试与犯错”来学习，这可能对系统造成干扰。尤其在训练早期阶段，算法可能会执行不正确的探测行为，而造成灾难性后果。为了应对这样的问题，我们设计了一个混合的学习机制，让 OnRL 在被判定为异常时，能够回归到传统的基于规则的码率控制算法，否则切换回 RL 的模型。为了实现这样的切换，我们设计了一个动态趋势预测算法，来辨别一种算法执行的表现优劣。我们甚至将切换行为算作一种对 RL 反馈的惩罚，来激励模型进化为一个独立而健壮的算法。

实验过程中，我们挑选了 151 位真实的淘宝主播进行了为期一个月的灰度，总计 543 小时的直播时长。灰度结果证实了在线训练的效果，QoE 相关指标得到显著优化，例如 OnRL 在保持视频码率持平的情况下，卡顿率得到 14.22% 的降低。

带你读《2022技术人的百宝黑皮书》——基于机器学习的带宽估计在淘宝直播中的探索与实践(5) https://developer.aliyun.com/article/1243294?groupCode=taobaotech

带你读《2022技术人的百宝黑皮书》——基于机器学习的带宽估计在淘宝直播中的探索与实践(4)

大淘宝技术

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

带你读《2022技术人的百宝黑皮书》——基于机器学习的带宽估计在淘宝直播中的探索与实践(4)

大淘宝技术

热门文章

最新文章

相关课程

相关电子书

相关实验场景