带你读《2022技术人的百宝黑皮书》——基于机器学习的带宽估计在淘宝直播中的探索与实践(5) https://developer.aliyun.com/article/1243294?groupCode=taobaotech
虽然顶层的设计思想比较简洁,但 Loki 仍需要解决两个关键的挑战。
一是如何使基于规则的算法和基于学习的模型兼容,更进一步地说,是可混合的?前者可以由硬核的“如果-就”条件语句来实现,而后者就要求基于神经网络的黑盒表现形式。前者的工作更多是时分复用地使用这两种算法,而 Loki 实现了更深层次的融合。Loki 将一个白盒的基于规则的算法(例如 GCC),通过定制的模仿学习网络模型,转化为了一个等价的黑盒神经网络模型。这样,两种算法才变得可兼容,且能在“特征层面”而非决策层面实现共用。
二是如何保证“特征层面”的混合可以真实地保留基于决策的算法和基于学习的算法的优势?为此,我们设计了一种双权重的特征混合机制来达到这个要求。详细来讲,Loki 把两种神经网络模型的训练后的高层次特征作为一种置
信系数。两种算法共同决策期间,他会给能达到更优 QoE 的特征集提高优先级,给予更大的权重。为了实现这样的权重机制,我们将一个基于时下顶尖的强化学习算法模型,内置于淘宝主播端进行交互式训练。最终 Loki 演化为一个可靠的,可以应对新环境的独立的模型。
最终,我们将 3 个时下顶尖的解决方案(GCC,OnRL,Orca)应用在淘宝主播中,作为基线对比。相较于基线,Loki 平均降低了 13.98%-27.27% 的卡顿率,并将视频质量提升 1.37%-5.71%。同时,Loki 大幅减少了长尾占比,例如,95分的卡顿率降低了 26.3%-44.24%。通过减少长尾占比,相较于 GCC,Loki 也使得观看时长得到了 2.62%-4.68% 的提升。前期的验证工作结果表明,观看时长最终会转化为可观的商业价值。
带你读《2022技术人的百宝黑皮书》——基于机器学习的带宽估计在淘宝直播中的探索与实践(7) https://developer.aliyun.com/article/1243292?groupCode=taobaotech