文 / 阿里巴巴资深技术专家 心石 策划 / LiveVideoStack
LiveVideoStack: 大家好,我们现在在阿里巴巴北京的办公室,坐在我对面的是心石,他是LiveVideoStackCon2019北京音视频大会“超高清视频”专题的出品人。 接下来,我们将聊到多媒体技术生态的现状与机会,优酷在相关技术上的创新,以及作为一名技术人的成长故事。
心石: 大家好,我是心石。 2009年加入阿里巴巴,之前一直在做无线电商方面的业务和技术,沉淀了比较多的经验,在2016年双十一过后,接受组织任命,负责优酷的整体视频技术。 今年是我加入阿里的第十年。 在业务、技术和职业发展方面都有很多感悟。 阿里巴巴的整体技术发展很大程度上得益于业务的高速增长。 从主营的电商业务可以看出技术的发展脉络: 从主干技术的建设到体系化的健全,由规模扩张延伸到对用户体验的精细化提升,再到持续缩短和优化交易链路,以及探索交易品类的多元化和交易全流程的一体化。 再之后阿里巴巴提出“五新战略”,使得线上与线下联动,消费场景和品类进一步拓宽,IoT和数据规模持续扩大,包括AI相关技术的引入,整体的技术边界在快速拓展。
LiveVideoStack: 淘宝从零到亿级的交易量、技术积累以及工程的提升,我相信这是阿里巴巴的优势,这些方法可以复制到下一个产品当中。 您刚才也提到视频业务与电商业务存在很大的不同,这其中有哪些经验和积累是可以在优酷上复用? 又存在哪些新的挑战?
心石: 优酷相当于阿里巴巴新的赛道。 与电商业务相比,优酷所需要的关键技术和前沿技术布局,本质上是相同的。 在我看来,可借鉴和复制的技术能力有两点:
1)阿里巴巴在做各领域业务时,技术的关键突破点都是对规模的支撑,我在手淘得到的技术训练都是针对大规模的用户和数据做业务支撑,这部分历练和积累在优酷也同样适用,包括目前优酷呈现给市场是以App形态为主,在千万级用户同时在线的场景下,如何让消费者更人性化的使用产品,内容分发、内容查找和匹配的技术是一致的。 2)移动App本身的架构,包括底层关键的工程和成本上的方法是在之前手淘业务上的延展。 比如,App的快速迭代,这是技术团队所呈现的核心竞争力之一。 目前阿里巴巴有比较完善的研发工程体系,能够保证版本迭代达到周级别,这既要实现产品功能又要保证用户体验,这些能力是很多中型公司很难具备的。 在周迭代基础上,我们可以对已发版本做热修复,使功能和策略及时的应对市场变化。 说到不同,手淘与优酷的差异点更多体现在消费场景中。
优酷的产品核心是视频内容,其生产、分发、消费以及交互与电商存在很大差异。 电商的生产更多呈现一种“线下实体商品的线上数据化”,而视频是精神产品通过编码技术落地成视频文件,最终以流媒体的形式分发给用户。
第一部分在生产存储环节 。 在大规模用户的基础上进行分发,首先要保持合理的存储方式,同时在各环节做好成本控制。 视频业务的最大成本构成是带宽,带宽与流媒体产出体积相关。 所以,在制作环节如何使用更高效的技术把诸多视频内容做存储,直接关系到后续分发、消费和检索。
第二部分在分发环节 。 合理分发的关键是抽取待分发内容的关键特征、抽取用户特征与偏好,再将两者做智能匹配,同时为用户留有探索空间,针对这个环节我们采用人工运营和个性化分发:
1) 人工运营考验的是在后台有比较高效的人工运营平台,对内容进行高效检索标注,对分发环节做配置引导。
2) 算法分发,利用算法从视频中抽取出关键元素,建立视频与视频之间的关联。 算法之下是推荐和搜索,都需要对视频做内容理解和标准工作。 优酷针对视频分发环节建立了庞大的内容知识图谱,不仅针对视频内容本身,还包括对图文以及结合阿里巴巴的相关商品检索数据,这些能帮助我们更好实现算法分发,提升人工运营效率。 第三部分是消费环节 。 消费环节一是把内容放在CDN上,用户检索到内容后通过拉流进行消费,另一个是在播放器中的解码、渲染和播放。
前者在大的用户场景下挑战较多,视频消费的最大成本是带宽,我们尽量在离用户最近的地方进行内容分发,既增强用户体验,又最大化降低成本。 我们与阿里云合作,将优酷整体的CDN节点做了大量的改造整合,包括对调度算法和拓扑图的重构,能够在地市级别基于用户位置和内容进行合理的预推和投放。 用户在获取内容时,结合端侧技术实现视频快速起播、视频渲染效果、业务繁忙期调用资源保证用户体验,以及让低端设备享有同高端设置趋于一致的播放体验,这也涉及到终端和云端的联合计算技术。
LiveVideoStack: 在《街舞2》、《长安十二时辰》中优酷都应用了哪些超高清技术?
心石: 《街舞2》和《长安》在制作侧就比较精良,源头介质本身就得到了比较高品质的保障,在数据优的情况下如何为用户提供更好的观看质量,《街舞2》和《长安》的策略还是有差异的。 《街舞2》的运动场景居多,例如街舞动作的快速变速,按原始拍摄数据呈现就可能有问题。 为了让用户有“亲临现场”的视听体验,我们在后处理阶段运用了帧率转换技术,包括提高帧率和对高速运动场景做后处理增强。 《长安》更多是从2K到4K、由SDR到HDR的转换工作。 区别于市场上大多数公司的HDR实现方式,即“对原始介质进行后处理的效果增强”,优酷已经提前进入第二个阶段,即结合终端算力与终端特征,将部分HDR计算结果移植到终端上,让视频显示效果在更低端的设备上同样出色。
近期,我们也针对市场上主流的一千款设备做了颜色和亮度匹配,这些基础工作让优酷在视频超高清渲染展现方面占得一些优势。
优酷对于超高清技术的视角不仅局限于画面本身,沉浸式体验是包含视频和音频的完整体验。 所以在音频上,我们与MPEG-H合作,比如对手机做两声道转换为环绕立体声的算法增强。 在《街舞2》、《长安》中我们也对音频做了很多工作,使得用户的超高清体验是比较完整的。
对于介质本身,我们制定了严格的传入标准。 这是目前行业内实现“高标准”超高清的重要卡口。 如果没有卡口,仅对低质量数据进行算法增强,画面依然会严重衰减。 借助新的准入标准,我们也有机会反推制作环节,提升拍摄设备和转制品质。 但拿到数据后还是有画面瑕疵问题,针对这种情况优酷已经有完备的后处理和画面修复技术。
LiveVideoStack: 目前大部分的片源还是720P和SDR,这些片源要变成超高清或者沉浸式全景声片源,其中最大的挑战是什么?
心石: 市场上所看到的4K内容,很多是将2K甚至720P的视频通过简单的插值算法转换成4K,4K的整体品质达不到标准。
优酷面临的挑战有两点:
1)市场上充斥着大量1080P甚至720P数据,如以此为基础进行分辨率转化,本身质量就较差。
2)转制之后,在不同的高中底端设备上的显示效果也有差异。
优酷的解决方案是:
1)技术团队对片源介质进行去噪和修复,通过基于深度学习的帧间预测方法,包括对不同品类的内容使用不同的去噪增强模板。 模板首先对帧间进行时间和空间预测,以及去噪和增强,之后在单帧上采用传统的滤波方式对有效信号进行增强与去噪。
2)在这之后才会进行真正意义上的转制工作。 预处理过程会大大增强转制效果,且是必不可少的。 因为市面上高品质的4K视频内容还很少,很难在短时间内有质的突破,所以行业内的公司多在1080P/2K转4K上投入大量的技术工作。
LiveVideoStack: 近几年移动视频的业务发展迅速,你看到了哪些趋势?
心石: 我首先想到的是从PC到无线的大变迁。 印象特别深的是移动端兴起时,关于H5和Native有特别大的争论,大家都设想基于HTML研发框架,实现快速开发和比较好的用户体验。 到目前为止,大家都认为用H5作为跨端的产品解决方案是一个美好故事,而商业实践证明了分端化定制才能提供最好的用户体验。
AI带来产品体验和技术方法的变革 。 深度学习在各个模型上越来越成熟,特别在视频上,从生产到后处理、增强和修复技术,再到消费侧的互动等方面,AI介入的程度都越来越深入。 随着数据规模的攀升,整体的智能化趋势越来越明显,那些重复和低质的研发工作在未来都可能被AI替代,日后的技术工程师也可能只分为两类:
1)新技术研究和探索型工程师。
2)业务形态实现工程师(高维业务流程组织和编排),工作方式也会发生改变。 万物物联也是一个确定的大趋势 。 目前5G对于线上互联网应用感知还不明显,但在工业方面的改变已经显现。 5G真正落地后,相信会带来更多改变。 所以AI和万物物联,是我目前认为在未来行业中比较大的发展趋势,无论优酷也好阿里巴巴也好,都在针对这两个大趋势做布局和技术工作。
LiveVideoStack: 具体到AI和5G优酷有做哪些布局和准备工作?
心石: 从目前趋势看,5G无论是技术还是业务方面最大收益方是运营商,基础建设存在大量工作。
优酷更多是应用商角色,在5G基础上构建一个新形态服务。 5G是一个新时代的技术,它的突出技术特征就是高带宽、低时延和多连接。
优酷在5G下的业务大致分为三种类型:
1)在5G加持下得到增强型体验的业务。
2)跨域融合,在5G的高带宽和多链接的技术特征下,将不同的消费产品进行融合。
3)面向未来,在5G技术下做创新突破的业务。
4G在2013年开始大量铺设服务,大概到2015年4G的市场达到50%,像映客、抖音等新形态的应用随之崛起。 所以我们大概有个判断,在5G服务覆盖达到50%左右时就会有新业务形态出现,预估的时间点是2021-2022年之间。
在时间线上,优酷结合 业务场景做了 相应布局:
1)优酷是视频消费场景,在增强部分特别明确的业务就是超高清,市场上也有很多分辨率非常高的设备,这也是所有视频消费厂商都在做准备的部分。
2)组合增强方面。 阿里文娱有着丰富的内容,比如大麦网主要聚焦线下会场票务,优酷可以在5G下对现场直播、云制播、VR直播等组合业务做探索。
3)在创新方面,当前的视频更多是“只读式”或“线性”的消费模式,5G带来高带宽和低时延的特性让我们有机会给消费者提供“高速均量”的视觉产品。 所以,在立体视觉上优酷也做了很多布局和尝试。
大家比较熟悉的立体视觉是VR产品,但VR产品本身存在局限性,内容产品也比较少,所以优酷除了自研完整的VR生产技术链条,在全视角、6DoF相关的立体视觉方面也有尝试。 另外,也在关注超前的新型视频,比如多触觉、高可交互的未来视频形态,这些部分受限于带宽和时延还无法大规模商用,但5G为这些技术的实现提供更多可能性。 在5G时代到来前,优酷在以上三方面都做了部署,目前集中在视频增强(超高清)部分。
LiveVideoStack: 优酷作为一个文娱公司,在有关于设备显示的问题上都做了哪些具体的事情?
心石: 大致分为两个部分:
1)优酷会采购大量设备,同时与行业内的电视机、设备厂商合作,获得大量的测试样本,做各色域的SDK。 再由厂商基于定制化的测试视频进行播放验证,在不同色域上显示,再通过校准将参数固定下来。
2)同一内容在不同设备上渲染显示时,就会根据调校后的参数进行整体色域输出,保证显示效果不会由于设备本身的“高中低端”而有明显区别。 同理在移动端,优酷也采用同样的方案。 这些实现是基于大量底层工作,包括适配、校准和新机型的跟进,最终使用户体验趋于一致。 国外Netflix对内容本身有非常强的控制力,这很大程度上得益于它制定的标准对准入内容有很多控制,而在国内这几乎是空白的,所以我们在尝试做类似工作。 现在产业内对输出渲染端有一定的准备,例如4K电视设备。 但有些4K电视是不达标的,加之4K片源也很少,当一个质量很差的内容在不达标的4K电视上播放,用户就会产生4K效果不过如此的感觉。
所以,目前优酷在超高清的突破点是,提升“质量较差片源”的4K渲染效果,为用户带来普惠的4K输出。 在此过程中,我们也有机会反推产业链上游,提升整体画质内容。
LiveVideoStack: 在创新部分,之前讲到生产、分发和消费的问题,有关视频的交互形式上目前有什么新计划?
心石: 优酷最近上线了“酷看”功能,在播放过程中,通过用户交互发现视频中的精彩环节和讲解,让用户“边看边X”。 比如,边看《街舞》边投票、边看《长安》边看百科tips、边看《猫晚》边抢红包雨等等。 还有在体育栏目中上线6DoF,进球之后往回拖拉2分钟就可以对赛场进行整体观看,包括更个性化地选择观看视角和轨迹。 这些都是在积极准备更多的交互形式给到用户。
LiveVideoStack: 虽然我并没有在阿里工作过,但许多阿里的朋友提到阿里有很强的企业文化,比如“复盘文化” “花名制度”......在这样的文化下,你最大的变化是什么? 在管理自己的团队的过程中,文化起到了多大的以及怎样的作用? 阿里的技术氛围,对技术人的要求有何特别之处? 什么是“阿里味”? 对管理团队和推进项目,技术创新,有什么价值?
心石: 阿里有1年香、3年醇、5年沉的说法,就是时间越久你身上的“阿里味”越浓,尤其对于5年甚至10年的老员工,可能是融入到骨子里的气质,而且阿里文化确实有比较强烈的特征。
阿里巴巴在商业上取得现在的成功,很大程度上是由于我们以结果导向、目标驱动来做事情。 目标驱动往下落更多是KPI文化。 其实实施KPI的公司很多,KPI制度本身也不高深,关键在于你定义了什么样的目标。 特别对于阿里巴巴越高维的事情,其目标的制定非常具有艺术性: 既能达到很好的商业结果,也能驱动团队提升每个人的能力 。 结果导向、目标驱动是阿里巴巴企业文化中比较重要的特征。 第二点是简单。 阿里对于沟通和协作更推崇简单高效。 阿里巴巴所进入的商业领域非常多、非常新,不少新加入的同学会发现,怎么有些流程不是很完备,或者应该有一个这样或者那样很复杂的规则来支持事情发展。 但其实有时候还真没有,但我们同样完成目标,这是因为“阿里老人”能用简单高效的方式去完成。 目标聚焦,沟通和协作都很简单,最重要的是达成目标。 所以简单高效也是阿里巴巴企业文化中比较突出的一环。 第三点是乐于分享,这也是阿里文化特别不一样的地方,包括面试和行业同仁交流会发现,向阿里巴巴这样乐于分享的公司是比较少的。 我们以前参加技术论坛,除了商业机密,会与大家分享很多东西。 包括内部的工程师文化和工程师骄傲这种氛围非常浓厚,如果你不懂一个技术,只要找到一个负责人甚至一线员工,都会得到很好的反馈,这也是我觉得特别难得的地方。
LiveVideoStack: 在阿里巴巴十年,有哪些令你印象深刻的事?
心石: 阿里巴巴对我来说是一个非常特殊的地方,但凡一个人在一个地方呆上十年,就有会特别的感情和感受。 我简单分享下这十年的转变吧。 首先在早期我们更关注个人能力,比如编码和具体设计能力的提升。 到中间阶段,随着负责的业务和技术难度越来越高,在时间分配和最后方案的达成过程中,很难每一个单项都亲自参与,所以你会投身到核心重点部分,仍旧享受技术细节的乐趣。 再后面你需要考虑技术方向和技术布局。 这是很自然的事情,随着你承担的责任越来越大、负责的事情越来越多,不做出这样的改变就很难完成越来越大的事情和组织依托。
————————————————
版权声明:本文为CSDN博主「LiveVideoStack_」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/98690616
「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。