从虹软、思科再到唐桥,章琦一直在关注视频编解码和实时通信开发。作为架构师,他认为软件设计和下围棋一样,都是“简单细胞组合成复杂艺术作品”的真实体现。LiveVideoStack邮件采访了唐桥科技首席架构师章琦,畅聊了自己成长的过程,以及对多媒体技术生态未来的看法。
策划 / LiveVideoStack
LiveVideoStack:章琦你好,能否简要介绍下自己,包括目前的主要工作及关注领域?
章琦:我毕业于浙江大学数学系,研究方向为数字图像处理。毕业后的第一份工作是视频编解码器的开发,有感于编解码器之外的技术世界的瑰丽,于是辗转于编解码器之上层技术应用。目前的工作是为唐桥科技设计下一代实时音视频通信系统以及衍生于此系统之上的行业应用。关注领域包括视频编码解码技术,实时通信,QoS,实时语音处理,人工智能,现实增强,虚拟现实等。
LiveVideoStack:您怎么理解架构师这个岗位?
章琦:架构师承担了企业中的技术方案制定,架构设计,未来技术战略规划等职责,看起来虽然抽象,实质上跟普通的程序员并无区别。对于架构师而言,最大的成就莫过于以简单的结构,解决了现实中的复杂问题。每个程序员也在做同样的事情,无非是规模不同而已。我很喜欢程晓流在《围棋发阳论新解》中的一句话:无论结构多么复杂的艺术作品,都是由许多简单的细胞组合而成。晶莹的水滴固然澄澈无奇,它们一旦汇集起来,大海的波涛又将是何等的瑰异绮丽。软件设计领域, 同样如此!
LiveVideoStack:从虹软,思科,再到唐桥,一直没有离开多媒体开发领域,究竟有什么原因让你不离不弃?
章琦:能坚持的唯一的原因就是兴趣。
LiveVideoStack:虹软和思科都是非常令人敬佩的公司,能聊聊在这两个公司的难忘的经历吗?
章琦:虹软是我硕士毕业后的第一份工作,从此起步开始学习视频编解码的算法和处理器相关的优化。我能在多媒体开发领域工作至今,很大程度是托了虹软的福。我在虹软工作的两年,公司和领导给了我非常宽松的环境和给力的支持。我在虹软负责H.264 Codec开发的时候,技术方案的选择上跟美国的大Boss有分歧,本地的Manager请我按照自己的想法继续设计和实现,所有的压力由他承担。至今想来,仍觉感激。
思科是一家伟大的公司,我在实时通信领域所学习到的知识,大多是源于在思科的经历。思科的同事中藏龙卧虎,技术大牛非常多,甚至能遇到业内顶尖的高手,和他们共事,向他们学习。
LiveVideoStack:对于那些非“科班”出身的多媒体开发者如何更好的入门、深入学习,您有哪些建议?
章琦:我也是非“科班”出身的开发者,我曾和不少算法领域和应用领域的开发者有过交谈,一个常见现象是: 算法领域的工程师轻视应用,应用领域的工程师则觉得算法设计非常高大上,难以学习。实际并非如此,除了极少数开拓性的研究工作之外,绝大多数的技能都是普通人可以学习并精通。其关键还是在于保持专注,并能沿正确的方向坚持下去。至于如何寻找正确的方向,现在互联网上的资料非常多,基础学科可以看公开课,比较推荐网易公开课。深入的领域则寻找业内评价高的开源项目以及相关资料学习。
LiveVideoStack:能否描述一下您典型的一天的日程?几点入睡,几点起床?
章琦:一般早晨7:00起床,12:00之前入睡。除了工作之外,还喜欢阅读,喜欢读的书除了技术类,还有历史,数学,围棋,国学等等。还有一个日程是陪孩子玩,在孩子身上,似乎找到了过去的自己。
LiveVideoStack:回顾过去十多年音视频通信技术的发展,取得了哪些突破?当下还有哪些难点需要业界共同探索的方向?
章琦:视频编码技术从H.261,MPEG2(H.262),MPEG4/H.263,H.264/VP8,H.265/VP9/AV1,每一代编码标准的更新,就带来RD(码率失真)性能的极大提升。以AEC为代表的语音处理算法也有了长足进步,网络带宽预测/丢包补偿等技术在现在的实时通信领域得到了成功应用,未来结合当前的深度学习和自适应算法,进一步提升编码算法的效率(H.266等),音视频质量增强(SR,deblur,denoise等),内容分析,识别处理等,更准确的预测网络变化,效率更好的回音抑制算法(non-linear adaptive filter)等等,如何将AR/VR跟实时音视频通信相结合等等, 都会是我们需要共同探索的方向。
LiveVideoStack:5G、4K乃至8K高清,给多媒体开发生态带来了哪些机遇和挑战?
章琦:多媒体生态的发展离不开硬件设备的成熟和基础网络的建设,随着5G时代的来临,可以预想到的是用户接入网络带宽的提升和流量费用的进一步降低,使高流量的4k甚至8k,VR视频应用成为可能。用户体验的提升伴随着网络带宽需求的上升,可以肯定是,网络带宽永远是不能满足需求的。所以,视频编码的RD性能能否进一步提升,网络QoS算法是否能更加准确的估计网络带宽,在弱网下能否提供平稳的用户体验会是永恒的挑战。
LiveVideoStack:展望未来,您看好哪些新兴行业或应用场景将会重度使用音视频通信技术?
章琦:新兴行业中IoT,自动驾驶,机器人等等都需要依赖于音视频处理及通信技术,传统行业比如教育,医疗,零售等也会越来越增加与音视频通信技术的粘性,从而拓展出丰富的增值功能。
LiveVideoStack:您看好哪些新兴的技术(如区块链、AI等)与多媒体行业结合带来新价值?
章琦:对区块链了解不多,就谈谈AI技术吧。AI最有可能为多媒体行业带来新的增长点的新技术,基于语音、视频内容的分析识别,基于深度学习的质量增强算法等等,除了会改变多媒体应用本身,还会让多媒体技术跟新兴行业和传统行业融合,衍生出丰富多彩的行业应用。此外,AR/VR技术的成熟,也势必能激发出新的应用类型和用户体验。
LiveVideoStack:您如何看待WebRTC对行业的影响?相对于一些成熟的私有协议(如Zoom,WebEx等),WebRTC的短板是什么?
章琦:在2011年WebRTC未开源前, 实时音视频通信系统的搭建的技术门槛非常高, 能自己独立研发这个系统的公司屈指可数。WebRTC的诞生及演进,不仅仅为浏览器应用生态增加了多媒体功能,而且大大降低了企业自主研发音视频通信系统的难度,现在的国内的多媒体研发的火热局面,WebRTC功不可没。但是相比Zoom、WebEx这些成熟的系统,WebRTC仅仅是一个实时音视频通信的引擎,不包含信令系统,也无法直接应用于多方会议系统,很多功能是缺失的,开发难度依然不小。
WebRTCon 2018
经历了起跑、 热炒、失落的7年长跑后,伴随1.0版定稿,获得iOS端支持,WebRTC具备了打通主流生态系统和端的能力,2018年也将是WebRTC落地的最好时机。由LiveVideoStack音视频技术社区出品,WebRTCon 2018将于5月在上海举行,这是一次对过去几年WebRTC技术实践与应用落地的总结。
本文受访者也将出席,与大家分享、讨论如何基于WebRTC设计多方视频会议系统,从而提供最优的视频通讯质量。除此之外,还有其他全球领先的WebRTC技术专家,为参会者带来全球同步的技术实践与趋势解读。
点击 [阅读原文] 了解更多相关信息,快来报名吧!