LiveVideoStack采访了容联云通讯CTO许志强,分享了从一线研发到团队leader的软硬性能力提升经验,解析了通讯行业音视频技术难点、踩的坑以及优化方案,并展望了AI、5G为音视频技术发展带来的革新。
文 / 许志强
整理 / LiveVideoStack
LiveVideoStack:许总您好,首先非常感谢您接受采访,还请您先介绍下自己和容联云通讯。
许志强:本人毕业于华中理工大学自控系,中山大学MBA。先后就职于广州新太科技任开发中心副总经理、高阳圣思园任云通讯项目技术负责人。目前主要负责容联整体平台设计与开发,互联网/AI等前沿技术与通讯的融合跟进。
容联是国内专业的企业通讯云服务提供商。容联以云计算方式,为企业客户提供通讯平台服务(PaaS)、通讯软件服务(SaaS)、行业新通讯解决方案和“AI+通讯”服务,助力企业精准获客,提升终端用户服务体验;变革企业内部沟通协作方式,提升企业运营效率。驱动中国企业通讯产业实现互联网化、云计算化、能力化、融合化和智能化。经过几年的快速发展、积累,容联平台已聚集了超过15万家企业客户和30万开发者用户。容联服务的客户包括但不限于国家电网、中移在线、海尔控股、中国银行、招商证券、中车集团、中国平安、腾讯、京东、百度、360、小米、今日头条、瓜子二手车、顺丰等,全面覆盖金融、运营商、汽车、电商、O2O、在线教育、互联网医疗、游戏、物流等众多行业。
LiveVideoStack:从您的经历来看,有着丰富的一线技术研发和管理经验,站在研发和管理的层面来看待问题时,会有怎样的不同?
许志强:这两者确实有很大的不同,站在研发角度看问题时,通常会有两个倾向:首先就是局部倾向,考虑问题时会不够全面,如研发人员只单纯考虑“功能是否实现”、“性能是否满足要求”,而忽略了系统的可维护性、可扩展性等。第二个倾向是基于技术考虑的“完美”倾向,技术有很多理论、原则性的准则——这些原则一般是在相对理想情况下的,但在现实中很多情况是不理想的:如客户提出的需求和原有系统架构设计出现冲突的时候,站在技术研发的角度是有本能的抵触情绪;而站在管理的角度来看,则更多需要考虑如何以更低的成本、在不完美的限制条件下做一个最符合公司商业利益的选择。
LiveVideoStack:从一线研发到团队技术leader、再到CTO,在这样一条发展路径中,您认为有哪些关键点或者转变可以分享给大家。
许志强:从普通研发人员到团队leader,其中最关键的转变有两个:一个是技术能力的提升——需要从具体的模块研发能力、到具体模块的设计能力、再到负责一个系统整体的技术架构的能力,一步一步成长和转变,通俗说就是从具体的“砌砖” 能力到“设计建筑图纸”能力,这是思维层面的提升,需要在工作中多问为什么,不能知其然而不知其所以然。另外一个转变就是管理能力的提升,也就是需要从被安排做事情,转换到安排人做事情;从以单枪匹马,到带领团队冲锋陷阵。要在有限的资源配置和时间要求下,带领团队完成一个又一个的项目,这都需要个人管理能力的提升。
LiveVideoStack:您认为音视频技术在企业通讯中发挥着怎样的作用?在开发过程中遇到过哪些坑?
许志强:音视频技术在企业中正发挥着越来越重要的作用,企业通讯一个很重要的环节就是沟通——有和外部的沟通,也有内部的沟通。而音视频会议就是企业内部沟通中一个很重要的组成部分。
我认为在开发过程中最大的坑其实是架构的选择,由于我们以前主要是为运营商做系统,采用的很多标准是电信行业的一些通用协议标准,而这些架构在互联网情况下并不一定是最佳选择。比如目前电信行业通用协议主流会采用SIP协议做呼叫控制,媒体连接信息在SIP信令里面进行传递,但是针对企业的内外网等复杂的网络情况下,媒体流只能走特定的网络路径才能连通,或者在互联网场景下,希望媒体流能够动态根据网络状况实时选择最优的路径,这时通过SIP协议就比较难完成。对此我们进行了架构调整,因为媒体流是一个自治的网络,信令交互里面带的只是通讯双方端点的网络地址、端口,如果将媒体流在这两个端点之间进行传输,从而使得媒体流这个网络自己完成。
LiveVideoStack:国内网络条件差异较大,往往还要面对多个运营商的情况,容联是如何处理带来的网络抖动、丢包,从而保证低延迟和稳定性?
许志强:容联是从两个方案来解决网络问题对音视频质量的影响:一个是在网络层面,我们构建了一个所谓的实时通讯网络。根据用户的接入情况,系统会智能的选择离用户最近的接入点(我们内部称之为媒体接入点),保证用户到我们系统的网络接入质量能够得到明显的保障。在骨干网上我们采用类似SDWAN的技术在互联网、专线的混合环境下构建了一个虚拟的网络,它能够自动判断网络路径的情况选择一个最优的路径进行路由。另外一个是在算法层面,通过算法自动侦测网络通讯的状况,自动开启FEC、NACK算法,自动调整音视频流的码率、帧率等,总体概况来讲就是一个自适应的算法组合。
LiveVideoStack:近几年人工智能很火热,对于云通讯以及音视频技术而言,它能产生怎样的化学反应?
许志强:AI让通讯具备感知、知道、知识的能力,成为连接、感知、计算三位一体的新型网络。通讯是基础、AI是大脑,两者相辅相成。
从行业角度而言,很多应用场景急需“AI+通讯”去不断的进行技术改革、智能化升级,提升效率,降低成本。比如客户服务的智能化,通过AI赋能于客服,实现低成本高效运营,使得回复问题速度提升75%,客服工作效率提升52%,商机转化率提升43%。再比如语音交互的智能化,包括自动主动联络、语音识别、全双工实时交互、人工无缝接管、质检服务等。此外还有企业办公的智能化,企业内部的办公沟通和相关服务,通过智能化也将变得更加方便便捷,提升工作效率。
从技术角度来看,AI也将带来积极显著的变化。以回声消除来说,传统的回声消除在不同的手机硬件终端上都有可能需要做适配,但是我们看到在行业的最新研究上有采用深度学习的方式做回声消除,取得的效果比传统算法更好,同时在不同硬件情况下的适配性也更好。此外AI在音视频编码压缩算法、噪声抑制等音视频底层技术方案也都有阶段性的突破,未来会带来很多颠覆性的改变。
LiveVideoStack:在您看来,未来云通讯领域在技术方面还会有哪些发展和突破?在即将到来的5G时代,音视频将迎来怎样的变化?
许志强:5G时代的来临,会让音视频行业迎来更大的发展机遇。在5G时代下,网速限制将被彻底解除,用户随时随地都能看到想看的短视频、长视频、直播、高清电影等,所以视频行业将获得更多的潜在用户,市场将变得更大。而视频会议也将迎来红利,5G时代的音视频稳定性、多方通话、安全性、外接音频放大和视频输出,让远程音视频及数据会议得以轻松完成。视频会议系统也将更加智能、高效、方便、快捷,即使在网络条件不如意的边远地区也能做到清晰“面对面”会议,全面提升各行业的信息化水平,真正做到跨行业、跨领域、跨地域的零距离交流。
新一代音视频融合通讯平台全接触
如果你想了解更多关于通讯领域音视频技术实现以及5G将带来的革新,许志强老师还将在10月19日下午【新一代音视频融合通讯平台全接触】专场,详细解析音视频技术在企业通信领域的发展与主要应用,并展望即将到来的5G时代中音视频迎来的更广阔的应用空间。