线上会议,是数字时代的必然趋势,不仅减少了线下开会的时间、空间成本,也在一定程度上降低了疫情传播风险。与此同时,如何让线上会议在交互体验和沟通效率上与线下会议保持一致,仍存在很大的探索空间。
在前不久的 QCon 全球软件开发大会上,阿里巴巴企业智能事业部办公云团队的音视频会议算法负责人王晨吉和AIoT负责人范星,分别分享了虚拟形象在音视频会议中的应用实践和算法驱动硬件及在音视频会议设备中的实践,他们从不同维度进行了探索,并给出了提升线上会议体验的解决方案。
虚拟形象落地音视频会议带来沉浸式开会新体验
阿里巴巴企业智能事业部办公云音视频会议算法负责人 王晨吉
不知大家是否有这样的感受,现在开线上会议,越来越多的人会选择“非必要不打开”摄像头,导致一群人的会议变成了一个人的“独角戏”,沟通效率明显降低。究其原因,还是因为现在的人或多或少都有些容貌焦虑和社恐。如何增加人与人之间的交互感,让线上开会也能达到“面对面”的效果,同时尽可能让参会者“没有负担”地打开摄像头?答案呼之欲出,就是使用虚拟形象。我们在视频会议中使用的虚拟形象,由几十个精心设计的元素组成,通过3D建模和自由组合,可以打造出每个人的专属形象。更重要的是,3D虚拟形象是由真人驱动的,可以根据参会人的动作进行动态展示,给到与会者更真实的反馈,堪称是“社恐人士的福音”,也让传统的视频开会变得生动起来了。
虚拟形象的优势毋庸置疑,但要在成熟的视频会议客户端中落地,还需要解决很多工程问题。在不改变原有视频会议架构的情况下,我们设计了虚拟形象实时计算+实时渲染的整体架构,并将功能封装为SDK进行集成。同时因为计算和渲染都在本地完成,也未增加云端任何额外的带宽和计算成本。在实时渲染部分,我们通过引入成熟的游戏引擎来完成虚拟形象的渲染和换装等业务流程。通过自研插件来解决渲染引擎的离屏渲染问题,并且对渲染引擎的生命周期都进行了精细化管理,同时通过自研0拷贝跨进程Texture传递框架解决了高分辨率图像数据的高效传输。在实时计算部分,我们通过轻量级的神经网络和极致的性能优化,可以在端侧做到实时跟踪用户人脸并且输出表情和姿态数据。关于未来想要尝试的方向,可能有以下几方面:
- 利用AI自动生成虚拟形象。依据用户的人脸信息(如肤色、发型、脸型特征),在基础头模上进行叠加,并自动绑定到新模型上,让用户可以直接驱动。
- 表情“更生动”的虚拟人。我们在尝试,直接通过提取用户声音中的情绪,口型等特征来驱动虚拟人做出相应的表情。
- 打造真正的元宇宙会议。在我们设想的元宇宙会议里,每个用户只需集成本地的姿态,表情和动作计算模块,RTC不再发送原始摄像头数据,而是发送这些参数到云端,进行统一渲染,再把渲染画面传输到用户端。
音视频会议设备新实践减少线上会议与线下的差异
阿里巴巴企业智能事业部办公云AIoT负责人 范星
常规的线上沟通相比线下沟通,体验和效率通常会有不同程度的降低。而好的会议硬件设备,则能尽量降低线上和线下会议的差异,提升视频会议的沟通体验。我们和达摩院共同研发了声源定位算法、说话人识别算法,与音视频硬件设计结合,对会议设备进行模块的整合和精简,在降低整体硬件成本的同时,实现显著的性能提升。声源定位,即SSL(Sound Source Localization),根据收到的声音信号,确定声源的位置信息。通过声源定位,可以实现摄像头自动跟踪、主讲人聚焦、多声源分离,以及更好的降噪和语音识别等。常见的声源定位算法包括GCC-PHAT、SRP-PHAT、MUSIC、FRIDA等,总体上来看,SRP-PHAT较为均衡,MUSIC方法及其变种也可以考虑,但是计算量会稍大。对于影像系统的设计,需要设备能很好地适应从几人到几十人的会议室,甚至上百人的培训教室,和户外空间的会议室等多种场景。经过综合考量,我们选取了1+2的相机系统方案,即1个广角主摄像头,加上2个长焦辅摄像头,相当于2倍光学变焦,和iPhone采用的3摄方案类似。最终形成的音视频一体机的设计方案,支持美颜、最佳取景、主讲人聚焦等多种功能,具有集成度高、体积小、方便安装和部署等优势。音频系统和影像系统坐标的基准一致,可以很方便地对空间坐标进行转换,并实现多模态的准确声源定位算法。统一的坐标系也使得位置映射更加简单。
对于未来的会议,我们有以下几方面的畅想:
- 全息影像和裸眼3D。如果可以直接看到立体的对方,沟通体验无疑是最接近真实面对面场景的,而通过全息影像和裸眼3D,就可以实现类似的效果。
比如阿里巴巴在冬奥会上亮相过的Cloud ME,让因疫情分离别北京、上海两地的医护人员家庭得以在“云上全家团聚”。
- 虚拟空间。全息影像和裸眼3D方案,需要额外的大型设备,移动性和便携性受限,并且成本较高。但如果能将设备缩小到只有一个头显的大小呢?即VR和AR方案。
比如Meta Reality Labs的高还原度虚拟会议原型方案,通过头显内置的多个摄像头,捕捉人体面部3D结构,集成度较高,还原度也很棒,很接近实际的线下沟通体验。
阿里巴巴企业智能事业部是阿里巴巴集团办公协同、组织治理和运营管理平台的建设者。其中,办公云团队在音视频领域深耕多年,通过业内领先的技术结合算法、硬件等,为阿里巴巴员工及生态合作伙伴提供一站式音视频解决方案。此次亮相QCon,希望通过学习和交流,在音视频及在线办公领域继续深入探索和持续创新。