阿里巴巴企业智能打造沉浸式线上会议新体验,亮相QCon大会

简介: 在 QCon 全球软件开发大会上,阿里巴巴企业智能事业部办公云团队的音视频会议算法负责人王晨吉和AIoT负责人范星,分别分享了虚拟形象在音视频会议中的应用实践和算法驱动硬件及在音视频会议设备中的实践,他们从不同维度进行了探索,并给出了提升线上会议体验的解决方案。

线上会议,是数字时代的必然趋势,不仅减少了线下开会的时间、空间成本,也在一定程度上降低了疫情传播风险。与此同时,如何让线上会议在交互体验和沟通效率上与线下会议保持一致,仍存在很大的探索空间。

在前不久的 QCon 全球软件开发大会上,阿里巴巴企业智能事业部办公云团队的音视频会议算法负责人王晨吉和AIoT负责人范星,分别分享了虚拟形象在音视频会议中的应用实践和算法驱动硬件及在音视频会议设备中的实践,他们从不同维度进行了探索,并给出了提升线上会议体验的解决方案。


虚拟形象落地音视频会议带来沉浸式开会新体验

阿里巴巴企业智能事业部办公云音视频会议算法负责人 王晨吉

虎刀3.jpeg

不知大家是否有这样的感受,现在开线上会议,越来越多的人会选择“非必要不打开”摄像头,导致一群人的会议变成了一个人的“独角戏”,沟通效率明显降低。究其原因,还是因为现在的人或多或少都有些容貌焦虑和社恐。如何增加人与人之间的交互感,让线上开会也能达到“面对面”的效果,同时尽可能让参会者“没有负担”地打开摄像头?答案呼之欲出,就是使用虚拟形象。我们在视频会议中使用的虚拟形象,由几十个精心设计的元素组成,通过3D建模和自由组合,可以打造出每个人的专属形象。更重要的是,3D虚拟形象是由真人驱动的,可以根据参会人的动作进行动态展示,给到与会者更真实的反馈,堪称是“社恐人士的福音”,也让传统的视频开会变得生动起来了。

88fd032b-081e-485e-af37-f2db02732cf4.png

虚拟形象的优势毋庸置疑,但要在成熟的视频会议客户端中落地,还需要解决很多工程问题。在不改变原有视频会议架构的情况下,我们设计了虚拟形象实时计算+实时渲染的整体架构,并将功能封装为SDK进行集成。同时因为计算和渲染都在本地完成,也未增加云端任何额外的带宽和计算成本。在实时渲染部分,我们通过引入成熟的游戏引擎来完成虚拟形象的渲染和换装等业务流程。通过自研插件来解决渲染引擎的离屏渲染问题,并且对渲染引擎的生命周期都进行了精细化管理,同时通过自研0拷贝跨进程Texture传递框架解决了高分辨率图像数据的高效传输。在实时计算部分,我们通过轻量级的神经网络和极致的性能优化,可以在端侧做到实时跟踪用户人脸并且输出表情和姿态数据。关于未来想要尝试的方向,可能有以下几方面:

  • 利用AI自动生成虚拟形象。依据用户的人脸信息(如肤色、发型、脸型特征),在基础头模上进行叠加,并自动绑定到新模型上,让用户可以直接驱动。
  • 表情“更生动”的虚拟人。我们在尝试,直接通过提取用户声音中的情绪,口型等特征来驱动虚拟人做出相应的表情。
  • 打造真正的元宇宙会议。在我们设想的元宇宙会议里,每个用户只需集成本地的姿态,表情和动作计算模块,RTC不再发送原始摄像头数据,而是发送这些参数到云端,进行统一渲染,再把渲染画面传输到用户端。


音视频会议设备新实践减少线上会议与线下的差异

阿里巴巴企业智能事业部办公云AIoT负责人 范星

不系4.JPG

常规的线上沟通相比线下沟通,体验和效率通常会有不同程度的降低。而好的会议硬件设备,则能尽量降低线上和线下会议的差异,提升视频会议的沟通体验。我们和达摩院共同研发了声源定位算法、说话人识别算法,与音视频硬件设计结合,对会议设备进行模块的整合和精简,在降低整体硬件成本的同时,实现显著的性能提升。声源定位,即SSL(Sound Source Localization),根据收到的声音信号,确定声源的位置信息。通过声源定位,可以实现摄像头自动跟踪、主讲人聚焦、多声源分离,以及更好的降噪和语音识别等。常见的声源定位算法包括GCC-PHAT、SRP-PHAT、MUSIC、FRIDA等,总体上来看,SRP-PHAT较为均衡,MUSIC方法及其变种也可以考虑,但是计算量会稍大。对于影像系统的设计,需要设备能很好地适应从几人到几十人的会议室,甚至上百人的培训教室,和户外空间的会议室等多种场景。经过综合考量,我们选取了1+2的相机系统方案,即1个广角主摄像头,加上2个长焦辅摄像头,相当于2倍光学变焦,和iPhone采用的3摄方案类似。最终形成的音视频一体机的设计方案,支持美颜、最佳取景、主讲人聚焦等多种功能,具有集成度高、体积小、方便安装和部署等优势。音频系统和影像系统坐标的基准一致,可以很方便地对空间坐标进行转换,并实现多模态的准确声源定位算法。统一的坐标系也使得位置映射更加简单。

c3890fef-ec29-4614-b097-bb2edd98206f.png

对于未来的会议,我们有以下几方面的畅想:

  • 全息影像和裸眼3D。如果可以直接看到立体的对方,沟通体验无疑是最接近真实面对面场景的,而通过全息影像和裸眼3D,就可以实现类似的效果。

比如阿里巴巴在冬奥会上亮相过的Cloud ME,让因疫情分离别北京、上海两地的医护人员家庭得以在“云上全家团聚”。

  • 虚拟空间。全息影像和裸眼3D方案,需要额外的大型设备,移动性和便携性受限,并且成本较高。但如果能将设备缩小到只有一个头显的大小呢?即VR和AR方案。

比如Meta Reality Labs的高还原度虚拟会议原型方案,通过头显内置的多个摄像头,捕捉人体面部3D结构,集成度较高,还原度也很棒,很接近实际的线下沟通体验。


阿里巴巴企业智能事业部是阿里巴巴集团办公协同、组织治理和运营管理平台的建设者。其中,办公云团队在音视频领域深耕多年,通过业内领先的技术结合算法、硬件等,为阿里巴巴员工及生态合作伙伴提供一站式音视频解决方案。此次亮相QCon,希望通过学习和交流,在音视频及在线办公领域继续深入探索和持续创新。

相关文章
|
供应链 前端开发
阿里成立数据智能新公司,瓴羊的独立始末
(转载报道媒体:晚点LatePost)推动瓴羊形成的过程中,阿里管理层选择了更激进、整合度更高的方案,选择了多平台、多云的定位。中国互联网发展二十多年,从开放走向封闭,或主动或被动,现在它正重新走向开放,这是大势所趋。
阿里成立数据智能新公司,瓴羊的独立始末
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
94_提示压缩:减少token消耗
在大语言模型(LLM)应用中,提示工程已成为提升模型性能和控制输出的关键技术。然而,随着模型能力的增强和应用场景的复杂化,提示文本往往变得冗长,导致token消耗急剧增加。这不仅直接影响到API调用成本,还可能超出模型的上下文窗口限制,特别是在使用GPT-4、Claude 3等大模型时,每1000个token的成本可能高达数美分。对于需要频繁交互或批量处理的应用场景,如客服系统、内容生成平台或自动化工作流,token消耗的优化就显得尤为重要。
1007 0
|
11月前
|
人工智能 搜索推荐 数据可视化
聚力出海,共赢增长|阿里云 x Meta 出海沙龙回顾
有关中企出海,阿里云和 Meta 都聊了些什么?
320 6
|
8月前
|
人工智能 自然语言处理 供应链
AI时代企业难以明确大模型价值,AI产品经理如何绘制一张‘看得懂、讲得通、落得下’的AI产品架构图解决这一问题?
本文产品专家系统阐述了AI产品经理如何绘制高效实用的AI产品架构图。从明确企业六大职能切入,通过三层架构设计实现技术到业务的精准转译。重点解析了各职能模块的AI应用场景、通用场景及核心底层能力,并强调建立"需求-反馈"闭环机制。AI产品专家三桥君为AI产品经理提供了将大模型能力转化为商业价值的系统方法论,助力企业实现AI技术的业务落地与价值最大化。
458 0
|
人工智能 搜索推荐 语音技术
传音X阿里云,乘AI出海!
传音X阿里云,乘AI出海!
529 1
|
运维 监控 安全
出海短信就选阿里云,覆盖 200+国家
国际/港澳台短信,就找阿里云
489 3
|
JavaScript 前端开发 安全
JS 混淆解析:JS 压缩混淆原理、OB 混淆特性、OB 混淆JS、混淆突破实战
JS 混淆解析:JS 压缩混淆原理、OB 混淆特性、OB 混淆JS、混淆突破实战
1694 2
|
Java
《Java工程师成神之路》电子版
《Java工程师成神之路(基础篇)》介绍了普通Java工程师必须要学习的相关知识点,包括面向对象和Java语言基础两大部分,涵盖基本数据类型、关键字、异常、I/O流、集合、反射、泛型和枚举......
911 0
 《Java工程师成神之路》电子版
|
新零售 人工智能 智能设计
2023云栖现场 | 阿里巴巴企业智能带你探索AI在企业办公数字化的实践
企业数字化是企业提升竞争力的必然选择,AI 技术的发展,更是为企业数字化转型提供了新的思路。 在2023年的云栖大会上,阿里巴巴企业智能展示了AI驱动下,在“人、财、法、事、物、场”等领域的数字化办公最新实践。将AI 技术与企业数字化各领域深度结合,碰撞出新的火花,让人眼前一亮。
|
数据可视化 小程序 前端开发
云栖大会 | UIPaaS 基于 LowCodeEngine 的低代码平台孵化器
这篇文章从企业视角入手,讲诉了为什么需要定制低代码平台,以及如何通过阿里开源的项目「低代码引擎」和阿里低代码商业产品 「UIPaaS」 降低企业定制低代码平台的成本。阅读这篇文章,你可以了解到企业为什么需要定制低代码平台,低代码引擎是什么,UIPaaS 是什么,UIPaaS 如何服务于中大型企业的,以及 UIPaaS 如何去解决一些低代码领域下的问题的。