《云上新势力 CLOUD IMAGINE》——Part 2 演讲/文章合集——文章6:《声声声声临其境,一起坠入超音感空间》(2)

简介: 《云上新势力 CLOUD IMAGINE》——Part 2 演讲/文章合集——文章6:《声声声声临其境,一起坠入超音感空间》(2)

《云上新势力 CLOUD IMAGINE》——Part 2 演讲/文章合集——文章6:《声声声声临其境,一起坠入超音感空间》(1) https://developer.aliyun.com/article/1228947?groupCode=videocloudtech



2. 一个「球面」的声场?

 

沉浸式音频主要技术有三大类基于声道Channel Based Audio(CBA)、基于对象Object Based Audio(OBA)、基于场景Scene Based Audio(SBA)。

 

基于声道技术(CBA)在传统5.1环绕声的基础上,增加了4个顶部声道,通过增加声道的方式来补充空间中的声音信息,但只能呈现部分方向来的声音信息。

 

基于对象的技术(OBA)是目前主流技术,并在电影领域已广泛应用,如Dolby Atmos全景声。该技术会产生大量的数据和运算,除了声道的音频外,还有关于声源的元数据Metadata,即:声源(位置/大小/速度/形状等属性)、声源所在的环境(混响Reverb/回声Reflection/衰减Attenuate/几何形态等),该技术在VR领域只适合主机VR上的大型游戏,对于普通移动端的硬件设备来讲,算力及带宽承载具有较大压力。

 

基于场景的技术(SBA)用来描述场景的声场,其核心的底层算法是Ambisonics技术可被映射到任意扬声器布局中。Ambisonics技术的特点是:声源贴在提前渲染好的全景球上,即所有声源将被压缩在了这个球上。

 

image.png

图片来源于网络

 

本文的音频体验展示便采用了Ambisonics的录制格式(文末体验DEMO)。


Ambisonics作为全景声的一种录取格式,在上世纪70年代就已经问世,但一直没有获得商业上的成功。


随着近几年VR,AR等相关领域的兴起,Ambisonics开始逐渐被讨论。与其它多声道环绕声格式不同,Ambisonics传输通道不带扬声器信号,允许音频工作者根据声源方向而不是扬声器的位置来思考设计,并且为听众提供了用于播放扬声器的布局和数量,因此,大大增加了灵活性。

 

Ambisonics音频格式可以解码任何扬声器阵列,并且可以完整地、不间断地还原音源而不受任何特定编解码播放系统的限制。

 

下图是一个一阶的Ambisonics结构,4个MIC垂直部署在一个四面体上,播放效果与Dolby Atmos类似,但和Dolby Atmos不同的地方是:Dolby Atmos只解决了半球的声场。

 

而Ambisonics除了水平环绕声音,还可以支持拾音位置或者听众上下的声源,即整个球面的声场。

 

image.png

图片来源于网络

 

3. 实现声声入耳的引擎:AliBiAudio

 

「全景声不仅仅是增加几个声道那么简单,而是把整个声音系统架构都颠覆了,从之前基于声道来混音的技术上升为基于对象的音频处理技术,使人在环境中的听觉感受与现场实际声音一致。」

 

将全景声音频重建成用户可测听的形式有两种途径,一种是多扬声器重建,即电影院或家庭影院中的音响系统,其本质是将全景声音频转换到5.1.4或7.1.4格式;另一种是耳机重建,即将全景声音频通过双耳渲染技术转换为双声道音频,并保留其全部空间信息。

 

相对于多扬声器重建,耳机重建成本低、易部署、效果好。

 

不言而喻,耳机重建全景声音频,需要一个双耳渲染的过程,以此来通过两个立体声通道创建空间和维度的听觉感知效果。

 

image.png

 

AliBiAudio就是一个阿里自研的双耳实时渲染引擎,结合头部跟踪坐标,可以达到人转动,声源位置不动的效果。当前双耳渲染引擎,具有支持全平台、多场景、易部署等特性。该引擎既可以部署在移动端,也可以部署在云端,并支持三大场景的渲染。

 

单声道输入用于虚拟会议场景,可将不同位置的人,渲染在不同的角度发声,通常部署在服务端。

 

5.1/7.1输入用于影视剧渲染,得到更逼真的环绕声,类似优酷中的“帧享”音效。既可以部署在端上(如:Apple Music空间音频),也可以部署在服务器上(如:作为媒体处理,将多声道数据下混成2路数据)。

 

Ambisonics输入对Ambisonics格式进行渲染,用于VR直播,VR点播,当前部署在Aliplay中。

 

image.png



《云上新势力 CLOUD IMAGINE》——Part 2 演讲/文章合集——文章6:《声声声声临其境,一起坠入超音感空间》(3) https://developer.aliyun.com/article/1228941?groupCode=videocloudtech

 


 

相关文章
|
供应链 前端开发
阿里成立数据智能新公司,瓴羊的独立始末
(转载报道媒体:晚点LatePost)推动瓴羊形成的过程中,阿里管理层选择了更激进、整合度更高的方案,选择了多平台、多云的定位。中国互联网发展二十多年,从开放走向封闭,或主动或被动,现在它正重新走向开放,这是大势所趋。
阿里成立数据智能新公司,瓴羊的独立始末
|
8月前
|
弹性计算 人工智能 架构师
一文揭秘|如何速成RAG+Agent框架大模型应用搭建(二)
一文揭秘|如何速成RAG+Agent框架大模型应用搭建
606 4
|
11月前
|
机器学习/深度学习 资源调度 算法
图卷积网络入门:数学基础与架构设计
本文系统地阐述了图卷积网络的架构原理。通过简化数学表述并聚焦于矩阵运算的核心概念,详细解析了GCN的工作机制。
646 3
图卷积网络入门:数学基础与架构设计
|
消息中间件 大数据 Kafka
【建议收藏】技术人必看:如何选择适合你公司的消息队列工具
本文介绍了消息队列在系统架构中的三大作用:异步处理、削峰填谷和解耦,并通过实例详细阐述了每种作用的优势。文中推荐了三款消息队列工具:RabbitMQ适合中小型公司,因其开源和社区活跃;RocketMQ适合大型公司,因其强大的二次开发能力;而在大数据领域,Kafka是实时计算和日志采集的标准选择。作者小米鼓励读者根据自身需求选择合适的消息队列,并邀请大家探讨技术话题。
528 2
|
传感器 网络协议 Linux
DPDK如何赋能EtherCAT
DPDK如何赋能EtherCAT
|
机器学习/深度学习 PyTorch API
深度学习入门:卷积神经网络 | CNN概述,图像基础知识,卷积层,池化层(超详解!!!)
深度学习入门:卷积神经网络 | CNN概述,图像基础知识,卷积层,池化层(超详解!!!)
|
存储 缓存 前端开发
(三)Nginx一网打尽:动静分离、压缩、缓存、黑白名单、跨域、高可用、性能优化...想要的这都有!
早期的业务都是基于单体节点部署,由于前期访问流量不大,因此单体结构也可满足需求,但随着业务增长,流量也越来越大,那么最终单台服务器受到的访问压力也会逐步增高。时间一长,单台服务器性能无法跟上业务增长,就会造成线上频繁宕机的现象发生,最终导致系统瘫痪无法继续处理用户的请求。
475 1
|
消息中间件 安全 JavaScript
Spring Security 最佳实践,看了必懂!
今天来一篇 Spring Security 精讲,相信你看过之后能彻底搞懂 Spring Security。
1875 1
Spring Security 最佳实践,看了必懂!
|
Linux Docker 容器
在CentOS上安装Docker的指南:
【8月更文挑战第19天】介绍在CentOS上安装Docker的过程:首先确认CentOS版本兼容,建议使用7或更高版本,并通过`yum update -y`更新系统。安装Docker时推荐使用官方仓库方法,需安装`yum-utils`等工具,设置Docker仓库简化安装流程。可选配置国内镜像源(如阿里云)提升下载速度。亦可通过RPM包离线安装。安装后启动Docker服务并通过`systemctl enable docker`设为开机启动。最后,运行`docker run hello-world`验证安装。如遇问题,使用`sudo journalctl -u docker`查看日志排错。
912 0
|
网络协议 算法 网络安全
EVE-NG是不是一种强大的网络模拟器和实验平台呢?
随着网络技术的飞速发展,网络安全和网络性能问题越来越受到人们的关注。在这个领域,EVE-NG是一种广受欢迎的网络模拟器和实验平台。