通义OmniAudio大模型,让 AI 看懂 360° 视频,并“听”出对应的空间音频

简介: OmniAudio 是一项突破性的空间音频生成技术,能够直接从 360° 视频生成 FOA(First-order Ambisonics)空间音频,为虚拟现实和沉浸式娱乐带来全新可能。通过自监督 coarse-to-fine 预训练和双分支视频表示微调,OmniAudio 在非空间音频质量和空间定位准确性上显著优于现有方法。项目包含超过 103,000 个视频片段的 Sphere360 数据集,支持高质量的模型训练与评估。代码、数据及论文均已开源,助力沉浸式体验技术发展。

当你置身于一场音乐会,闭上眼睛,仍能凭借声音判断乐器的位置;在电影院,环绕音效让我们仿佛置身于电影场景之中;这是我们大脑对声音的“空间感知”。空间音频,作为一种能够模拟真实听觉环境的技术,正逐渐成为提升沉浸式体验的关键。然而,现有的技术大多基于固定的视角视频,缺乏对 360° 全景视频中空间信息的充分利用。如何让 AI 看懂 360° 视频,并“听”出对应的空间音频?我们带来一项在空间音频生成领域具有里程碑意义的研究 —— OmniAudio,它能够直接从 360° 视频生成空间音频,为虚拟现实和沉浸式娱乐带来了全新的可能性。

📖 项目主页

https://omniaudio-360v2sa.github.io/

✅ 代码和数据开源仓库

https://github.com/liuhuadai/OmniAudio

📒 论文地址

https://arxiv.org/abs/2504.14906


image.png

传统的视频到音频生成技术主要关注于生成非空间音频(如单声道或立体声),这些音频缺乏方向信息,无法满足沉浸式体验对 3D 声音定位的需求。此外,这些技术通常基于有限视角的视频,错过了全景视频所能提供的丰富视觉上下文。

随着 360° 摄像头的普及和虚拟现实技术的发展,如何利用全景视频生成与之匹配的空间音频成为一个亟待解决的问题。

为应对这些挑战,通义实验室语音团队提出了 360V2SA(360-degree Video to Spatial Audio)任务,旨在直接从 360° 视频生成 FOA(First-order Ambisonics)音频。FOA 是一种标准的 3D 空间音频格式,能够捕捉声音的方向性,实现真实的 3D 音频再现。它使用四个通道(W、X、Y、Z)来表示声音,其中 W 通道捕捉整体声压,X、Y、Z 通道分别捕捉前后、左右和垂直方向的声音信息。与传统的立体声相比,FOA 音频在头部旋转时能够保持声音定位的准确性。

image.png

image.png

数据是机器学习模型的基石,然而,现有的配对 360° 视频和空间音频数据极为稀缺。为此,研究团队精心设计并构建了 Sphere360 数据集。

image.png

Sphere360 数据集包含大量高质量的 360° 视频和相应的 FOA(First-order Ambisonics)空间音频。这是一个包含超过 103,000 个真实世界视频片段的数据集,涵盖 288 种音频事件,总时长达到 288 小时。既包含 360° 视觉内容,又支持 FOA 音频。

在数据集的构建过程中,研究团队采用了一系列严格的筛选和清洗标准。在清洗环节,针对视频静态、音频静音、过多语音内容以及视音频不匹配等问题设计了具体检测算法,例如利用帧间均方误差(MSE)检测静态视频,使用滑动窗口和 dBFS 计算判定音频是否为静音,调用 SenseVoice 模型检测语音含量,并使用 ImageBind 检测音视频一致性,确保高质量对齐。

image.png

image.png

OmniAudio 的训练方法可分为两个阶段:自监督的 coarse-to-fine 流匹配预训练,以及基于双分支视频表示的有监督微调。

image.png

阶段一

  1. 研究团队针对数据稀缺问题,充分利用大规模非空间音频资源(如 FreeSound、AudioSet、VGGSound 等),先将立体声转换为“伪 FOA”格式——W 通道为左右声道之和,X 通道为左右声道之差,Y、Z 通道置零——再送入四通道 VAE 编码器获得潜在表示。
  2. 对于这些潜在表示,团队以一定概率 pₘ 进行随机时间窗掩码(mask span 最小长度 lₘ),并将掩码后的潜在序列与完整序列一同作为条件输入至流匹配模型。模型通过最小化掩码前后潜在状态的速度场差异,实现对音频时序和结构的自监督学习。
  3. 这一“粗”阶段使模型掌握了通用音频特征和宏观时域规律,为后续空间音频精细化提供了坚实基础。

阶段二

  1. 研究团队仅使用真实的 FOA 音频数据,继续沿用掩码流匹配的训练框架,但此时模型的全部注意力集中在四通道的空间特性上。通过对真实 FOA 潜在序列进行更高概率的掩码,模型不仅强化了对声源方向(W/X/Y/Z 四通道之间的互补关系)的表征能力,还在解码端提升了对高保真空间音频细节的重建效果。
  2. 相较于仅以真实 FOA 进行直接拟合,此粗-细预训练策略显著改善了模型对空间特征的泛化能力与生成质量。
  3. 在完成自监督预训练后,团队将模型与双分支视频编码器结合,进行有监督微调。针对输入的 360° 全景视频,使用冻结的 MetaCLIP-Huge 图像编码器提取全局特征;同时,从同一视频中裁取 FOV(field-of-view)局部视角,亦通过相同编码器获得局部细节表征。
  4. 全局特征经最大池化后作为 Transformer 的全局条件,局部特征经时间上采样并与音频潜在序列逐元素相加,作为逐步生成过程中的局部条件。在保持预训练初始化参数的大致走向下,高效微调条件流场,从噪声中有针对性地“雕刻”出符合视觉指示的 FOA 潜在轨迹。
  5. 微调完成后,仅需在推理阶段采样学得的速度场,再经 VAE 解码器恢复波形,便可输出与 360° 视频高度对齐、具备精确方向感的四通道空间音频。
  6. 通过上述两阶段训练,OmniAudio 不仅在音频生成质量上实现了从宏观到微观的跨域迁移,也借助视觉条件保证了空间定位的准确性,为 360V2SA 任务奠定了坚实的技术基础。

image.png

在实验设置中,研究团队在 Sphere360-Bench,以及来自 YT-360 的外部分布测试集 YT360-Test 上进行有监督微调与评估。视频帧率统一为 8FPS,音频采样率为 44.1kHz。评估指标分为两大类:

客观指标

非空间音频质量采用 Fréchet Distance(FD)衡量生成音频和真实音频在 OpenL3 特征空间的分布差异(越低越好);采用 Kullback-Leibler 散度(KL)衡量两者标签分布差异(越低越好)

空间音频准确度按照 Heydari 等(2024)的方法,计算声源方向估计误差,包括绝对方位角误差 Δabsθ、绝对仰角误差 Δabsϕ,以及综合角度误差 ΔAngular(均越低越好)。

主观指标

通过人工打分得到空间音频质量 MOS-SQ 和视音对齐保真度 MOS-AF,两者均为 0–100 分(越高越好),均报告平均值与标准差。

对于比较基线,研究人员实现了四套系统:

  • Diff-Foley + AS使用 Diff-Foley 生成非空间音频后接 Audio-Spatialization;
  • MMAudio + AS使用 MMAudio 生成非空间音频后接 Audio-Spatialization;
  • ViSAGe (FOV / 360)分别以 FOV 和全景视频为输入的空间音频生成模型;
  • OmniAudio文章的方法,包含预训练与双分支微调。

主要结果中,OmniAudio 在两套测试集上均显著优于所有基线。

在 YT360-Test 上,OmniAudio 获得 FD=92.57KL=1.64,相较于 Diff-Foley+AS(FD=361.65、KL=2.22)和 MMAudio+AS(FD=190.40、KL=1.71)均大幅降低;同时 ΔAngular=1.27(ViSAGe≈1.99),空间定位误差降低。

在 Sphere360-Bench 上,OmniAudio 同样取得 FD=88.30KL=1.58ΔAngular=1.28,超越 ViSAGe (360) 的 FD≈219.66、KL≈2.96、ΔAngular≈1.51。

在人机主观评估中,OmniAudio 分别在空间音频质量和视音对齐两项上获得 MOS-SQ=84.67±1.06MOS-AF=87.23±0.98(Sphere360-Bench),而最优基线仅为 MOS-SQ≈75–77、MOS-AF≈76–77,体现出 OmniAudio 合成结果在清晰度、空间感及与画面同步性方面均更佳。

image.png

此外,研究团队进行了消融实验以验证各模块贡献:

预训练策略

完整的 Coarse-to-Fine 预训练模式将 FD 从无预训练时的 104.57 降至 88.30;仅 Fine 或仅 Coarse 均不及二者结合;

image.png

双分支设计

ERP+FOV(全景+局部)组合在 FD、KL、ΔAngular 等指标上均优于仅 ERP、仅等距立方体 (EAC) 或仅 FOV 输入。

image.png

模型规模

从 Small (291M) 到 Medium (472M) 再到 Large (1.2B)性能逐步提升,Large 模型在 FD、KL 和空间误差上均达最优。

image.png

综合来看,OmniAudio 通过充分利用非空间与 FOA 数据的自监督预训练,以及全局与局部信息融合的双分支微调,在 360V2SA 任务中取得了全面领先的效果。

OmniAudio 的出现,为 AI 生成空间音频打开了新思路,未来我们也会持续关注其在沉浸式体验场景中的发展潜力。


🏀如果想要了解更多通义大模型的模型详细信息以及直接进入体验,可以点击🔗https://www.aliyun.com/product/tongyi直接进入查看和体验哦~

也可以关注通义大模型公众号,后续有产品动态也会在公众号内更新,可以及时获得最新模型信息哈。

通义大模型公众号二维码.png

相关文章
|
18天前
|
人工智能 IDE 开发工具
|
16天前
|
人工智能 IDE 定位技术
AI IDE正式上线!通义灵码开箱即用
通义灵码AI IDE现已正式上线,用户可免费下载使用。作为AI原生开发环境工具,它深度适配千问3大模型,集成通义灵码插件能力,支持编程智能体、行间建议预测和行间会话等功能。其核心亮点包括:支持最强开源模型千问3,具备MCP工具调用能力;开箱即用的智能编码助手;自带编程智能体模式,端到端完成编码任务;长期记忆、NES行间预测及Inline Chat功能,大幅提升编程效率。目前,通义灵码插件下载量超1500万,生成代码超30亿行,广泛应用于企业开发场景。
AI IDE正式上线!通义灵码开箱即用
|
14天前
|
人工智能 IDE 搜索推荐
通义灵码2.5评测:从编程智能体到记忆感知的AI编码革命
通义灵码2.5版本更新带来了多项新功能,包括Lingma IDE的开箱即用体验、编程智能体模式实现端到端编码任务、MCP工具集成扩展AI助手能力以及Qwen3模型升级大幅提升代码生成准确性和效率。此外,新增长期记忆与上下文感知功能,使开发更个性化和高效。尽管存在一些局限性,如复杂业务逻辑仍需人工干预,但整体显著提升了开发效率。官方还提供了高质量视频课程助力用户学习。
309 10
|
16天前
|
人工智能 IDE 程序员
通义灵码打造企业专属 AI 程序员
本文介绍了AI辅助编码领域的产品形态与发展趋势,重点分析了通义灵码的功能与优势。作为一款IDE插件,通义灵码经历了三个发展阶段,从行级代码补全到Multi-Agent全流程支持,覆盖个人开发者与企业用户需求。其核心功能包括代码智能辅助、私域知识融合及自定义扩展机制,有效提升了研发效率。此外,文章还展示了通义灵码在智能化工具链建设中的探索,如代码评审智能体,并通过趣味项目演示了AI程序员的多步骤协作能力。
|
16天前
|
人工智能 IDE 定位技术
通义灵码 AI IDE 正式上线,智能体自动写代码,首创自动记忆,工程感知全面升级
阿里云发布的通义灵码AI IDE深度适配千问3大模型,集成智能编码助手功能,支持编程智能体、工具调用、工程感知等能力。其核心亮点包括:支持最强开源模型千问3,全面集成通义灵码插件能力,自带编程智能体模式,支持长期记忆与行间建议预测(NES)。通义灵码已覆盖主流IDE,助力开发者实现高效智能编程,插件下载量超1500万,生成代码超30亿行,成为国内最受欢迎的辅助编程工具。立即体验更智能的开发流程!
135 0
|
1月前
|
开发框架 人工智能 Java
破茧成蝶:阿里云应用服务器让传统 J2EE 应用无缝升级 AI 原生时代
本文详细介绍了阿里云应用服务器如何助力传统J2EE应用实现智能化升级。文章分为三部分:第一部分阐述了传统J2EE应用在智能化转型中的痛点,如协议鸿沟、资源冲突和观测失明;第二部分展示了阿里云应用服务器的解决方案,包括兼容传统EJB容器与微服务架构、支持大模型即插即用及全景可观测性;第三部分则通过具体步骤说明如何基于EDAS开启J2EE应用的智能化进程,确保十年代码无需重写,轻松实现智能化跃迁。
263 40
|
24天前
|
人工智能 数据挖掘
🔔阿里云百炼智能体和工作流可以发布为组件了,AI应用变成“搭积木”
本文介绍了如何通过智能体组件化设计快速生成PPT。首先,创建一个“PPT大纲生成”智能体并发布为组件,该组件可根据用户输入生成结构清晰的大纲。接着,在新的智能体应用中调用此组件与MCP服务(如ChatPPT),实现从大纲到完整PPT的自动化生成。整个流程模块化、复用性强,显著降低AI开发门槛,提升效率。非技术人员也可轻松上手,满足多样化场景需求。
🔔阿里云百炼智能体和工作流可以发布为组件了,AI应用变成“搭积木”
|
1月前
|
人工智能 数据挖掘 大数据
“龟速”到“光速”?算力如何加速 AI 应用进入“快车道”
阿里云将联合英特尔、蚂蚁数字科技专家,带来“云端进化论”特别直播。
86 11