通义 CoGenAV 大模型音画同步感知,重新定义语音理解边界

简介: CoGenAV 是一种创新的多模态语音理解模型,核心理念是实现“音画同步”的深度理解。通过学习 audio-visual-text 的时序对齐关系,构建更鲁棒、更通用的语音表征框架。它在视觉语音识别(VSR)、音视频语音识别(AVSR)、语音增强与分离(AVSE/AVSS)及主动说话人检测(ASD)等任务中表现出色,尤其在嘈杂环境下性能显著提升。仅需 223 小时数据训练即可媲美传统数千小时数据的效果,大幅降低训练成本。CoGenAV 支持主流平台如 GitHub、HuggingFace 和 ModelScope,助力多场景应用开发。

image.png

image.png

听清+看懂每一句话

CoGenAV 的核心理念是 AI 模型也实现“音画同步”的深度理解。它不再只是“听见声音”,而是通过学习 audio-visual-text 之间的时序对齐关系,构建出一个更鲁棒更通用的语音表征框架

该框架能系统性地提升多个 Speech-Centric 任务的表现力,包括但不限于:语音识别任务(VSR/AVSR),语音重建任务(AVSS/AVSE),以及语音同步任务(ASD)。

image.png

CoGenAV 创新性的采用“对比生成同步”策略,能从 audio-visual-text 多模同步信息中高效地学习到高质量的音视频特征表示。这种能力使它不仅适用于传统的语音识别任务,还能拓展至语音重建、说话人判断等多个领域。此外,CoGenAV 可直接接入主流语音识别模型(如 Whisper),无需修改或微调即可实现视觉语音识别功能,显著降低了部署门槛。CoGenAV 还展现出出色的抗噪能力和数据效率。在嘈杂环境中,它能够通过视觉信息补全被噪声干扰的声音内容,从而稳定输出准确结果。而在训练数据方面,仅需 223 小时的数据量,就能达到甚至超越传统模型使用数千小时数据的效果。这大大节省了训练成本,也增强了模型的实用性与扩展潜力。

如何实现音画同步?

CoGenAV 的核心框架由两个关键部分组成:音视频特征表示对比生成同步训练机制。

在特征提取阶段,模型采用 ResNet 3D CNN 来分析视频中说话人的唇部动作,捕捉声音与口型之间的动态关联;同时用 Transformer 编码器提取音频中的语音信息。这些音视频特征会被精确对齐,确保“听到的声音”和“看到的嘴型”在时间上完全匹配。

对比生成同步训练通过两种方式提升模型的理解能力:

  • 对比同步采用 Seq2Seq Contrastive Learning 方法,增强音频与视频特征之间的对应关系,帮助模型更准确地识别声音与口型的匹配。同时引入 ReLU 激活函数,过滤掉不相关的干扰帧,提升模型在复杂环境下的稳定性。
  • 生成同步,借助一个预训练 ASR 模型(如 Whisper)作为“老师”,将 CoGenAV 提取的音视频特征与其声学-文本表示对齐。为了弥补不同模态之间的差异,模型设计了一个轻量级适配模块(Delta Upsampler + GatedFFN MHA),有效提升了跨模态融合效率。

这套“双轮驱动”的训练策略,使 CoGenAV 在多个语音任务中都表现出色,真正实现了“听清 + 看懂”的多模态理解。

性能领先记录刷新

CoGenAV在多个基准数据集上取得了突破性成果。

视觉语音识别(VSR):在 LRS2 数据集上,仅用 223 小时唇动视频训练,就在视觉语音识别(VSR)任务中达到 20.5% 的词错误率(WER),效果媲美使用数千小时数据的传统模型。

image.png

音视频语音识别(AVSR):结合 Whisper Medium 模型,在相同数据集实现 1.27% WER,刷新 SOTA 记录。在 0dB 噪声环境下,性能提升超过 80%,显著优于纯音频模型(如Whisper Medium的34.2% WER)。

image.png

语音增强与分离(AVSE/AVSS):在 LRS2 语音分离与任务中,CoGenAV作为视觉特征提取器,SDRi指标达 16.0 dB ,超越AvHuBERT 1.6 dB,Av SepFormer 0.3 dB。 语音增强任务中,SDRi指标为 9.0 dB ,优于Av HuBERT 1.6 dB。

image.png

主动说话人检测(ASD):在Talkies数据集上,CoGenAV的平均精度(mAP)达到 96.3% ,领先现有方法(如LocoNet的96.1%)。

image.png

是不是很实用呢,赶快来体验一下新的模型能力吧~~

可使用平台:

GitHub: https://github.com/HumanMLLM/CoGenAV

arivx: https://arxiv.org/pdf/2505.03186

HuggingFace: https://huggingface.co/detao/CoGenAV

ModelScope: https://modelscope.cn/models/iic/cogenav


⛳如果还想要了解更多通义大模型的模型详细信息以及直接进入体验,可以点击🔗https://www.aliyun.com/product/tongyi直接进入查看和体验哦~~

也可以关注一下通义大模型的公众号,后续有新的产品动态都会在内发布。

通义大模型公众号二维码.png


相关实践学习
如何快速创建插件agent
阿里云百炼应用基于Assistant API技术架构,结合大语言模型(LLM)的推理、知识检索增强、插件调度等能力,构建应对各类复杂场景任务的场景应用。通过集成化、直观易用的产品界面,为开发者提供了丰富的应用配置选项,包括大型语言模型(LLM)选择、Pro
相关文章
|
17天前
|
机器学习/深度学习 人工智能 算法
通义OmniAudio大模型,让 AI 看懂 360° 视频,并“听”出对应的空间音频
OmniAudio 是一项突破性的空间音频生成技术,能够直接从 360° 视频生成 FOA(First-order Ambisonics)空间音频,为虚拟现实和沉浸式娱乐带来全新可能。通过自监督 coarse-to-fine 预训练和双分支视频表示微调,OmniAudio 在非空间音频质量和空间定位准确性上显著优于现有方法。项目包含超过 103,000 个视频片段的 Sphere360 数据集,支持高质量的模型训练与评估。代码、数据及论文均已开源,助力沉浸式体验技术发展。
|
14天前
|
人工智能 IDE 搜索推荐
通义灵码2.5评测:从编程智能体到记忆感知的AI编码革命
通义灵码2.5版本更新带来了多项新功能,包括Lingma IDE的开箱即用体验、编程智能体模式实现端到端编码任务、MCP工具集成扩展AI助手能力以及Qwen3模型升级大幅提升代码生成准确性和效率。此外,新增长期记忆与上下文感知功能,使开发更个性化和高效。尽管存在一些局限性,如复杂业务逻辑仍需人工干预,但整体显著提升了开发效率。官方还提供了高质量视频课程助力用户学习。
309 10
|
16天前
|
机器学习/深度学习 编解码 文字识别
小米又放大招!MiMo-VL 多模态大模型开源,魔搭推理微调全面解读来了!
今天,小米开源发布两款 7B 规模视觉-语言模型 MiMo-VL-7B-SFT 和 MiMo-VL-7B-RL。
184 9
|
22天前
|
人工智能 自然语言处理 程序员
通义灵码 2.5 版发布上线,支持 Qwen3
示例中展示了通义灵码创建贪食蛇游戏的过程,包括代码优化、Bug修复和功能改进(如游戏结束后提示重新开始)。并通过AI总结了工具的核心能力,如实时续写、自然语言生码、单元测试生成等,帮助开发者高效编码并提升代码质量。
104 9
|
24天前
|
人工智能 安全 Android开发
手机也能跑通义Qwen3大模型,手把手教你部署!
全球开源模型冠军Qwen3与端到端全模态模型Qwen2.5-Omni现已成功在手机上跑通!借助MNN支持,适配Android、iOS及桌面端,实现低延迟、本地化、高安全的AI体验。用户可通过自定义Sampler设置、System Prompt和Max New Tokens调节模型输出风格与长度。
|
1月前
|
定位技术 UED
#我用Qwen3做了旅游专家# 、#阿里云百炼#、@通义大模型
本教程介绍如何在百炼控制台配置智能体应用以提升旅游专家功能。首先登录百炼控制台,依次点击“应用”、“应用管理”和“智能体应用”,然后进入“设置”填写提示词。通过集成MCP高德地图与Qwen3模型,使旅游专家的回答更具体、专业,涵盖目的地导航、当地饮食、风俗习惯及天气预报等信息,显著提高用户体验与出行便利性,同时加深对智能体配置的理解。
80 10
|
16天前
|
人工智能 IDE 定位技术
通义灵码 AI IDE 正式上线,智能体自动写代码,首创自动记忆,工程感知全面升级
阿里云发布的通义灵码AI IDE深度适配千问3大模型,集成智能编码助手功能,支持编程智能体、工具调用、工程感知等能力。其核心亮点包括:支持最强开源模型千问3,全面集成通义灵码插件能力,自带编程智能体模式,支持长期记忆与行间建议预测(NES)。通义灵码已覆盖主流IDE,助力开发者实现高效智能编程,插件下载量超1500万,生成代码超30亿行,成为国内最受欢迎的辅助编程工具。立即体验更智能的开发流程!
135 0