混元开源又+1:视频音效可以自动生成了

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: AI生成的视频音效,已经可以用于视频制作了。

AI生成的视频音效,已经可以用于视频制作了。

我们来重温一段《猫和老鼠》的名场面:

📎0b2eyudecaaghuaopmnitjufnrodihcqmqia.f10002.mp4

你能听出这个视频的音效全是 AI 生成的吗?

这个视频音效来自腾讯混元视频音效生成模型Hunyuan-Foley。我们还可以用它来生成流行的ASMR,体验“听觉爽感”,解压效果直接拉满。

📎video_with_audio_2 (1).mp4

8月28日,腾讯混元宣布开源端到端视频音效生成模型HunyuanVideo-Foley,只需输入视频和文字,就能视频匹配电影级音效

比如,输入文本描述"With a faint sound as their hands parted, the two embraced, a soft 'mm' escaping between them.”

就会得到一个声色俱佳的视频:

📎003.mp4

HunyuanVideo-Foley不仅打破了 AI 生成的视频只能 “看” 不能 “听” 的局限,让无声AI视频成为历史,更是真正做到了 “看懂画面、读懂文字、配准声音” ,带来沉浸式视听体验。这款音效生成工具可广泛应用于短视频创作、电影制作、广告创意和游戏开发等场景。

 

即日起,用户可在Github,HuggingFace下载模型,也可以在混元官网直接体验。

 

三大核心亮点,攻克视频音效生成难题

当前AI生成视频的能力越来越强,但视频音效生成仍然跟不上节奏,现有的音频生成技术主要面临三大痛点:

  • 痛点一:泛化能力不足。现有音视频数据集规模有限、质量参差,导致模型面对集外场景时难以生成贴合的音效,无法覆盖多样化视频配音场景。
  • 痛点二:语义响应不均衡。音频严重依赖文本语义,忽略视频语义,导致无法响应视频中文本未描述的音频内容。比如输入 "海浪声" 就只生成波浪音,完全忽略视频里的人群喧闹、海鸥鸣叫,最终生成的音频与场景脱节,影响观看体验。
  • 痛点三:音质粗糙。现有方法生成的音频仍存在较明显的背景噪音和杂音,无法满足专业制作对音质的要求。

 

HunyuanVideo-Foley 通过针对性技术创新,全面破解上述痛点。

亮点一:泛化能力好

HunyuanVideo-Foley可适配人物、动物、自然景观、卡通动画等各类视频,生成与画面精准匹配的音频。

比如通过文本描述:“Splash of water and loud thud as person hits the surface.”得到下面这个视频:

📎004.mp4

文本描述:Rustling and crunching of leaves and twigs under the fox kit's paws.

📎005.mp4

文本描述:Creaking of old wooden windmill

📎006.mp4

文本描述:Electric guitar power chords ringing out loudly and resonating.

📎007.mp4

这种业内领先的文本-视频驱动音频(TV2A)生成能力,得益于腾讯混元构建的大规模高质量TV2A(文本-视频-音频)数据集。

 

image.gif 编辑

为实现可扩展的多模态数据集构建,混元团队开发了一个全面的数据处理管道,能够自动化标注和过滤收集的音视频数据,构建了约10万小时级的高质量TV2A数据集,为模型训练提供了强大支撑,使得模型拥有强大的泛化能力,能够在各种复杂的视频条件下生成音画一致、语义对齐的高质量音频,包括音效与背景音乐。生成的音频能够与无声视频相结合,极大提升了视频的真实感和沉浸感。

亮点二:多模态语义均衡响应

针对语义响应过度依赖文本模态,无法充分响应视觉语义的问题,HunyuanVideo-Foley采用了创新的双流多模态扩散变换器(MMDiT)架构,通过联合自注意力机制建模视频和音频之间的帧级别对齐关系,随后通过交叉注意力机制注入文本信息。

得益于创新的结构设计,HunyuanVideo-Foley既能理解视频画面,又能结合文字描述,自动平衡不同信息源,生成层次丰富的复合音效,不会因为过度依赖于文本语义而只生成部分音效。

例如,当输入一段包含海浪、沙滩人群及海鸥的视频,且文字描述为 “海浪声” 时,HunyuanVideo-Foley 不仅能精准生成与海浪画面同步的波浪音效,响应文本需求,还能捕捉视频中人群交谈的声音、海鸥盘旋的鸣叫声,甚至根据场景氛围自然融入轻柔的背景环境音,形成层次丰富的复合音效。这种对文本描述与视频细节的双重响应,避免了 “顾文失画” 的问题,让生成的音频与整体场景高度契合,显著提升视频观看的沉浸感。

文本描述:The sound of waves crashing.

📎008.mp4

 

亮点三:专业级音频保真度

研究团队引入表征对齐(REPA)损失函数,利用预训练音频特征为建模过程提供语义与声学指导,显著提升了音频生成质量和稳定性。此外,得益于强大的音频VAE和高质量数据,HunyuanVideo-Foley极大程度抑制了底噪和不一致的音效瑕疵的出现,保证了专业级的音频保真度。

 

image.gif 编辑

无论是汽车驶过湿滑路面的细节质感,还是环境音的空间层次,均达到专业制作水准。

文字描述:A car drives over the wet road

📎009.mp4

HunyuanVideo-Foley生成的音频还能精准还原引擎从怠速到轰鸣的动态变化、呈现轮胎与地面摩擦的质感,甚至通过声场变化体现车辆加速时的空间位移感。

文字描述:Engine revving loudly and accelerating.

📎010.mp4

性能指标全面领先,助力创作者精品内容打造

在多个权威评测基准上,HunyuanVideo-Foley的性能表现全面领先,在音频保真度、视觉语义对齐、时间对齐和分布匹配等维度均达到了新的SOTA水平,超越了所有开源方案。

 

image.gif 编辑

 

image.gif 编辑

在权威评测基准 MovieGen-Audio-Bench测试集中,HunyuanVideo-Foley 的核心指标相对当前最先进的MMAudio模型实现显著提升:

  • 音频质量指标 PQ(AudioBox-Aesthetics)从 6.17提升至 6.59
  • 视觉语义对齐指标 IB 从 0.27 提升至 0.35
  • 在时序对齐指标 DeSync上从 0.80 优化至 0.74,均达到当前 SOTA 水平

 

在主观评测中,HunyuanVideo-Foley在音频质量、语义对齐和时间对齐三个维度的平均意见得分均超过4.1分(满分5分),展现了接近专业水准的音频生成效果。

作为开源框架,HunyuanVideo-Foley 不仅为行业提供了可复用的技术范式,更将加速多模态 AI 在内容创作领域的落地,短视频创作者可一键生成场景化音效,电影团队能快速完成环境音设计,游戏开发者可高效构建沉浸式听觉体验。

📎011.mp4

 

附项目相关链接

 

点击链接, 即可跳转体验~

https://modelscope.cn/studios/Tencent-Hunyuan/HunyuanVideo-Foley/summary

目录
相关文章
|
2月前
|
编解码 自然语言处理
通义万相开源14B数字人Wan2.2-S2V!影视级音频驱动视频生成,助力专业内容创作
今天,通义万相的视频生成模型又开源了!本次开源Wan2.2-S2V-14B,是一款音频驱动的视频生成模型,可生成影视级质感的高质量视频。
565 29
|
2月前
|
机器人 图形学 开发者
腾讯混元最新开源:一张图,秒变游戏大片
有没有想过,随手拍的一张风景照,下一秒就能变成可操控的游戏开放世界?
236 3
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
B站开源IndexTTS2,用极致表现力颠覆听觉体验
在语音合成技术不断演进的背景下,早期版本的IndexTTS虽然在多场景应用中展现出良好的表现,但在情感表达的细腻度与时长控制的精准性方面仍存在提升空间。为了解决这些问题,并进一步推动零样本语音合成在实际场景中的落地能力,B站语音团队对模型架构与训练策略进行了深度优化,推出了全新一代语音合成模型——IndexTTS2 。
1477 62
|
1月前
|
人工智能 数据可视化 定位技术
不会编程也能体验的 AI 魔法,外滩大会代码原生地等你解锁
不会编程也能体验的 AI 魔法,外滩大会代码原生地等你解锁
332 39
|
1月前
|
人工智能 开发者 异构计算
魔搭勋章权益全面升级,免费工位+魔搭周边+GPU时长…统统安排!
亲爱的搭搭搭塔子们~(不是)你听说了吗?现在魔搭社区要给每一位搭友发!福!利!
83 1
|
27天前
|
机器学习/深度学习 人工智能 前端开发
通义DeepResearch全面开源!同步分享可落地的高阶Agent构建方法论
通义研究团队开源发布通义 DeepResearch —— 首个在性能上可与 OpenAI DeepResearch 相媲美、并在多项权威基准测试中取得领先表现的全开源 Web Agent。
1731 89
|
2月前
智谱发布GLM-4.5V,全球开源多模态推理新标杆,Day0推理微调实战教程到!
视觉语言大模型(VLM)已经成为智能系统的关键基石。随着真实世界的智能任务越来越复杂,VLM模型也亟需在基本的多模态感知之外,逐渐增强复杂任务中的推理能力,提升自身的准确性、全面性和智能化程度,使得复杂问题解决、长上下文理解、多模态智能体等智能任务成为可能。
448 0
|
2月前
|
编解码 人工智能 小程序
魔搭社区模型速递(8.17-8.23)
🙋魔搭ModelScope本期社区进展:📟1652个模型,📁216个数据集,🎨54个创新应用,📄 4篇内容
387 8
魔搭社区模型速递(8.17-8.23)

热门文章

最新文章