混元开源又+1:视频音效可以自动生成了

简介: AI生成的视频音效,已经可以用于视频制作了。

 AI生成的视频音效,已经可以用于视频制作了。

我们来重温一段《猫和老鼠》的名场面:

📎0b2eyudecaaghuaopmnitjufnrodihcqmqia.f10002.mp4

你能听出这个视频的音效全是 AI 生成的吗?

这个视频音效来自腾讯混元视频音效生成模型Hunyuan-Foley。我们还可以用它来生成流行的ASMR,体验“听觉爽感”,解压效果直接拉满。

📎video_with_audio_2 (1).mp4

8月28日,腾讯混元宣布开源端到端视频音效生成模型HunyuanVideo-Foley,只需输入视频和文字,就能视频匹配电影级音效

比如,输入文本描述"With a faint sound as their hands parted, the two embraced, a soft 'mm' escaping between them.”

就会得到一个声色俱佳的视频:

📎003.mp4

HunyuanVideo-Foley不仅打破了 AI 生成的视频只能 “看” 不能 “听” 的局限,让无声AI视频成为历史,更是真正做到了 “看懂画面、读懂文字、配准声音” ,带来沉浸式视听体验。这款音效生成工具可广泛应用于短视频创作、电影制作、广告创意和游戏开发等场景。

 

即日起,用户可在Github,HuggingFace下载模型,也可以在混元官网直接体验。

 

三大核心亮点,攻克视频音效生成难题

当前AI生成视频的能力越来越强,但视频音效生成仍然跟不上节奏,现有的音频生成技术主要面临三大痛点:

  • 痛点一:泛化能力不足。现有音视频数据集规模有限、质量参差,导致模型面对集外场景时难以生成贴合的音效,无法覆盖多样化视频配音场景。
  • 痛点二:语义响应不均衡。音频严重依赖文本语义,忽略视频语义,导致无法响应视频中文本未描述的音频内容。比如输入 "海浪声" 就只生成波浪音,完全忽略视频里的人群喧闹、海鸥鸣叫,最终生成的音频与场景脱节,影响观看体验。
  • 痛点三:音质粗糙。现有方法生成的音频仍存在较明显的背景噪音和杂音,无法满足专业制作对音质的要求。

 

HunyuanVideo-Foley 通过针对性技术创新,全面破解上述痛点。

亮点一:泛化能力好

HunyuanVideo-Foley可适配人物、动物、自然景观、卡通动画等各类视频,生成与画面精准匹配的音频。

比如通过文本描述:“Splash of water and loud thud as person hits the surface.”得到下面这个视频:

📎004.mp4

文本描述:Rustling and crunching of leaves and twigs under the fox kit's paws.

📎005.mp4

文本描述:Creaking of old wooden windmill

📎006.mp4

文本描述:Electric guitar power chords ringing out loudly and resonating.

📎007.mp4

这种业内领先的文本-视频驱动音频(TV2A)生成能力,得益于腾讯混元构建的大规模高质量TV2A(文本-视频-音频)数据集。

 

image.gif 编辑

为实现可扩展的多模态数据集构建,混元团队开发了一个全面的数据处理管道,能够自动化标注和过滤收集的音视频数据,构建了约10万小时级的高质量TV2A数据集,为模型训练提供了强大支撑,使得模型拥有强大的泛化能力,能够在各种复杂的视频条件下生成音画一致、语义对齐的高质量音频,包括音效与背景音乐。生成的音频能够与无声视频相结合,极大提升了视频的真实感和沉浸感。

亮点二:多模态语义均衡响应

针对语义响应过度依赖文本模态,无法充分响应视觉语义的问题,HunyuanVideo-Foley采用了创新的双流多模态扩散变换器(MMDiT)架构,通过联合自注意力机制建模视频和音频之间的帧级别对齐关系,随后通过交叉注意力机制注入文本信息。

得益于创新的结构设计,HunyuanVideo-Foley既能理解视频画面,又能结合文字描述,自动平衡不同信息源,生成层次丰富的复合音效,不会因为过度依赖于文本语义而只生成部分音效。

例如,当输入一段包含海浪、沙滩人群及海鸥的视频,且文字描述为 “海浪声” 时,HunyuanVideo-Foley 不仅能精准生成与海浪画面同步的波浪音效,响应文本需求,还能捕捉视频中人群交谈的声音、海鸥盘旋的鸣叫声,甚至根据场景氛围自然融入轻柔的背景环境音,形成层次丰富的复合音效。这种对文本描述与视频细节的双重响应,避免了 “顾文失画” 的问题,让生成的音频与整体场景高度契合,显著提升视频观看的沉浸感。

文本描述:The sound of waves crashing.

📎008.mp4

 

亮点三:专业级音频保真度

研究团队引入表征对齐(REPA)损失函数,利用预训练音频特征为建模过程提供语义与声学指导,显著提升了音频生成质量和稳定性。此外,得益于强大的音频VAE和高质量数据,HunyuanVideo-Foley极大程度抑制了底噪和不一致的音效瑕疵的出现,保证了专业级的音频保真度。

 

image.gif 编辑

无论是汽车驶过湿滑路面的细节质感,还是环境音的空间层次,均达到专业制作水准。

文字描述:A car drives over the wet road

📎009.mp4

HunyuanVideo-Foley生成的音频还能精准还原引擎从怠速到轰鸣的动态变化、呈现轮胎与地面摩擦的质感,甚至通过声场变化体现车辆加速时的空间位移感。

文字描述:Engine revving loudly and accelerating.

📎010.mp4

性能指标全面领先,助力创作者精品内容打造

在多个权威评测基准上,HunyuanVideo-Foley的性能表现全面领先,在音频保真度、视觉语义对齐、时间对齐和分布匹配等维度均达到了新的SOTA水平,超越了所有开源方案。

 

image.gif 编辑

 

image.gif 编辑

在权威评测基准 MovieGen-Audio-Bench测试集中,HunyuanVideo-Foley 的核心指标相对当前最先进的MMAudio模型实现显著提升:

  • 音频质量指标 PQ(AudioBox-Aesthetics)从 6.17提升至 6.59
  • 视觉语义对齐指标 IB 从 0.27 提升至 0.35
  • 在时序对齐指标 DeSync上从 0.80 优化至 0.74,均达到当前 SOTA 水平

 

在主观评测中,HunyuanVideo-Foley在音频质量、语义对齐和时间对齐三个维度的平均意见得分均超过4.1分(满分5分),展现了接近专业水准的音频生成效果。

作为开源框架,HunyuanVideo-Foley 不仅为行业提供了可复用的技术范式,更将加速多模态 AI 在内容创作领域的落地,短视频创作者可一键生成场景化音效,电影团队能快速完成环境音设计,游戏开发者可高效构建沉浸式听觉体验。

📎011.mp4

 

附项目相关链接

 

点击链接, 即可跳转体验~

https://modelscope.cn/studios/Tencent-Hunyuan/HunyuanVideo-Foley/summary

目录
相关文章
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
B站开源IndexTTS2,用极致表现力颠覆听觉体验
在语音合成技术不断演进的背景下,早期版本的IndexTTS虽然在多场景应用中展现出良好的表现,但在情感表达的细腻度与时长控制的精准性方面仍存在提升空间。为了解决这些问题,并进一步推动零样本语音合成在实际场景中的落地能力,B站语音团队对模型架构与训练策略进行了深度优化,推出了全新一代语音合成模型——IndexTTS2 。
3167 62
|
7月前
|
JSON 人工智能 Java
基于Spring AI构建智能Text-to-SQL转换器:一个完整的MCP
Spring AI 更新结构化输出转换器,弃用旧版 Parser 类,引入与 Spring 框架对齐的 Converter 体系,提升命名规范与功能兼容性。新版本支持 JSON、XML 及 Java 对象转换,确保 LLM 输出结构化,便于下游应用处理。
|
7月前
|
编解码 自然语言处理
通义万相开源14B数字人Wan2.2-S2V!影视级音频驱动视频生成,助力专业内容创作
今天,通义万相的视频生成模型又开源了!本次开源Wan2.2-S2V-14B,是一款音频驱动的视频生成模型,可生成影视级质感的高质量视频。
1615 29
|
6月前
|
存储 人工智能 机器人
告别 “缸中之脑”:为何 Agent Runtime 至关重要?MuleRun 如何实现突破?
TL;DR:很多 AI Agent 被困在受限且一刀切的沙箱内,而 MuleRun 是全球首个通过提供可完全自定义且持久化的 Agent Runtime 来解决这一问题的平台——即你可以定义操作系统、访问原生软件、跨会话保留状态并分配硬件资源。这让你能打造真正的“数字化工人”,而不仅仅是受限的聊天机器人。
817 9
|
7月前
|
SQL 运维 监控
抖音基于Flink的DataOps能力实践
本文整理自抖音集团数据工程师黄鑫在Flink Forward Asia 2024的分享,围绕抖音实时数据研发的现状与挑战、DataOps能力建设及未来规划展开,涵盖需求管理、开发测试、发布运维等全流程实践,旨在提升数据质量与开发效率,实现高效稳定的数据交付。
504 18
抖音基于Flink的DataOps能力实践
|
6月前
|
人工智能 编解码 数据可视化
AI创作更自由: 魔搭FLowBench云端工作流上线AIGC专区!支持QwenImageEdit免费出图!
很高兴向大家宣布,ModelScope AIGC 专区的工作流功能正式上线!
1108 22
|
6月前
|
人工智能 数据可视化 定位技术
不会编程也能体验的 AI 魔法,外滩大会代码原生地等你解锁
不会编程也能体验的 AI 魔法,外滩大会代码原生地等你解锁
512 39
人工智能 开发框架 自然语言处理
405 20

热门文章

最新文章