混元开源又+1:视频音效可以自动生成了

简介: AI生成的视频音效,已经可以用于视频制作了。

AI生成的视频音效,已经可以用于视频制作了。

我们来重温一段《猫和老鼠》的名场面:

📎0b2eyudecaaghuaopmnitjufnrodihcqmqia.f10002.mp4

你能听出这个视频的音效全是 AI 生成的吗?

这个视频音效来自腾讯混元视频音效生成模型Hunyuan-Foley。我们还可以用它来生成流行的ASMR,体验“听觉爽感”,解压效果直接拉满。

📎video_with_audio_2 (1).mp4

8月28日,腾讯混元宣布开源端到端视频音效生成模型HunyuanVideo-Foley,只需输入视频和文字,就能视频匹配电影级音效

比如,输入文本描述"With a faint sound as their hands parted, the two embraced, a soft 'mm' escaping between them.”

就会得到一个声色俱佳的视频:

📎003.mp4

HunyuanVideo-Foley不仅打破了 AI 生成的视频只能 “看” 不能 “听” 的局限,让无声AI视频成为历史,更是真正做到了 “看懂画面、读懂文字、配准声音” ,带来沉浸式视听体验。这款音效生成工具可广泛应用于短视频创作、电影制作、广告创意和游戏开发等场景。

 

即日起,用户可在Github,HuggingFace下载模型,也可以在混元官网直接体验。

 

三大核心亮点,攻克视频音效生成难题

当前AI生成视频的能力越来越强,但视频音效生成仍然跟不上节奏,现有的音频生成技术主要面临三大痛点:

  • 痛点一:泛化能力不足。现有音视频数据集规模有限、质量参差,导致模型面对集外场景时难以生成贴合的音效,无法覆盖多样化视频配音场景。
  • 痛点二:语义响应不均衡。音频严重依赖文本语义,忽略视频语义,导致无法响应视频中文本未描述的音频内容。比如输入 "海浪声" 就只生成波浪音,完全忽略视频里的人群喧闹、海鸥鸣叫,最终生成的音频与场景脱节,影响观看体验。
  • 痛点三:音质粗糙。现有方法生成的音频仍存在较明显的背景噪音和杂音,无法满足专业制作对音质的要求。

 

HunyuanVideo-Foley 通过针对性技术创新,全面破解上述痛点。

亮点一:泛化能力好

HunyuanVideo-Foley可适配人物、动物、自然景观、卡通动画等各类视频,生成与画面精准匹配的音频。

比如通过文本描述:“Splash of water and loud thud as person hits the surface.”得到下面这个视频:

📎004.mp4

文本描述:Rustling and crunching of leaves and twigs under the fox kit's paws.

📎005.mp4

文本描述:Creaking of old wooden windmill

📎006.mp4

文本描述:Electric guitar power chords ringing out loudly and resonating.

📎007.mp4

这种业内领先的文本-视频驱动音频(TV2A)生成能力,得益于腾讯混元构建的大规模高质量TV2A(文本-视频-音频)数据集。

 

image.gif 编辑

为实现可扩展的多模态数据集构建,混元团队开发了一个全面的数据处理管道,能够自动化标注和过滤收集的音视频数据,构建了约10万小时级的高质量TV2A数据集,为模型训练提供了强大支撑,使得模型拥有强大的泛化能力,能够在各种复杂的视频条件下生成音画一致、语义对齐的高质量音频,包括音效与背景音乐。生成的音频能够与无声视频相结合,极大提升了视频的真实感和沉浸感。

亮点二:多模态语义均衡响应

针对语义响应过度依赖文本模态,无法充分响应视觉语义的问题,HunyuanVideo-Foley采用了创新的双流多模态扩散变换器(MMDiT)架构,通过联合自注意力机制建模视频和音频之间的帧级别对齐关系,随后通过交叉注意力机制注入文本信息。

得益于创新的结构设计,HunyuanVideo-Foley既能理解视频画面,又能结合文字描述,自动平衡不同信息源,生成层次丰富的复合音效,不会因为过度依赖于文本语义而只生成部分音效。

例如,当输入一段包含海浪、沙滩人群及海鸥的视频,且文字描述为 “海浪声” 时,HunyuanVideo-Foley 不仅能精准生成与海浪画面同步的波浪音效,响应文本需求,还能捕捉视频中人群交谈的声音、海鸥盘旋的鸣叫声,甚至根据场景氛围自然融入轻柔的背景环境音,形成层次丰富的复合音效。这种对文本描述与视频细节的双重响应,避免了 “顾文失画” 的问题,让生成的音频与整体场景高度契合,显著提升视频观看的沉浸感。

文本描述:The sound of waves crashing.

📎008.mp4

 

亮点三:专业级音频保真度

研究团队引入表征对齐(REPA)损失函数,利用预训练音频特征为建模过程提供语义与声学指导,显著提升了音频生成质量和稳定性。此外,得益于强大的音频VAE和高质量数据,HunyuanVideo-Foley极大程度抑制了底噪和不一致的音效瑕疵的出现,保证了专业级的音频保真度。

 

image.gif 编辑

无论是汽车驶过湿滑路面的细节质感,还是环境音的空间层次,均达到专业制作水准。

文字描述:A car drives over the wet road

📎009.mp4

HunyuanVideo-Foley生成的音频还能精准还原引擎从怠速到轰鸣的动态变化、呈现轮胎与地面摩擦的质感,甚至通过声场变化体现车辆加速时的空间位移感。

文字描述:Engine revving loudly and accelerating.

📎010.mp4

性能指标全面领先,助力创作者精品内容打造

在多个权威评测基准上,HunyuanVideo-Foley的性能表现全面领先,在音频保真度、视觉语义对齐、时间对齐和分布匹配等维度均达到了新的SOTA水平,超越了所有开源方案。

 

image.gif 编辑

 

image.gif 编辑

在权威评测基准 MovieGen-Audio-Bench测试集中,HunyuanVideo-Foley 的核心指标相对当前最先进的MMAudio模型实现显著提升:

  • 音频质量指标 PQ(AudioBox-Aesthetics)从 6.17提升至 6.59
  • 视觉语义对齐指标 IB 从 0.27 提升至 0.35
  • 在时序对齐指标 DeSync上从 0.80 优化至 0.74,均达到当前 SOTA 水平

 

在主观评测中,HunyuanVideo-Foley在音频质量、语义对齐和时间对齐三个维度的平均意见得分均超过4.1分(满分5分),展现了接近专业水准的音频生成效果。

作为开源框架,HunyuanVideo-Foley 不仅为行业提供了可复用的技术范式,更将加速多模态 AI 在内容创作领域的落地,短视频创作者可一键生成场景化音效,电影团队能快速完成环境音设计,游戏开发者可高效构建沉浸式听觉体验。

📎011.mp4

 

附项目相关链接

 

点击链接, 即可跳转体验~

https://modelscope.cn/studios/Tencent-Hunyuan/HunyuanVideo-Foley/summary

目录
相关文章
|
6月前
|
编解码 自然语言处理
通义万相开源14B数字人Wan2.2-S2V!影视级音频驱动视频生成,助力专业内容创作
今天,通义万相的视频生成模型又开源了!本次开源Wan2.2-S2V-14B,是一款音频驱动的视频生成模型,可生成影视级质感的高质量视频。
1446 29
|
机器学习/深度学习 人工智能 算法
【视觉智能产品速递——人物动漫化能力上新】
VIAPI—人物动漫化!新增风格版本发布。 产品功能:人物动漫化——输入一张人物图像,生成其二次元卡通形象,返回卡通化后的结果图像。 🔥🔥🔥 本次更新风格:国风工笔画、港漫风
1665 3
【视觉智能产品速递——人物动漫化能力上新】
|
6月前
|
机器人 图形学 开发者
腾讯混元最新开源:一张图,秒变游戏大片
有没有想过,随手拍的一张风景照,下一秒就能变成可操控的游戏开放世界?
505 3
|
5月前
|
人工智能 开发者 异构计算
魔搭勋章权益全面升级,免费工位+魔搭周边+GPU时长…统统安排!
亲爱的搭搭搭塔子们~(不是)你听说了吗?现在魔搭社区要给每一位搭友发!福!利!
159 1
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
B站开源IndexTTS2,用极致表现力颠覆听觉体验
在语音合成技术不断演进的背景下,早期版本的IndexTTS虽然在多场景应用中展现出良好的表现,但在情感表达的细腻度与时长控制的精准性方面仍存在提升空间。为了解决这些问题,并进一步推动零样本语音合成在实际场景中的落地能力,B站语音团队对模型架构与训练策略进行了深度优化,推出了全新一代语音合成模型——IndexTTS2 。
2626 62
|
5月前
|
人工智能 数据可视化 定位技术
不会编程也能体验的 AI 魔法,外滩大会代码原生地等你解锁
不会编程也能体验的 AI 魔法,外滩大会代码原生地等你解锁
486 39
|
并行计算 API C++
又欲又撩人,基于新版Bert-vits2V2.0.2音色模型雷电将军八重神子一键推理整合包分享
Bert-vits2项目近期炸裂更新,放出了v2.0.2版本的代码,修正了存在于2.0先前版本的重大bug,并且重炼了底模,本次更新是即1.1.1版本后最重大的更新,支持了三语言训练及混合合成,并且做到向下兼容,可以推理老版本的模型,本次我们基于新版V2.0.2来本地推理原神小姐姐们的音色模型。
又欲又撩人,基于新版Bert-vits2V2.0.2音色模型雷电将军八重神子一键推理整合包分享
|
5月前
|
编解码 文字识别 自然语言处理
腾讯混元生图模型升级2.1版本:支持写字、2k分辨率,开源!
腾讯混元生图模型升级2.1版本:支持写字、2k分辨率,开源!
405 14
|
5月前
|
人工智能 算法 数据挖掘
魔搭社区携手AFAC2025金融智能创新大赛,共同孵化金融科技新星
8月27日,在上海市科学技术委员会指导下,由北京大学、清华大学、复旦大学、香港大学、蚂蚁集团等近30家海内外顶级院校、头部企业、孵化器等机构联合发起的AFAC2025金融智能创新大赛总决赛路演圆满结束。
309 9