混元开源又+1：视频音效可以自动生成了

2025-09-01 708

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： AI生成的视频音效，已经可以用于视频制作了。

AI生成的视频音效，已经可以用于视频制作了。

我们来重温一段《猫和老鼠》的名场面：

📎0b2eyudecaaghuaopmnitjufnrodihcqmqia.f10002.mp4

你能听出这个视频的音效全是 AI 生成的吗？

这个视频音效来自腾讯混元视频音效生成模型Hunyuan-Foley。我们还可以用它来生成流行的ASMR，体验“听觉爽感”，解压效果直接拉满。

📎video_with_audio_2 (1).mp4

8月28日，腾讯混元宣布开源端到端视频音效生成模型HunyuanVideo-Foley，只需输入视频和文字，就能为视频匹配电影级音效。

比如，输入文本描述"With a faint sound as their hands parted, the two embraced, a soft 'mm' escaping between them.”

就会得到一个声色俱佳的视频：

📎003.mp4

HunyuanVideo-Foley不仅打破了 AI 生成的视频只能 “看” 不能 “听” 的局限，让无声AI视频成为历史，更是真正做到了 “看懂画面、读懂文字、配准声音” ，带来沉浸式视听体验。这款音效生成工具可广泛应用于短视频创作、电影制作、广告创意和游戏开发等场景。

即日起，用户可在Github,HuggingFace下载模型，也可以在混元官网直接体验。

三大核心亮点，攻克视频音效生成难题

当前AI生成视频的能力越来越强，但视频音效生成仍然跟不上节奏，现有的音频生成技术主要面临三大痛点：

痛点一：泛化能力不足。现有音视频数据集规模有限、质量参差，导致模型面对集外场景时难以生成贴合的音效，无法覆盖多样化视频配音场景。
痛点二：语义响应不均衡。音频严重依赖文本语义，忽略视频语义，导致无法响应视频中文本未描述的音频内容。比如输入 "海浪声" 就只生成波浪音，完全忽略视频里的人群喧闹、海鸥鸣叫，最终生成的音频与场景脱节，影响观看体验。
痛点三：音质粗糙。现有方法生成的音频仍存在较明显的背景噪音和杂音，无法满足专业制作对音质的要求。

HunyuanVideo-Foley 通过针对性技术创新，全面破解上述痛点。

亮点一：泛化能力好

HunyuanVideo-Foley可适配人物、动物、自然景观、卡通动画等各类视频，生成与画面精准匹配的音频。

比如通过文本描述：“Splash of water and loud thud as person hits the surface.”得到下面这个视频：

📎004.mp4

文本描述：Rustling and crunching of leaves and twigs under the fox kit's paws.

📎005.mp4

文本描述：Creaking of old wooden windmill

📎006.mp4

文本描述：Electric guitar power chords ringing out loudly and resonating.

📎007.mp4

这种业内领先的文本-视频驱动音频（TV2A）生成能力，得益于腾讯混元构建的大规模高质量TV2A（文本-视频-音频）数据集。

编辑

为实现可扩展的多模态数据集构建，混元团队开发了一个全面的数据处理管道，能够自动化标注和过滤收集的音视频数据，构建了约10万小时级的高质量TV2A数据集，为模型训练提供了强大支撑，使得模型拥有强大的泛化能力，能够在各种复杂的视频条件下生成音画一致、语义对齐的高质量音频，包括音效与背景音乐。生成的音频能够与无声视频相结合，极大提升了视频的真实感和沉浸感。

亮点二：多模态语义均衡响应

针对语义响应过度依赖文本模态，无法充分响应视觉语义的问题，HunyuanVideo-Foley采用了创新的双流多模态扩散变换器（MMDiT）架构，通过联合自注意力机制建模视频和音频之间的帧级别对齐关系，随后通过交叉注意力机制注入文本信息。

得益于创新的结构设计，HunyuanVideo-Foley既能理解视频画面，又能结合文字描述，自动平衡不同信息源，生成层次丰富的复合音效，不会因为过度依赖于文本语义而只生成部分音效。

例如，当输入一段包含海浪、沙滩人群及海鸥的视频，且文字描述为 “海浪声” 时，HunyuanVideo-Foley 不仅能精准生成与海浪画面同步的波浪音效，响应文本需求，还能捕捉视频中人群交谈的声音、海鸥盘旋的鸣叫声，甚至根据场景氛围自然融入轻柔的背景环境音，形成层次丰富的复合音效。这种对文本描述与视频细节的双重响应，避免了 “顾文失画” 的问题，让生成的音频与整体场景高度契合，显著提升视频观看的沉浸感。

文本描述：The sound of waves crashing.

📎008.mp4