华为、腾讯开源AniPortrait:用音频、图片生成会说话的视频

简介: 【7月更文挑战第17天】华为腾讯联合开源AniPortrait,技术利用音频和图片生成栩栩如生的说话视频。通过音频分析面部表情,结合扩散模型与运动模块创建2D动画,实现自然的肖像动效。虽有高质量表现,但尚处研究阶段,面临隐私、伦理及应用局限性挑战。[论文链接](https://arxiv.org/abs/2403.17694)**

华为和腾讯最近联合发布了一项名为AniPortrait的创新技术,该技术利用音频和图像生成高质量的会说话的视频。这项技术在计算机图形学和动画领域引起了广泛关注,被许多专家认为是该领域的一项重要突破。

AniPortrait的核心思想是通过将音频信号和参考肖像图像作为输入,生成一系列2D面部关键点,然后使用一个强大的扩散模型和运动模块将这些关键点转换为逼真且时间一致的肖像动画。这种基于音频的动画生成方法为创作者提供了一种全新的方式,使他们能够通过声音来驱动动画,从而创造出更加生动和富有表现力的作品。

首先,让我们来看看AniPortrait的技术细节。在第一阶段,该技术从音频信号中提取3D中间表示,并将其投影到一系列2D面部关键点上。这涉及到使用机器学习算法来分析音频信号中的语音特征,并将其映射到相应的面部表情和口型上。然后,这些关键点被用作第二阶段的输入,即使用扩散模型和运动模块来生成动画。

扩散模型是一种生成模型,它通过逐渐添加噪声来生成新样本。在AniPortrait中,扩散模型用于根据输入的关键点序列生成一系列图像帧。然后,运动模块用于确保这些帧在时间上是一致的,并产生平滑的动画效果。

AniPortrait的技术优势在于它能够生成高质量、自然的面部动画。与传统的基于物理模型或手工动画的方法相比,AniPortrait能够更准确地捕捉到面部表情和口型的细微变化,从而创造出更加逼真和令人信服的动画效果。此外,由于该技术是基于音频的,因此它还具有很高的灵活性和可控性,创作者可以根据需要调整音频信号或关键点来改变动画效果。

然而,尽管AniPortrait在技术上取得了重大突破,但也有一些潜在的问题和挑战需要解决。首先,该技术目前还处于研究阶段,可能需要更多的时间和资源来将其转化为实际可用的产品或工具。其次,由于该技术涉及到生成面部动画,因此它可能引发一些隐私和伦理问题,例如未经许可使用个人肖像或创造不真实的虚假内容。

此外,一些专家还指出了AniPortrait在实际应用中的一些局限性。例如,该技术目前主要关注于生成静态肖像的动画,而对于更复杂的场景或角色动画可能还不够成熟。此外,由于该技术依赖于高质量的音频信号和参考肖像图像,因此它可能不适用于所有类型的动画项目或创作者。

论文地址:https://arxiv.org/abs/2403.17694

目录
相关文章
|
13天前
|
人工智能 自然语言处理 安全
【通义】AI视界|谷歌推出AI搜索功能“问照片”,照片一问即得……
本文汇总了AI领域的最新动态,包括谷歌推出的“问照片”功能,使用户能用自然语言检索Google Photos;OpenAI的商业用户激增及ChatGPT的广泛应用;Anthropic发布的企业级AI助手Claude Enterprise;美英欧盟首个人工智能法律约束条约;OpenAI前首席科学家新公司获巨额融资;以及比尔·盖茨对AI前景的乐观展望与安全建议。
|
16天前
|
编解码 监控 网络协议
如何用魔法般的步骤实现RTSP推送H.264与H.265(HEVC),打造震撼视听盛宴,让每一帧都充满魔力!
【9月更文挑战第3天】实现RTSP流媒体服务推送H.264和H.265编码视频是现代视频监控及直播平台的关键技术。本文详细介绍环境搭建、编码配置及服务器与客户端实现方法。首先,通过FFmpeg捕获视频并编码成RTSP流,接着使用VLC等工具接收播放。此外,还提供了C++示例代码,演示如何利用libv4l2和FFmpeg自定义服务器端实现。希望本文能帮助读者成功搭建RTSP视频流系统。
26 1
|
1月前
|
人工智能 文字识别 算法
通义语音AI技术问题之个人声音定制应用对于用户声音的复刻如何解决
通义语音AI技术问题之个人声音定制应用对于用户声音的复刻如何解决
26 4
|
1月前
|
编解码 监控 网络协议
【绝密技巧】揭秘!如何用魔法般的步骤实现RTSP推送H.264与H.265(HEVC),打造震撼视听盛宴,让每一帧都充满魔力!
【8月更文挑战第15天】本文详述了如何使用RTSP流媒体服务推送H.264及H.265编码视频,适用于视频监控和直播平台。首先需确保环境支持这两种编码格式,可通过FFmpeg实现。在Ubuntu上安装FFmpeg后,可配置从摄像头捕获视频并推流至RTSP服务器。针对H.265编码,只需更改视频编码器为`libx265`。客户端可使用VLC播放器接收流。此外,还提供了C++示例代码用于自定义服务器实现,包括初始化上下文、打开编码器和循环编码视频帧。此教程旨在助力实现RTSP推送目标。
30 0
|
4月前
|
机器学习/深度学习 人工智能 自然语言处理
微软推出VASA-1:可生成会说话的,动态人物视频
【4月更文挑战第30天】微软新推VASA-1技术,利用深度学习将文本转化为栩栩如生的动态人物视频,革新虚拟现实、游戏和影视制作。该技术优点在于生成的视频质量高、适应性强且效率高。但存在数据集限制导致的生成偏差、输入文本影响输出效果及使用门槛高等问题。[arXiv:2404.10667](https://arxiv.org/abs/2404.10667)
62 1
|
人工智能 安全 测试技术
从视频合成到配乐剪辑,全由AI操刀完成:首部AI科幻电影《创世纪》预告片震撼登场
从视频合成到配乐剪辑,全由AI操刀完成:首部AI科幻电影《创世纪》预告片震撼登场
476 0
|
人工智能 搜索推荐 C#
Unity 接入百度AI - 人像动漫化
Unity 接入百度AI - 人像动漫化
693 1
Unity 接入百度AI - 人像动漫化
|
机器学习/深度学习 人工智能 开发框架
Povey正式出任小米语音首席科学家,小米移动端框架MACE全面支持Kaldi
今日,小米开发者大会 MIDC 2019 在北京开幕。语音识别大牛、前霍普金斯大学副教授 Daniel Povey 也正式宣布出任小米集团语音首席科学家,而近日更新的小米移动端深度学习框架 MACE 也已支持 Kaldi。
186 0
Povey正式出任小米语音首席科学家,小米移动端框架MACE全面支持Kaldi
|
机器学习/深度学习 人工智能 自然语言处理
现实版「柯南变声器」来了,搜狗变声让你声音随心变
声音秒变志玲姐姐,秒变「矮大紧」,秒变萝莉、正太,现在通通不是问题!
657 0
现实版「柯南变声器」来了,搜狗变声让你声音随心变
|
vr&ar
Google专家深度解读VR影片拍摄、后期处理技术
本文整理自2016Google IO大会节选。演讲嘉宾:Jessica Brillhart。本次演讲也是她对过去一年的工作总结。讲述了VR影片与传统影片的区别,以及拍摄VR影片的新思路与新方法。
5132 0