引言

本来刚加完班回来，躺在床上打开B站就看到了阿里云连发的三篇视频，直接给我吓得坐起来了。

卧槽？EMO开源了？随即我赶紧上网查了一下，结果发现原来只是更新到通义APP里了，好吧，那没事了~

不过，下面我们还是就这个工具来聊聊体验吧。

体验

之前我写过一篇阿里通义最新黑科技！“通义舞王”：让静态照片翩翩起舞，探索艺术与科技的无限可能，而此次的EMO也是直接更新到一起了，直接合成了一个【全民舞台】。

进入【通义APP】后，点击导航栏的【频道】，点击【全民舞台】即可

点击【立即体验】，进入后随意选择模板，然后仅需准备一张图片便可以生成动态的说话效果。

不过由于体验人数过多，生成时间普遍在10分钟左右，阿里云官方也表示：顶不住了，已经上全量了。

这里我选择了一张祁同伟的照片，本来想做一个《祁同伟同志讲廉政》的，结果翻了半天发现目前还不支持自定义模板，那没办法了，只能套用现有模板了。不过其实现有的模板数量也是很丰富的，首批上线了 80 多个 EMO 模板，包括热门歌曲《上春山》《野狼 Disco》等。

10 minutes later ……………………

看一下生成的效果如何。

这里社区不允许放动图，大家可以跳去CSDN链接看看生成效果点此到达

不听声音只看口型的话，几乎像是从电视剧原片中截取一样，几乎没有任何人能想到这会是AI生成的吧！

接下来我们也走进底层技术，了解和学习EMO这个神奇的 AI 图生视频模型吧

EMO

EMO(Emote Portrait Alive)是阿里巴巴集团智能计算研究院的研究团队开发的一个创新框架，是一种音频驱动的人工智能肖像视频创作系统。通过输入一张参考图片和语音音频，这一系统能够创造出生动的视频，展现出丰富的面部表情和多变的头部动作（说白了就是给你一张照片能够让照片里的人物唱你所制定的语言或歌曲）。EMO系统精准地捕获了人类微妙的表情细节和面部特征的个性化风格，因此能够生成高度真实感和强烈表现力的动态图像。

官方项目主页：https://humanaigc.github.io/emote-portrait-alive/

arXiv 研究论文：https://arxiv.org/abs/2402.17485

GitHub：https://github.com/HumanAIGC/EMO（模型和源码待开源）

EMO的特点

音频驱动的视频生成：EMO 能够根据输入的音频（如说话或唱歌）直接生成视频，无需依赖于预先录制的视频片段或 3D 面部模型。
高表现力和逼真度：EMO 生成的视频具有高度的表现力，能够捕捉并再现人类面部表情的细微差别，包括微妙的微表情，以及与音频节奏相匹配的头部运动。
无缝帧过渡：EMO 确保视频帧之间的过渡自然流畅，避免了面部扭曲或帧间抖动的问题，从而提高了视频的整体质量。
身份保持：通过 FrameEncoding 模块，EMO 能够在视频生成过程中保持角色身份的一致性，确保角色的外观与输入的参考图像保持一致。
稳定的控制机制：EMO 采用了速度控制器和面部区域控制器等稳定控制机制，以增强视频生成过程中的稳定性，避免视频崩溃等问题。
灵活的视频时长：EMO 可以根据输入音频的长度生成任意时长的视频，为用户提供了灵活的创作空间。
跨语言和跨风格：EMO 的训练数据集涵盖了多种语言和风格，包括中文和英文，以及现实主义、动漫和 3D 风格，这使得 EMO 能够适应不同的文化和艺术风格。

EMO的技术原理

EMO（Emote Portrait Alive）的工作原理基于音频信号来驱动肖像视频的生成。通过先进的深度学习技术，它分析输入的参考图像和伴随的音频。在对参考图像进行面部特征识别后，系统将音频中包含的情感和节奏信息转化为对应的面部表情和头部姿势。

EMO（情感肖像激活技术）的核心在于其能够捕捉并转化音频情绪至视觉表现的能力。具体来说，当接收一段音频信号时，EMO首先利用高精度的面部识别算法从参考图像中提取出详细的面部特征结构，包括但不限于眼睛、眉毛、嘴巴、脸颊等部位的表情肌变化细节。

在初步处理阶段，ReferenceNet作为核心技术组件，通过深度学习模型对输入的静态肖像进行多层次、全方位的特征解构，同时对相关的动作序列帧进行分析和关键点定位。这一阶段确保了原始图像的面部特征被有效提取并标准化，以便于后续动态化处理。

进入高级处理阶段，音频信号通过一个强大的音频编码器进行深入解析，编码器能够敏锐地捕获声音中的语调、音量、节奏以及情感强度等微妙变化，并将这些非视觉信息转化为高维度的嵌入向量。此向量与先前从图像提取的特征相结合，形成驱动面部表情生成的基础。

为了精准匹配音频情感与视觉表达之间的映射关系，EMO技术运用了面部遮罩技术，这种技术可以精细到像素级别地调整面部表情区域，确保生成的动画表情真实且细腻。在此过程中，采用了复杂而高效的多帧噪声数据处理技术，以增强生成内容的时间连续性和一致性。

关键技术突破还包括一个专门设计的骨干网络，它不仅强化了去噪性能，而且在其内部集成了双重视觉注意力机制。一方面，参考注意力机制确保了生成的动态肖像始终保持与原始参考图像的身份特征相符；另一方面，音频注意力机制则紧密跟随音频信号的变化，动态调节面部表情及头部姿态以准确同步对应的声音情感内容。

最后，在整个技术流程中融入了一个专门针对时间序列建模的时间处理模块，这一模块能智能调控输出动画的时间流逝速度和动作平滑性，使得最终生成的肖像动画不仅能够随音频情感起伏做出实时反应，还能呈现出高度自然且连贯的视觉表达效果。通过这一系列精密技术和算法的整合应用，EMO成功实现了从音频到栩栩如生的情感肖像视频的创新转化。

EMO的突破点

技术的革新性在于其能力，将静态照片与声音结合，创造出仿佛真实说话或唱歌的动态视频。这项技术确保了视频中的人物，即使在进行面部表情和头部动作的变化时，仍旧保持原照片的外观不变。
关于自然度的提升，EMO技术展现了其在捕捉和呈现面部表情与头部动作方面的卓越能力。通过精确模拟细微的表情变化和头部移动，它让视频中的对话和歌唱场景显得无比真实和生动。
在多样性和灵活性方面，EMO技术支援包罗万象的语言和创作风格。无论用户的兴趣在于历史人物、艺术画作、三维模型还是AI生成的图像，这项技术都能够无缝对接，满足各种创作需求。
对于快节奏的适应能力，EMO技术证明了其在处理快速音频节奏时的高效同步能力。无论是面对快歌或是速度较快的对话，它都能保持视频中人物动作与音频的完美同步。
在角色多样性与创新方面，EMO技术允许用户创造模仿不同人物表现的视频。这意味着可以在视频中构建多样化的角色和场景，进而丰富视频内容的表现力和吸引力。

骑脸开大Sora

展望

随着EMO（Emote Portrait Alive）的不断成熟与发展，其应用场景肯定将不再局限于简单的娱乐和社交分享，而是有望在未来开辟更为广阔的应用领域。例如，在影视制作中，EMO技术可以大幅降低CGI制作成本，实现低成本、高效率的角色动画制作；在教育行业，它可以助力在线教育课程的个性化教学，创建互动式虚拟教师形象；在游戏产业，游戏角色可以根据玩家语音指令实时做出对应表情和动作，提升沉浸式体验；而在新闻媒体和社交媒体营销中，也可利用该技术进行更具创意的内容生产和传播。

同时，随着人工智能和深度学习技术的进步，未来的EMO必定会进一步提高生成视频的质量，比如增加更细致的肌肉纹理和皮肤质感模拟。

尽管EMO技术带来了诸多令人振奋的可能性，但同样面临着一些亟待解决的挑战。比如，隐私保护问题日益突出，如何确保用户上传的照片和个人数据安全将成为技术研发的重要考量。其次，技术伦理边界也需要界定，防止恶意使用造成不良社会影响。此外，版权和知识产权保护亦是一大议题，如何在利用既有素材的同时，保障原创者权益不受侵犯，需要制定相应的法规政策和技术措施。

长远来看，随着研究团队对EMO技术持续投入和优化，我们有理由期待它能在更多领域产生深远影响，推动视听内容创作行业的创新变革，同时也将促使社会各界共同探讨和应对由新技术所带来的新挑战与机遇。而对于广大用户而言，开放源代码将进一步激发他们的创造力，促进社区生态发展，让更多人有机会参与到这场由科技驱动的艺术革命中来。在不久的将来，或许每个人都可以轻松地将自己的静态照片转化为富有情感表达力的动态视频，真正实现“让照片讲故事”的愿景。

最后说一句，赶紧开源球球了~

别emo，EMO来了！你的照片也能开口讲相声、飙情歌

引言

体验

EMO

EMO的特点

EMO的技术原理

EMO的突破点

展望

热门文章

最新文章

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

别emo，EMO来了！你的照片也能开口讲相声、飙情歌

引言

体验

EMO

EMO的特点

EMO的技术原理

EMO的突破点

展望

热门文章

最新文章

相关电子书