阿里云视频云人脸生成领域最新研究成果入选CVPR2022

简介: 基于生成对抗网络的深度感知人脸重演算法

CVPR(IEEE Conference on Computer Vision and Pattern Recognition)作为计算机视觉和模式识别领域的顶级会议,在全球具有极高的权威性。目前在中国计算机学会推荐国际学术会议的排名中,CVPR为人工智能领域的A类会议 。


凭借在人脸生成领域的扎实积累和前沿创新,阿里云视频云与香港科技大学合作的最新研究成果《基于生成对抗网络的深度感知人脸重演算法》(Depth-Aware Generative Adversarial Network for Talking Head Video Generation)被CVPR2022接收。


而最新一届CVPR 2022也将于2022年6月19日-24日在美国路易斯安那州新奥尔良举行。

1647314685038-27415aa9-dd05-4026-b9fe-946345832c1c.png

近年来,人脸重演(face reenactment/talking head)受到了越来越广泛的关注,现有的人脸重演方法严重依赖于从输入图像中学习到的2D表征,而很少引入3D几何信息进行指导和约束 ,导致生成人脸的结构、姿态和表情不够准确,泛化性较差,难以大规模应用于实际场景中 。


阿里云视频云技术团队与香港科技大学联合提出一种具有深度感知的人脸重演算法。该算法的出现,是人脸重演领域的重大创新,其学术和应用价值是值得期待的。尤其是在视频云领域,该算法的应用有望使得音视频编解码的效率有着极大的突破。


算法使用一种自监督的深度估计模型,无需任何3D标注,即可从视频中获得像素级深度图,进而指导人脸关键点的检测和运动场的合成。在人脸生成阶段,利用该深度图可以学习得到跨模态注意力图,以捕捉更多动作细节并修正人脸结构。


因此,该项技术为在特定场景下的视频编解码提供了新的解决方案。例如在视频会议场景中,我们的模型学习使用一张包含目标人物外观的源图像和一段驱动视频来合成人物头部说话的视频。我们的运动是基于一种新的关键点表标注进行编码的,我们紧凑的关键点标注使视频会议系统能够实现与商业 H.264 标准相同的视觉质量,同时仅使用十分之一的带宽。即大幅度降低带宽要求时,仍可实现较高画质和低延迟。


除此之外,该项技术可广泛应用于会议、直播场景或者元宇宙、虚拟人等互动娱乐场景中,可满足各场景中图片视频化的需求。即按照预想动作,驱动各类风格的人脸图片获得对应的视频。可见,利用该技术路径的突破,灵活地应用到热点行业的业务路径中,将收获一股不可估量的助力。



「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实践技术文章,在这里与音视频领域一流工程师交流切磋。公众号后台回复【技术】可加入阿里云视频云产品技术交流群,和业内大咖一起探讨音视频技术,获取更多行业最新信息。

相关文章
|
28天前
|
Web App开发 人工智能 搜索推荐
【通义】AI视界·每日速递
本文汇总了24小时内的重要科技新闻,包括马斯克的xAI推出超级计算机“Colossus”、谷歌在Chrome地址栏集成Gemini AI、英伟达因反垄断调查股价暴跌、百度文心一言App升级为“文小言”、智谱与荣耀签署AI战略合作协议,以及Clearview AI因违法数据库被荷兰罚款3050万欧元。更多内容请访问通义官网体验。
|
5月前
|
机器学习/深度学习 人工智能 数据挖掘
数势大模型产品SwiftAgent荣获年度“AIGC Top智能应用奖”!
1月27日,由中关村论坛办公室、北京市网信办、北京市发改委、北京市经信局、海淀区人民政府指导,中关村科学城管委会、CSDN中国开发者网络联合主办的“中关村开源生态论坛暨大模型智能应用技术大会”在刚建成的中关村论坛永久会址成功举办。 大会由全体大会以及大模型技术与开源生态发展、智能应用开发与创新、AIGC时代的技术创作三大专题论坛组成,并颁发了大模型生态领军企业、AIGC Top智能应用两项重要奖项。
|
机器学习/深度学习 人工智能 达摩院
INTERSPEECH2023|达摩院语音实验室入选论文全况速览
INTERSPEECH2023|达摩院语音实验室入选论文全况速览
941 1
|
机器学习/深度学习 达摩院 自然语言处理
ICASSP2023|达摩院语音实验室入选论文全况速览
近日,语音技术领域国际会议ICASSP公布了本届论文审稿结果,阿里巴巴达摩院语音实验室有14篇论文被大会收录。本次被接收的论文研究方向涵盖语音识别、语音唤醒、语音增强、说话人日志、语义理解、多模态预训练等。 ICASSP (International Conference on Acoustics, Speech, and Signal Processing) 是国际声学,语音和信号处理会议,是IEEE信号处理协会组织的年度旗舰会议。历届的ICASSP会议都备受全球信号处理领域研究学者的广泛关注,ICASSP2023将于6月4号至6月10号于希腊举办。
640 0
|
机器学习/深度学习 人工智能 算法
一览端到端人脸识别最新进展,上大&京东AI研究院综述被ACM旗舰期刊接收
一览端到端人脸识别最新进展,上大&京东AI研究院综述被ACM旗舰期刊接收
269 0
|
存储 人工智能 编解码
CVPR‘2023 | 港科大 & 腾讯 AI Lab & 港大联合出品:有趣的动态 3D 场景重建
CVPR‘2023 | 港科大 & 腾讯 AI Lab & 港大联合出品:有趣的动态 3D 场景重建
237 0
|
机器学习/深度学习 自然语言处理 算法
国际顶会OSDI首度收录淘宝系统论文,端云协同智能获大会主旨演讲推荐
大淘宝技术团队论文入选计算机系统领域顶级国际学术会议OSDI,这是淘宝系统论文首次入选该国际顶会,论文详解了阿里历经四年、自主研发的首个端到端、通用型、规模化产业应用的端云协同机器学习系统“瓦力”——Walle。OSDI特别邀请到的David Tennenhouse在大会主旨演讲中专门推荐了Walle系统,对其技术先进性和应用落地效果赞誉有加。目前,Walle 作为阿里机器学习的基础设施支持 30+APP上 的300+个算法任务。
485 0
国际顶会OSDI首度收录淘宝系统论文,端云协同智能获大会主旨演讲推荐
|
人工智能 自然语言处理 安全
带你了解2022两会黑科技:阿里云视频云「AI编辑部3.0」
5G链接前后方,AI直抵采访一线,视频生产的云端化和移动化,重塑了媒体生产与传播的全流程,“AI编辑部”助力人民日报新媒体全链路上云,由此,轻量化、智能化的AI编辑部让每一次两会报道都更“劲”一步。
2284 0
带你了解2022两会黑科技:阿里云视频云「AI编辑部3.0」
|
机器学习/深度学习 存储 达摩院
Alibaba at Interspeech 2021 | 达摩院语音实验室9篇入选论文解读
继去年11篇论文入选INTERSPEECH 2020之后,本次INTERSPEECH 2021阿里巴巴达摩院语音实验室再度有9篇论文被接收。本次被接收的论文研究方向包括语音识别,语音合成,后处理技术,前端信号处理技术等研究方向。
Alibaba at Interspeech 2021 | 达摩院语音实验室9篇入选论文解读
下一篇
无影云桌面