「全球首个」3D 合成主播参与新华社两会报道，纯AI驱动一分钟出活，无需人工干预

2020-05-25 1053

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 两会期间，一个AI生成的3D虚拟主播火了：输入文字，AI就能生成一个逼真3D数字人，口型精准、表情到位的将新闻播报出来。不仅可以坐着播，还可以站着播，甚至身体可以做出各种姿势动作。

云栖号资讯：【点击查看更多行业资讯】
在这里您可以找到不同行业的第一手的上云资讯，还在等什么，快来！

两会期间，新华社一个百变新闻主播火了一把！

看起来，她长得有点儿像新华社记者赵琬微，却可以一秒换装、实时换发型，还可以同时穿梭在不同的虚拟演播室中。

她就是搜狗和新华社联合推出的、全球首个3D AI合成主播「新小微」。

在不需要后期填补细节的前提下，「新小微」就已经达到了非常逼真的效果，立体感和交互能力几乎和真人无二。甚至在特写镜头下，连头发丝和皮肤上的毛孔都看得清清楚楚。

轻轻松松无缝换装，西装外套像变魔术一样瞬间从蓝色变成了红色，简直是新闻界「百变小樱」。

不光能坐着播新闻，还能在虚拟直播间里走来走去。

实际上，「新小微」的诞生，是利用搜狗核心人工智能技术「搜狗分身」，在采集赵琬微真人海量数据的基础上，用AI算法生成的全球首个3D 虚拟主播。

只要输入文字，就能实时生成逼真的3D数字人视频，轻松做到对口型、秀表情、切机位。

全球「首个」3D AI合成主播：实时多景深切机位，业内第一家

当然了，「全球首个3D AI合成主播」的称号可不是随随便便就能叫的。

而两会作为全国最重要的会议之一，对新闻播报的专业度、精确度、实时性等，都有着非常苛刻的标准，更是半点都马虎不来！

搜狗3D AI合成主播经受住了这次严峻的考验，在以下5个方面展现了过人的实力。

超写实

高清特写镜头下，「新小微」的皮肤材质、毛孔、牙齿、嘴唇、眼睛、头发都清晰可见；AI合成主播讲话时，语音和唇动配合十分默契，面部的肌肉运动也十分流畅。同时，AI主播的眨眼、头动、身摆也更接近真人。

3D场景

可以做到对3D数字人360度的展现、全方位的呈现，这使得未来可以运用在多机位、多景深的场景下。

实时文本驱动

「我只是给了她一段文字，她却还了我一段逼真的视频」。

搜狗AI技术已经拥有了给到一个文本，就能实时输出一个视频或者视频流的能力。请注意，它是实时的。

现在大家在游戏中、电影中看到的很多NPC人物或3D电影角色，他们可能都是3D建模的，但都需要在前期和后期投入了相当大的人力、时间、财务成本，才能保证模型足够的写实。

灵活可控

3D AI合成主播是一个完全参数化的、数字化的模型，基于这个模型可以让它做各种各样的动作，可以让他走路、做各种手势，同时头动、身体的运动都非常自然，具有很强的灵活可控性。

更强的灵活可控性，代表着这个数字虚拟人可以做出更多复杂的动作，从而适合更多的场景。比如做主播做新闻的时候，可以随时走动、做出各种肢体动作；做老师讲课的时候，可以跟学生互动，做手势等。

低成本迁移

将一个真人的各种数据做半自动化的数据标注，产生出大量的3D运动数据，结合语音数据、图像数据，共同做多模态建模，最后生成一个可驱动的3D数字人。

我们可以听到AI主播的声音十分接近赵琬微，而在预训练模型的基础上，只用了赵琬微一个小时的语音数据，再做做微调，就实现了！成本简直不要太低。

纯AI模型，效果远超传统3D建模技术

「搜狗分身」的AI硬实力，为传统的3D技术创造了无限的想象空间。传统写实类的3D模型，很多是采用blendshape或骨骼动画去做的。做AI的小伙伴可能不是很熟悉这两个产品，下面我们简单介绍一下。

blendshape是3d软件里用来做模型形变的一种技术，通过调整权重，设计师可以将目标模型变化成一系列预定义的模型，或者这些模型的任意线形组合。

骨骼动画模型是动画中的一种。在骨骼动画中，模型具有互相连接的「骨骼」组成的骨架结构，通过改变骨骼的朝向和位置来为模型生成动画。

但是，单纯用骨骼动画，模型中只有骨骼参与了移动，没有考虑肌肉协调身体其他部分（比如面部表情）的联动效应，做出的效果就没有这么逼真。

那么搜狗的3D AI合成主播是如何实现的呢？

首先，基于真人原型采集海量数据：真人赵琬微戴着数据采集头盔，几百个摄像头对其身体各个部位360度全方位「打点」扫描，采集每一处细节，并对其多种形态的表情和动作进行细致入微地捕捉记录。

其次，采用了行业领先的扫描还原算法，以及面部肌肉驱动、表情肢体捕捉等技术，生成高逼真度的3D 数字人模型。

最后，通过搜狗分身的多模态生成算法对3D数字人模型进行实时驱动、渲染，使其面部表情、唇动、肢体动作和语言表达能力实现了高度契合。

3D AI合成主播采用的是全球最领先的肌肉绑定3D模型，从面部表情到肢体动作的细节，达到了影视级作品及游戏NPC的写实度，有时候甚至更高、更自然。

纯AI驱动，真正实现了「降本增效」

实际上，游戏或电影里面早就有了类似的虚拟数字形象，那么跟搜狗的3D AI合成主播相比，有什么区别呢？

首先，游戏及电影行业多是靠人工驱动才能实现一个高写实的3D模型，需要投入大量的人力和财力成本。扫描一个人，再投入大量的人工，采集他讲的每一个字、每一个发音、每一个动作，靠美术师自己勾画出来，一点一点提升写实度，制作一个小时完整的3D写实视频，大约需要花几千万人民币。

我们也咨询了游戏行业的专家，对AI主播的效果还是比较认可的。「如果想制作一个写实度这么高的3D视频，一分钟视频，一个专业的美术师差不多要花一个月的时间。」

其次，像现在市面上一些比较火的卡通形象（如洛天依）都是靠真人采集，没有做到真正意义上的AI驱动，搜狗AI很容易就能实现这种仿真的数字形象。

而「新小微」使用了端到端的模型，靠AI算法实时驱动。输入一个文本直接就能输出一个视频或者视频流，生成1分钟左右的视频，仅需要1分钟，总体来看效率几乎是实时的。

此次官方宣称的「全球首个」，是因为他们做了一个3D的、基于AI驱动的数字合成主播，这是全球首创的，而并非一个简单的3D虚拟形象。

更厉害的是，这个3D虚拟主播是在不输游戏中人物写实度的前提下，完全使用AI来驱动。

打造真正的「虚拟个人助理」：逼真、实时、可交互

说白了，3DAI合成主播只是一个演示案例。但这个案例，却是搜狗「以语言为核心的AI战略布局」的一次具象化体现。

使用「搜狗分身」技术，能够构建很多数字人的形象。利用这些所谓的「分身」，可以代替本人做一些重复性的繁杂工作，把人真正解放出来，有更多精力去做更多创造性的工作。目前「搜狗分身」已经具备了3个特点：

多领域。包括媒体、客服、司法等领域都得到了应用
可交互。作为一个真正的数字人，可以与人进行对话
多语种。不仅支持中文，还支持中英日韩俄五种语音播报

除了和新华社合作推出3D主播，搜狗还和平安普惠合作，将「搜狗分身」应用在面审客服上；和北京互联网法院合作，推出首个AI虚拟法官；搜狗自己还推出了自有IP主播「雅妮」，以及全球首个AI营养师。

显然，做虚拟主播并不是搜狗的真正目的，毕竟这个和他们未来目标相比，难度太低了！

他们真正想要的，是通过文本、语音、图像融合而成的高逼真数字人，让AI成为可交互、懂人言、拟人化的虚拟个人助理（VPA）。

今天的「新小微」在新华社做主播，明天的「新小微」在你身边做小助理。

这，才是真·智能个人助理。

【云栖号在线课堂】每天都有产品技术专家分享！
课程地址：https://yqh.aliyun.com/live

立即加入社群，与专家面对面，及时了解课程最新动态！
【云栖号在线课堂社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间：2020-05-25
本文作者：白峰、鹏飞
本文来自：“新智元”，了解相关信息可以关注“新智元”

「全球首个」3D 合成主播参与新华社两会报道，纯AI驱动一分钟出活，无需人工干预

全球「首个」3D AI合成主播：实时多景深切机位，业内第一家

纯AI模型，效果远超传统3D建模技术

纯AI驱动，真正实现了「降本增效」

打造真正的「虚拟个人助理」：逼真、实时、可交互

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

「全球首个」3D 合成主播参与新华社两会报道，纯AI驱动一分钟出活，无需人工干预

全球「首个」3D AI合成主播：实时多景深切机位，业内第一家

纯AI模型，效果远超传统3D建模技术

纯AI驱动，真正实现了「降本增效」

打造真正的「虚拟个人助理」：逼真、实时、可交互

热门文章

最新文章

相关课程

相关电子书

相关实验场景