「全球首个」3D 合成主播参与新华社两会报道,纯AI驱动一分钟出活,无需人工干预

简介: 两会期间,一个AI生成的3D虚拟主播火了:输入文字,AI就能生成一个逼真3D数字人,口型精准、表情到位的将新闻播报出来。不仅可以坐着播,还可以站着播,甚至身体可以做出各种姿势动作。

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!

两会期间,新华社一个百变新闻主播火了一把!

1

看起来,她长得有点儿像新华社记者赵琬微,却可以一秒换装、实时换发型,还可以同时穿梭在不同的虚拟演播室中。

她就是搜狗和新华社联合推出的、全球首个3D AI合成主播「新小微」。

image

在不需要后期填补细节的前提下,「新小微」就已经达到了非常逼真的效果,立体感和交互能力几乎和真人无二。甚至在特写镜头下,连头发丝和皮肤上的毛孔都看得清清楚楚。

image
image

轻轻松松无缝换装,西装外套像变魔术一样瞬间从蓝色变成了红色,简直是新闻界「百变小樱」。

image

不光能坐着播新闻,还能在虚拟直播间里走来走去。

2

实际上,「新小微」的诞生,是利用搜狗核心人工智能技术「搜狗分身」,在采集赵琬微真人海量数据的基础上,用AI算法生成的全球首个3D 虚拟主播。

只要输入文字,就能实时生成逼真的3D数字人视频,轻松做到对口型、秀表情、切机位。

image

全球「首个」3D AI合成主播:实时多景深切机位,业内第一家

当然了,「全球首个3D AI合成主播」的称号可不是随随便便就能叫的。

而两会作为全国最重要的会议之一,对新闻播报的专业度、精确度、实时性等,都有着非常苛刻的标准,更是半点都马虎不来!

搜狗3D AI合成主播经受住了这次严峻的考验,在以下5个方面展现了过人的实力。

image

超写实

高清特写镜头下,「新小微」的皮肤材质、毛孔、牙齿、嘴唇、眼睛、头发都清晰可见;AI合成主播讲话时,语音和唇动配合十分默契,面部的肌肉运动也十分流畅。同时,AI主播的眨眼、头动、身摆也更接近真人。

3D场景

可以做到对3D数字人360度的展现、全方位的呈现,这使得未来可以运用在多机位、多景深的场景下。

实时文本驱动

「我只是给了她一段文字,她却还了我一段逼真的视频」。

搜狗AI技术已经拥有了给到一个文本,就能实时输出一个视频或者视频流的能力。请注意,它是实时的。

现在大家在游戏中、电影中看到的很多NPC人物或3D电影角色,他们可能都是3D建模的,但都需要在前期和后期投入了相当大的人力、时间、财务成本,才能保证模型足够的写实。

灵活可控

3D AI合成主播是一个完全参数化的、数字化的模型,基于这个模型可以让它做各种各样的动作,可以让他走路、做各种手势,同时头动、身体的运动都非常自然,具有很强的灵活可控性。

更强的灵活可控性,代表着这个数字虚拟人可以做出更多复杂的动作,从而适合更多的场景。比如做主播做新闻的时候,可以随时走动、做出各种肢体动作;做老师讲课的时候,可以跟学生互动,做手势等。

低成本迁移

将一个真人的各种数据做半自动化的数据标注,产生出大量的3D运动数据,结合语音数据、图像数据,共同做多模态建模,最后生成一个可驱动的3D数字人。

我们可以听到AI主播的声音十分接近赵琬微,而在预训练模型的基础上,只用了赵琬微一个小时的语音数据,再做做微调,就实现了!成本简直不要太低。

纯AI模型,效果远超传统3D建模技术

「搜狗分身」的AI硬实力,为传统的3D技术创造了无限的想象空间。传统写实类的3D模型,很多是采用blendshape或骨骼动画去做的。做AI的小伙伴可能不是很熟悉这两个产品,下面我们简单介绍一下。

blendshape是3d软件里用来做模型形变的一种技术,通过调整权重,设计师可以将目标模型变化成一系列预定义的模型,或者这些模型的任意线形组合。

image

骨骼动画模型是动画中的一种。在骨骼动画中,模型具有互相连接的「骨骼」组成的骨架结构,通过改变骨骼的朝向和位置来为模型生成动画。

image

但是,单纯用骨骼动画,模型中只有骨骼参与了移动,没有考虑肌肉协调身体其他部分(比如面部表情)的联动效应,做出的效果就没有这么逼真。

那么搜狗的3D AI合成主播是如何实现的呢?

首先,基于真人原型采集海量数据:真人赵琬微戴着数据采集头盔,几百个摄像头对其身体各个部位360度全方位「打点」扫描,采集每一处细节,并对其多种形态的表情和动作进行细致入微地捕捉记录。

其次,采用了行业领先的扫描还原算法,以及面部肌肉驱动、表情肢体捕捉等技术,生成高逼真度的3D 数字人模型。

最后,通过搜狗分身的多模态生成算法对3D数字人模型进行实时驱动、渲染,使其面部表情、唇动、肢体动作和语言表达能力实现了高度契合。

3D AI合成主播采用的是全球最领先的肌肉绑定3D模型,从面部表情到肢体动作的细节,达到了影视级作品及游戏NPC的写实度,有时候甚至更高、更自然。

纯AI驱动,真正实现了「降本增效」

实际上,游戏或电影里面早就有了类似的虚拟数字形象,那么跟搜狗的3D AI合成主播相比,有什么区别呢?

首先,游戏及电影行业多是靠人工驱动才能实现一个高写实的3D模型,需要投入大量的人力和财力成本。扫描一个人,再投入大量的人工,采集他讲的每一个字、每一个发音、每一个动作,靠美术师自己勾画出来,一点一点提升写实度,制作一个小时完整的3D写实视频,大约需要花几千万人民币。

我们也咨询了游戏行业的专家,对AI主播的效果还是比较认可的。「如果想制作一个写实度这么高的3D视频,一分钟视频,一个专业的美术师差不多要花一个月的时间。」

image

其次,像现在市面上一些比较火的卡通形象(如洛天依)都是靠真人采集,没有做到真正意义上的AI驱动,搜狗AI很容易就能实现这种仿真的数字形象。

image

而「新小微」使用了端到端的模型,靠AI算法实时驱动。输入一个文本直接就能输出一个视频或者视频流,生成1分钟左右的视频,仅需要1分钟,总体来看效率几乎是实时的。

此次官方宣称的「全球首个」,是因为他们做了一个3D的、基于AI驱动的数字合成主播,这是全球首创的,而并非一个简单的3D虚拟形象。

更厉害的是,这个3D虚拟主播是在不输游戏中人物写实度的前提下,完全使用AI来驱动。

打造真正的「虚拟个人助理」:逼真、实时、可交互

说白了,3DAI合成主播只是一个演示案例。但这个案例,却是搜狗「以语言为核心的AI战略布局」的一次具象化体现。

使用「搜狗分身」技术,能够构建很多数字人的形象。利用这些所谓的「分身」,可以代替本人做一些重复性的繁杂工作,把人真正解放出来,有更多精力去做更多创造性的工作。目前「搜狗分身」已经具备了3个特点:

多领域。包括媒体、客服、司法等领域都得到了应用
可交互。作为一个真正的数字人,可以与人进行对话
多语种。不仅支持中文,还支持中英日韩俄五种语音播报

除了和新华社合作推出3D主播,搜狗还和平安普惠合作,将「搜狗分身」应用在面审客服上;和北京互联网法院合作,推出首个AI虚拟法官;搜狗自己还推出了自有IP主播「雅妮」,以及全球首个AI营养师。

显然,做虚拟主播并不是搜狗的真正目的,毕竟这个和他们未来目标相比,难度太低了!

他们真正想要的,是通过文本、语音、图像融合而成的高逼真数字人,让AI成为可交互、懂人言、拟人化的虚拟个人助理(VPA)。

今天的「新小微 」在新华社做主播,明天的「新小微」在你身边做小助理。

这,才是真·智能个人助理。

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/live

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-05-25
本文作者:白峰、鹏飞
本文来自:“新智元”,了解相关信息可以关注“新智元

相关文章
|
1月前
|
机器学习/深度学习 人工智能 算法
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
【4月更文挑战第12天】斯坦福大学研究团队在Nature子刊发表论文,展示人工智能如何从300亿个分子中筛选出6种新型抗生素候选分子,为抗药性问题提供新解决方案。利用深度学习算法,AI模型考虑化学结构及合成可行性,发现独特化合物,加速药物研发。然而,成功应用还需临床试验验证及克服安全性和耐药性挑战。AI技术在药物设计中的角色引起关注,强调平衡使用与基础科学研究的重要性。
17 1
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
|
1天前
|
人工智能 前端开发 数据库
体验AI驱动的软件开发 | 普元低代码社区版使用
体验AI驱动的软件开发 | 普元低代码社区版使用
10 1
|
1天前
|
机器学习/深度学习 人工智能 算法
构建未来:AI驱动的自适应网络安全防御系统
【5月更文挑战第11天】在数字时代的风口浪尖,网络安全问题日益凸显。传统的安全防御手段在应对不断进化的网络威胁时显得力不从心。本文提出了一个基于人工智能技术的自适应网络安全防御系统框架,旨在通过实时分析、学习和预测网络行为,自动调整防御策略以抵御未知攻击。系统采用先进的机器学习算法和大数据分析技术,能够在保持高效性能的同时,最小化误报率。文章详细阐述了系统的设计理念、关键技术组件以及预期效果,为网络安全的未来发展方向提供新思路。
|
4天前
|
机器学习/深度学习 人工智能 安全
构建未来:AI驱动的自适应网络安全防御系统
【5月更文挑战第8天】 随着网络攻击的不断演变,传统的安全措施已不足以应对日益复杂的威胁。本文提出了一种基于人工智能(AI)的自适应网络安全防御系统,旨在通过实时分析网络流量和行为模式来自动调整安全策略。系统利用深度学习算法识别潜在威胁,并通过强化学习优化防御机制。初步实验表明,该系统能够有效提高检测率,减少误报,并在未知攻击面前展现出较强的适应性。
16 1
|
6天前
|
机器学习/深度学习 数据采集 敏捷开发
探索软件测试中的AI驱动自动化:未来趋势
【5月更文挑战第6天】 随着人工智能(AI)技术的不断进步,其在软件测试领域的应用正变得日益重要。本文将探讨AI如何革新现有的软件测试流程,并预测其对未来测试实践的影响。我们将深入分析AI在测试用例生成、缺陷预测以及测试执行等方面的应用,并讨论实现这些技术的挑战和潜在好处。文章的目标是为读者提供一个清晰的视图,展示AI如何增强测试效率和有效性,同时指出实施过程中需要注意的关键因素。
|
7天前
|
机器学习/深度学习 人工智能 自然语言处理
自动化测试中AI驱动的决策框架设计与实现
【5月更文挑战第5天】 在软件测试领域,自动化测试已成为提升测试效率和质量的关键手段。然而,随着软件系统的复杂性增加,传统的自动化测试方法面临挑战,尤其在测试用例的生成、执行及结果分析等方面。本文提出一种基于人工智能(AI)的自动化测试决策框架,旨在通过智能化的算法优化测试过程,并提高异常检测的准确率。该框架结合机器学习和深度学习技术,能够自学习历史测试数据,预测高风险变更区域,自动生成针对性强的测试用例,并在测试执行过程中实时调整测试策略。此外,通过自然语言处理(NLP)技术,该框架还能对测试结果进行语义分析,进一步提供更深入的洞察。本研究不仅增强了自动化测试工具的智能性,也为软件质量保证提
|
9天前
|
机器学习/深度学习 人工智能 算法
深入分析自动化测试中AI驱动的测试用例生成
【5月更文挑战第4天】随着人工智能(AI)技术的飞速发展,其在软件测试领域的应用也日益广泛。特别是在自动化测试过程中,AI技术能够显著提高测试用例的生成效率和质量。本文将探讨AI在自动化测试用例生成中的应用原理、优势以及面临的挑战,并展示通过AI技术优化测试流程的实际案例。
44 8
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
构建未来:AI驱动的自适应学习系统
【4月更文挑战第30天】 随着人工智能技术的迅猛发展,教育领域正经历一场由AI驱动的变革。本文将探讨一个新兴的研究领域——自适应学习系统。这种系统通过利用机器学习算法和大数据分析,能够根据学生的学习习惯、知识水平和兴趣点提供个性化的教学方案。我们首先介绍自适应学习系统的基本概念及其在现代教育中的重要性,然后详细阐述其工作原理及关键技术,包括数据挖掘、模式识别和自然语言处理等。最后,文章将分析当前自适应学习系统面临的挑战,并提出未来的发展趋势。
|
12天前
|
机器学习/深度学习 人工智能 搜索推荐
构建未来:AI驱动的自适应教育平台
【4月更文挑战第30天】 随着人工智能技术的迅猛发展,其在教育领域的应用正逐步从理论探索走向实践落地。本文将详细阐述一个基于AI技术的自适应学习平台的设计理念、核心功能以及潜在影响。该平台利用机器学习算法分析学生的学习行为和成绩,动态调整教学内容和策略,以实现个性化教学。研究结果表明,AI辅助的自适应学习能够显著提高学习效率,同时为教师提供强有力的教学辅助工具。
|
13天前
|
机器学习/深度学习 人工智能 算法
深入分析自动化测试中AI驱动的测试用例生成技术
【4月更文挑战第29天】随着人工智能技术的不断发展,其在软件测试领域的应用也越来越广泛。本文主要探讨了AI驱动的测试用例生成技术在自动化测试中的应用,以及其对提高测试效率和质量的影响。通过对现有技术的深入分析和实例演示,我们展示了AI如何通过学习和理解软件行为来自动生成有效的测试用例,从而减少人工编写测试用例的工作量,提高测试覆盖率,降低错误检测的成本。