智能图形学的进展及应用-阿里云开发者社区

开发者社区> 阿里云MVP> 正文

智能图形学的进展及应用

简介: 在人工智能高速发展的今天,越来越多的AI技术开始与计算机图形技术结合解决实际应用问题。AI数字人技术由人工智能与CG技术结合而成,用于提供仿真的人机问答服务,并在视觉通道上优化人机交互体验。相芯科技CTO秦昊在达摩院AI Inside同行者大会中通过企业在AI数字人方面的探索及相关应用的案例分享展现AI数字人技术的进展及应用。

演讲嘉宾简介:秦昊,相芯科技CTO

预约观看演讲视频

以下内容根据演讲视频以及PPT整理而成。

本文将站在应用角度为大家展示相芯科技联合阿里云TTS开发的AI数字人应用案例。

AI数字人

AI数字人的概念起源于2017年SIGGRAPH大会上,众多学术机构合作推出了一款AI数字人Virtual Mike。通过融合当时尖端的渲染技术与动作捕捉技术大会打造了一个惟妙惟肖的实时虚拟角色。经过两三年的发展,互联网行业中开始出现数字人技术应用的案例,如百度公司与浦发银行共同打造的AI数字人“小浦”可以作为银行的数字员工为相关用户提供业务咨询及简单业务办理的服务。
图片3.png

image.png

AI数字人技术为用户提供了全新基于视觉通道的人机交互界面。该界面通过融合CG技术、语音技术及自然语言处理等多种技术,为使用者打造出类似人与人交互的操作体验。企业通过切换数字人背后的知识库或AI模块使其可以支撑不同的业务场景,如在媒体播报领域、个人助理领域及业务咨询等领域数字人技术均有不俗的表现。

虚拟主播云平台

相芯科技公司基于与阿里云的合作在很多领域开始进行AI数字人技术的应用落地。相芯科技的AI数字人技术,只需要输入一段文字,就可以全自动地合成整个人的说话,包含动作、形态、情绪的视频。公司搭建的虚拟主播云平台如下图所示。在平台编辑界面中,用户可以对虚拟人物的角色、对话内容脚本及相关人物动作进行选择,并通过阿里云的云服务器进行渲染和视频合成,就能快速生成数字人的视频,用户可以自行将视频下载,并进行分发。

image.png

虚拟主播及虚拟机器人

下图所示为公司虚拟主持人模块的架构。公司将相关脚本输入,通过TTS语音技术完成人物语音的合成,在STA(Speech-to-Animation)模块中进行动画及视频合成,最后生成相关的虚拟视频。企业同时对互动助手、虚拟机器人技术架构进行了开发。在数据输入部分,系统通过接入自然语言处理等模块完成了机器人问答系统的搭建,以此支持数字人与用户的实时交互功能。
image.png

语音技术合作伙伴—阿里云TTS

STA业务打造的虚拟主播与虚拟客服,都离不开语音合成技术TTS的支持。企业对市面上提供TTS服务的公司进行调研对比后,选择了阿里云TTS作为合作伙伴。企业通过与阿里云TTS的合作,为数字人角色搭建了真实自然的语音模型,并陆续在进行更深层次的技术合作。

image.png

STA算法流程

下图所示为STA(Speech-to-Animation)算法流程示意图。企业将文本数据与语音数据共同作为算法数据导入算法模块中,算法将会对语音数据中的情绪及语速等因素进行分析,以此合成出数字人说话的口型、发音及与用户的对话情景等数据,通过分析出的数据驱动数字人表现出自然生动的画面。
image.png

图形合成模块

企业经过一系列探索,目前已拥有了完备的数字人表现及部署方案。从3D卡通形象到高精度虚拟人形象企业均可提供良好的塑造技术支持。企业可以使用不同的虚拟人物完成不同业务场景下对虚拟人物的需求,包括且不限于支持智能手机、终端及大屏上数字人的问答业务、支持云渲染实现高质量视频合成等业务场景。
image.png

照片级人像合成技术

企业由SIGGRAPH大会论文成果设计实现的照片级人像合成技术效果如下图所示。使用者在左侧输入表情时,右侧的目标照片上的人物可以实时做出惟妙惟肖的表情。该技术能非常细腻地合成人物脸上每处细节(如法令纹、牙齿等),使观看者感受到照片像现实人物一样在做动作。
image.png

该技术背后为企业基于生成对抗网络所开发的技术架构。由于生成对抗网络技术最大的难点在于它生成的结果的不可控性,考虑到数字人场景需要极其精准掌控人物的发音状态表现,开发团队创新性的构建了两个阶段的人像合成算法架构。算法首先通过三维的数据重建与数据理解将图像变形到开发团队预设的表情上,之后算法通过生成对抗网络技术对虚拟人物在细节上进行修补与还原。在这种方案下,生成对抗网络本身可以专注于人物细节的修补,免去了其处理图片形变与位移所需的精力,使算法可以良好的控制虚拟人物表情变化,真实的还原人物细节。
image.png

下图为企业照片级人像合成技术的效果。左上方在人在做一些表情,来控制其他照片,使这五张照片也可以合成出非常真实的表情,包括牙齿、嘴巴内部、法令纹等细节都能合成得非常真实,很难判别出真假。
image.png

虚拟主播案例

目前AI数字人技术不仅可以在高精度虚拟人物合成场景中进行应用,同时也多样型的数字人解决方案开始在各行各业的业务场景中落地提供相应服务。下图所示为企业基于AI数字人技术设计开发的虚拟主播应用案例。对于报社、电视台及媒体等业务方而言,虚拟主播技术很好的满足了业务方在自动化视频生成、媒体内容生成方面的业务需求,成为了融媒体时代新闻媒体的传媒利器。同时虚拟主播技术也被应用于新媒体之中,业务方通过打造公司专属的虚拟主播形象既可以实现与观众的情感互动也保证了公司本身的传媒影响力,避免了出现以往公众影响力集中在新闻主播身上的情况。
image.png

虚拟机器人案例

企业在具有将强的互动性虚拟机器人和互动助手在技术上也在进行相关探索。通过STA技术,企业将虚拟人物与问答系统整合。在用户使用系统进行交互时,系统将展现出更为具象的虚拟人物进行交流互动。比如公司通过与汽车企业合作研制的车机虚拟助手目前已实现量产车上的部署。公司同时积极探索数字人技术在线下场景中的应用,通过在银行大厅、地铁售票处、医院、法庭及企业展厅中部署AI数字人系统。同时公司可以实现让智能音箱升级为具有具像化形象的智能系统。公司为不同业务的用户群体提供了更为高效便利的咨询服务及良好的交互体验。

版权声明:本文中所有内容均属于阿里云开发者社区所有,任何媒体、网站或个人未经阿里云开发者社区协议授权不得转载、链接、转贴或以其他方式复制发布/发表。申请授权请邮件developerteam@list.alibaba-inc.com,已获得阿里云开发者社区协议授权的媒体、网站,在转载使用时必须注明"稿件来源:阿里云开发者社区,原文作者姓名",违者本社区将依法追究责任。 如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:developer2020@service.aliyun.com 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
+ 订阅

阿里云最有价值专家,是专注于帮助他人充分了解和使用阿里云技术的意见领袖。

官方博客
官网链接
精彩专题