智能图形学的进展及应用

简介: 在人工智能高速发展的今天,越来越多的AI技术开始与计算机图形技术结合解决实际应用问题。AI数字人技术由人工智能与CG技术结合而成,用于提供仿真的人机问答服务,并在视觉通道上优化人机交互体验。相芯科技CTO秦昊在达摩院AI Inside同行者大会中通过企业在AI数字人方面的探索及相关应用的案例分享展现AI数字人技术的进展及应用。

演讲嘉宾简介:秦昊,相芯科技CTO

预约观看演讲视频

以下内容根据演讲视频以及PPT整理而成。

本文将站在应用角度为大家展示相芯科技联合阿里云TTS开发的AI数字人应用案例。

AI数字人

AI数字人的概念起源于2017年SIGGRAPH大会上,众多学术机构合作推出了一款AI数字人Virtual Mike。通过融合当时尖端的渲染技术与动作捕捉技术大会打造了一个惟妙惟肖的实时虚拟角色。经过两三年的发展,互联网行业中开始出现数字人技术应用的案例,如百度公司与浦发银行共同打造的AI数字人“小浦”可以作为银行的数字员工为相关用户提供业务咨询及简单业务办理的服务。
图片3.png

image.png

AI数字人技术为用户提供了全新基于视觉通道的人机交互界面。该界面通过融合CG技术、语音技术及自然语言处理等多种技术,为使用者打造出类似人与人交互的操作体验。企业通过切换数字人背后的知识库或AI模块使其可以支撑不同的业务场景,如在媒体播报领域、个人助理领域及业务咨询等领域数字人技术均有不俗的表现。

虚拟主播云平台

相芯科技公司基于与阿里云的合作在很多领域开始进行AI数字人技术的应用落地。相芯科技的AI数字人技术,只需要输入一段文字,就可以全自动地合成整个人的说话,包含动作、形态、情绪的视频。公司搭建的虚拟主播云平台如下图所示。在平台编辑界面中,用户可以对虚拟人物的角色、对话内容脚本及相关人物动作进行选择,并通过阿里云的云服务器进行渲染和视频合成,就能快速生成数字人的视频,用户可以自行将视频下载,并进行分发。

image.png

虚拟主播及虚拟机器人

下图所示为公司虚拟主持人模块的架构。公司将相关脚本输入,通过TTS语音技术完成人物语音的合成,在STA(Speech-to-Animation)模块中进行动画及视频合成,最后生成相关的虚拟视频。企业同时对互动助手、虚拟机器人技术架构进行了开发。在数据输入部分,系统通过接入自然语言处理等模块完成了机器人问答系统的搭建,以此支持数字人与用户的实时交互功能。
image.png

语音技术合作伙伴—阿里云TTS

STA业务打造的虚拟主播与虚拟客服,都离不开语音合成技术TTS的支持。企业对市面上提供TTS服务的公司进行调研对比后,选择了阿里云TTS作为合作伙伴。企业通过与阿里云TTS的合作,为数字人角色搭建了真实自然的语音模型,并陆续在进行更深层次的技术合作。

image.png

STA算法流程

下图所示为STA(Speech-to-Animation)算法流程示意图。企业将文本数据与语音数据共同作为算法数据导入算法模块中,算法将会对语音数据中的情绪及语速等因素进行分析,以此合成出数字人说话的口型、发音及与用户的对话情景等数据,通过分析出的数据驱动数字人表现出自然生动的画面。
image.png

图形合成模块

企业经过一系列探索,目前已拥有了完备的数字人表现及部署方案。从3D卡通形象到高精度虚拟人形象企业均可提供良好的塑造技术支持。企业可以使用不同的虚拟人物完成不同业务场景下对虚拟人物的需求,包括且不限于支持智能手机、终端及大屏上数字人的问答业务、支持云渲染实现高质量视频合成等业务场景。
image.png

照片级人像合成技术

企业由SIGGRAPH大会论文成果设计实现的照片级人像合成技术效果如下图所示。使用者在左侧输入表情时,右侧的目标照片上的人物可以实时做出惟妙惟肖的表情。该技术能非常细腻地合成人物脸上每处细节(如法令纹、牙齿等),使观看者感受到照片像现实人物一样在做动作。
image.png

该技术背后为企业基于生成对抗网络所开发的技术架构。由于生成对抗网络技术最大的难点在于它生成的结果的不可控性,考虑到数字人场景需要极其精准掌控人物的发音状态表现,开发团队创新性的构建了两个阶段的人像合成算法架构。算法首先通过三维的数据重建与数据理解将图像变形到开发团队预设的表情上,之后算法通过生成对抗网络技术对虚拟人物在细节上进行修补与还原。在这种方案下,生成对抗网络本身可以专注于人物细节的修补,免去了其处理图片形变与位移所需的精力,使算法可以良好的控制虚拟人物表情变化,真实的还原人物细节。
image.png

下图为企业照片级人像合成技术的效果。左上方在人在做一些表情,来控制其他照片,使这五张照片也可以合成出非常真实的表情,包括牙齿、嘴巴内部、法令纹等细节都能合成得非常真实,很难判别出真假。
image.png

虚拟主播案例

目前AI数字人技术不仅可以在高精度虚拟人物合成场景中进行应用,同时也多样型的数字人解决方案开始在各行各业的业务场景中落地提供相应服务。下图所示为企业基于AI数字人技术设计开发的虚拟主播应用案例。对于报社、电视台及媒体等业务方而言,虚拟主播技术很好的满足了业务方在自动化视频生成、媒体内容生成方面的业务需求,成为了融媒体时代新闻媒体的传媒利器。同时虚拟主播技术也被应用于新媒体之中,业务方通过打造公司专属的虚拟主播形象既可以实现与观众的情感互动也保证了公司本身的传媒影响力,避免了出现以往公众影响力集中在新闻主播身上的情况。
image.png

虚拟机器人案例

企业在具有将强的互动性虚拟机器人和互动助手在技术上也在进行相关探索。通过STA技术,企业将虚拟人物与问答系统整合。在用户使用系统进行交互时,系统将展现出更为具象的虚拟人物进行交流互动。比如公司通过与汽车企业合作研制的车机虚拟助手目前已实现量产车上的部署。公司同时积极探索数字人技术在线下场景中的应用,通过在银行大厅、地铁售票处、医院、法庭及企业展厅中部署AI数字人系统。同时公司可以实现让智能音箱升级为具有具像化形象的智能系统。公司为不同业务的用户群体提供了更为高效便利的咨询服务及良好的交互体验。

相关文章
|
12月前
|
机器学习/深度学习 人工智能 算法
借力计算机视觉及深度学习,纽卡斯尔大学开发实时、自动化奶牛跛行检测系统
借力计算机视觉及深度学习,纽卡斯尔大学开发实时、自动化奶牛跛行检测系统
120 0
|
人工智能 编解码
这盘「大脑」80万细胞,5分钟学会打乒乓球完爆AI!(1)
这盘「大脑」80万细胞,5分钟学会打乒乓球完爆AI!
|
机器学习/深度学习 人工智能 监控
深度学习3D人体姿态估计国内外研究现状及痛点
人体姿态估计是从图像或视频信息中获取人体各个关节部位具体位置的过程,目前已被广泛应用到人机交互、视频监控、虚拟现实等领域。基于彩色图像的人体姿态估计算法容易受到颜色、环境等因素的影响,而深度图像在人体着装、肤色和遮挡等影响下具有较好的鲁棒性,能够更好地适应复杂环境的挑战。
3568 0
|
机器学习/深度学习 人工智能 监控
多目标跟踪算法研究现状
随着科技的发展,多目标跟踪已成为热门的研究课题,是机器视觉领域的一个重要研究方向,在军事和民用领域都有着广泛的应用。多目标跟踪的目的为对多个目标物体进行持续跟踪,期间维持同一目标的标签不变化,同时对每个目标在未来帧中的状态进行预测。
1053 0
|
机器学习/深度学习 人工智能 自然语言处理
一周AI最火论文 | 拟合力学模型,谷歌教机器人用5分钟的数据get多种运动技能
一周AI最火论文 | 拟合力学模型,谷歌教机器人用5分钟的数据get多种运动技能
135 0
|
存储 人工智能 API
ai视觉能有多强?第四章-车辆保险应用
使用阿里云实现车辆保险应用开发
713 0
ai视觉能有多强?第四章-车辆保险应用
|
传感器 机器学习/深度学习 人工智能
AI仿生:人类进化新可能
看过《银翼杀手》这部开创赛博朋克风格科幻电影的人,一定会对电影中仿生人罗伊·贝蒂印象深刻,尤其是电影结尾时反派男主在滂沱大雨中的临终独白:看过《银翼杀手》这部开创赛博朋克风格科幻电影的人,一定会对电影中仿生人罗伊·贝蒂印象深刻,尤其是电影结尾时反派男主在滂沱大雨中的临终独白:
AI仿生:人类进化新可能
|
机器学习/深度学习 人工智能 算法
AI版进化论上演?遵循适者生存,几天内复现数十年AI研究轨迹
AI可以自我进化了?的确,谷歌的计算机科学家Quoc Le和他的同事们开发了一个名为AutoML-Zero的AI程序,借用了达尔文进化论以及“适者生存”的概念,在没有人类输入的情况下,它可以一代又一代地改进。
|
计算机视觉 人工智能 监控
AI魔幻行为大赏:细数机器视觉的9大应用场景
本文主要介绍了机器视觉的主要应用场景,目前绝大部分数字信息都是以图片或视频的形式存在的,若要对这些信息进行有效分析利用,则要依赖于机器视觉技术的发展,虽然目前已有的技术已经能够解决很多问题,但离解决所有问题还很遥远,因此机器视觉的应用前景还是非常广阔的。
10726 0
|
存储 机器学习/深度学习 人工智能
从NeurIPS 2018看AI发展路线!
从NeurIPS 2018看AI发展路线!
2168 0