智能图形学的进展及应用

简介: 在人工智能高速发展的今天,越来越多的AI技术开始与计算机图形技术结合解决实际应用问题。AI数字人技术由人工智能与CG技术结合而成,用于提供仿真的人机问答服务,并在视觉通道上优化人机交互体验。相芯科技CTO秦昊在达摩院AI Inside同行者大会中通过企业在AI数字人方面的探索及相关应用的案例分享展现AI数字人技术的进展及应用。

演讲嘉宾简介:秦昊,相芯科技CTO

预约观看演讲视频

以下内容根据演讲视频以及PPT整理而成。

本文将站在应用角度为大家展示相芯科技联合阿里云TTS开发的AI数字人应用案例。

AI数字人

AI数字人的概念起源于2017年SIGGRAPH大会上,众多学术机构合作推出了一款AI数字人Virtual Mike。通过融合当时尖端的渲染技术与动作捕捉技术大会打造了一个惟妙惟肖的实时虚拟角色。经过两三年的发展,互联网行业中开始出现数字人技术应用的案例,如百度公司与浦发银行共同打造的AI数字人“小浦”可以作为银行的数字员工为相关用户提供业务咨询及简单业务办理的服务。
图片3.png

image.png

AI数字人技术为用户提供了全新基于视觉通道的人机交互界面。该界面通过融合CG技术、语音技术及自然语言处理等多种技术,为使用者打造出类似人与人交互的操作体验。企业通过切换数字人背后的知识库或AI模块使其可以支撑不同的业务场景,如在媒体播报领域、个人助理领域及业务咨询等领域数字人技术均有不俗的表现。

虚拟主播云平台

相芯科技公司基于与阿里云的合作在很多领域开始进行AI数字人技术的应用落地。相芯科技的AI数字人技术,只需要输入一段文字,就可以全自动地合成整个人的说话,包含动作、形态、情绪的视频。公司搭建的虚拟主播云平台如下图所示。在平台编辑界面中,用户可以对虚拟人物的角色、对话内容脚本及相关人物动作进行选择,并通过阿里云的云服务器进行渲染和视频合成,就能快速生成数字人的视频,用户可以自行将视频下载,并进行分发。

image.png

虚拟主播及虚拟机器人

下图所示为公司虚拟主持人模块的架构。公司将相关脚本输入,通过TTS语音技术完成人物语音的合成,在STA(Speech-to-Animation)模块中进行动画及视频合成,最后生成相关的虚拟视频。企业同时对互动助手、虚拟机器人技术架构进行了开发。在数据输入部分,系统通过接入自然语言处理等模块完成了机器人问答系统的搭建,以此支持数字人与用户的实时交互功能。
image.png

语音技术合作伙伴—阿里云TTS

STA业务打造的虚拟主播与虚拟客服,都离不开语音合成技术TTS的支持。企业对市面上提供TTS服务的公司进行调研对比后,选择了阿里云TTS作为合作伙伴。企业通过与阿里云TTS的合作,为数字人角色搭建了真实自然的语音模型,并陆续在进行更深层次的技术合作。

image.png

STA算法流程

下图所示为STA(Speech-to-Animation)算法流程示意图。企业将文本数据与语音数据共同作为算法数据导入算法模块中,算法将会对语音数据中的情绪及语速等因素进行分析,以此合成出数字人说话的口型、发音及与用户的对话情景等数据,通过分析出的数据驱动数字人表现出自然生动的画面。
image.png

图形合成模块

企业经过一系列探索,目前已拥有了完备的数字人表现及部署方案。从3D卡通形象到高精度虚拟人形象企业均可提供良好的塑造技术支持。企业可以使用不同的虚拟人物完成不同业务场景下对虚拟人物的需求,包括且不限于支持智能手机、终端及大屏上数字人的问答业务、支持云渲染实现高质量视频合成等业务场景。
image.png

照片级人像合成技术

企业由SIGGRAPH大会论文成果设计实现的照片级人像合成技术效果如下图所示。使用者在左侧输入表情时,右侧的目标照片上的人物可以实时做出惟妙惟肖的表情。该技术能非常细腻地合成人物脸上每处细节(如法令纹、牙齿等),使观看者感受到照片像现实人物一样在做动作。
image.png

该技术背后为企业基于生成对抗网络所开发的技术架构。由于生成对抗网络技术最大的难点在于它生成的结果的不可控性,考虑到数字人场景需要极其精准掌控人物的发音状态表现,开发团队创新性的构建了两个阶段的人像合成算法架构。算法首先通过三维的数据重建与数据理解将图像变形到开发团队预设的表情上,之后算法通过生成对抗网络技术对虚拟人物在细节上进行修补与还原。在这种方案下,生成对抗网络本身可以专注于人物细节的修补,免去了其处理图片形变与位移所需的精力,使算法可以良好的控制虚拟人物表情变化,真实的还原人物细节。
image.png

下图为企业照片级人像合成技术的效果。左上方在人在做一些表情,来控制其他照片,使这五张照片也可以合成出非常真实的表情,包括牙齿、嘴巴内部、法令纹等细节都能合成得非常真实,很难判别出真假。
image.png

虚拟主播案例

目前AI数字人技术不仅可以在高精度虚拟人物合成场景中进行应用,同时也多样型的数字人解决方案开始在各行各业的业务场景中落地提供相应服务。下图所示为企业基于AI数字人技术设计开发的虚拟主播应用案例。对于报社、电视台及媒体等业务方而言,虚拟主播技术很好的满足了业务方在自动化视频生成、媒体内容生成方面的业务需求,成为了融媒体时代新闻媒体的传媒利器。同时虚拟主播技术也被应用于新媒体之中,业务方通过打造公司专属的虚拟主播形象既可以实现与观众的情感互动也保证了公司本身的传媒影响力,避免了出现以往公众影响力集中在新闻主播身上的情况。
image.png

虚拟机器人案例

企业在具有将强的互动性虚拟机器人和互动助手在技术上也在进行相关探索。通过STA技术,企业将虚拟人物与问答系统整合。在用户使用系统进行交互时,系统将展现出更为具象的虚拟人物进行交流互动。比如公司通过与汽车企业合作研制的车机虚拟助手目前已实现量产车上的部署。公司同时积极探索数字人技术在线下场景中的应用,通过在银行大厅、地铁售票处、医院、法庭及企业展厅中部署AI数字人系统。同时公司可以实现让智能音箱升级为具有具像化形象的智能系统。公司为不同业务的用户群体提供了更为高效便利的咨询服务及良好的交互体验。

相关文章
|
2月前
|
机器学习/深度学习 算法
【类脑智能】类脑智能研究中的专业术语
本文列出并解释了类脑智能研究中的一系列专业术语,涵盖了从复杂网络、连接体、分散系统到网络通信模型等多个方面,为理解该领域的理论和技术概念提供了基础。
51 4
【类脑智能】类脑智能研究中的专业术语
|
2月前
|
机器学习/深度学习 算法 搜索推荐
"震撼揭秘!阿里云AIGC智能图像识别:黑科技如何颠覆你的视界,让图像识别秒变超能力,生活工作全面革新!"
【8月更文挑战第12天】在数字化浪潮中,图像数据激增,高效准确处理成为关键。阿里云智能图像识别服务(AIGC)应运而生,依托深度学习与计算机视觉技术,实现图像特征精确提取与理解。通过大规模数据训练及优化算法,AIGC在图像分类、目标检测等方面表现出色。其应用场景广泛,从电商的商品识别到内容安全审核,再到智能交通和医疗影像分析,均展现出巨大潜力。示例代码展示了AIGC图像生成的基本流程,彰显其技术实力与未来前景。
75 1
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
技术分析:AI大模型战场的分化与赛点分析
技术分析:AI大模型战场的分化与赛点分析
|
机器学习/深度学习 人工智能 算法
借力计算机视觉及深度学习,纽卡斯尔大学开发实时、自动化奶牛跛行检测系统
借力计算机视觉及深度学习,纽卡斯尔大学开发实时、自动化奶牛跛行检测系统
151 0
|
机器学习/深度学习 人工智能 算法
AIGC背后的技术分析 | 不止抠图、上色,看人工智能如何影响设计
在人工智能时代下,AR设计、智能硬件设计逐渐发展,设计的改革更多考虑的是如何将真实世界和数字世界进行融合,如何在自己产品上更好地阐释艺术、美感和实用性。
251 0
|
人工智能 算法 计算机视觉
AI开发者大会之计算机视觉技术实践与应用:2020年7月3日《如何利用计算机视觉增加便利店连锁每日销售额》、《基于图像 / 视频的人脸和人体分析基础技术及其应用介绍》
AI开发者大会之计算机视觉技术实践与应用:2020年7月3日《如何利用计算机视觉增加便利店连锁每日销售额》、《基于图像 / 视频的人脸和人体分析基础技术及其应用介绍》
AI开发者大会之计算机视觉技术实践与应用:2020年7月3日《如何利用计算机视觉增加便利店连锁每日销售额》、《基于图像 / 视频的人脸和人体分析基础技术及其应用介绍》
|
机器学习/深度学习 人工智能 安全
bioRxiv | AI辅助设计针对SARS-CoV-2的表位疫苗
bioRxiv | AI辅助设计针对SARS-CoV-2的表位疫苗
498 0
bioRxiv | AI辅助设计针对SARS-CoV-2的表位疫苗
|
机器学习/深度学习 人工智能 自然语言处理
一周AI最火论文 | 拟合力学模型,谷歌教机器人用5分钟的数据get多种运动技能
一周AI最火论文 | 拟合力学模型,谷歌教机器人用5分钟的数据get多种运动技能
158 0
|
存储 人工智能 API
ai视觉能有多强?第四章-车辆保险应用
使用阿里云实现车辆保险应用开发
748 0
ai视觉能有多强?第四章-车辆保险应用
|
机器学习/深度学习 人工智能 算法
AI版进化论上演?遵循适者生存,几天内复现数十年AI研究轨迹
AI可以自我进化了?的确,谷歌的计算机科学家Quoc Le和他的同事们开发了一个名为AutoML-Zero的AI程序,借用了达尔文进化论以及“适者生存”的概念,在没有人类输入的情况下,它可以一代又一代地改进。