智能图形学的进展及应用

简介: 在人工智能高速发展的今天,越来越多的AI技术开始与计算机图形技术结合解决实际应用问题。AI数字人技术由人工智能与CG技术结合而成,用于提供仿真的人机问答服务,并在视觉通道上优化人机交互体验。相芯科技CTO秦昊在达摩院AI Inside同行者大会中通过企业在AI数字人方面的探索及相关应用的案例分享展现AI数字人技术的进展及应用。

演讲嘉宾简介:秦昊,相芯科技CTO

预约观看演讲视频

以下内容根据演讲视频以及PPT整理而成。

本文将站在应用角度为大家展示相芯科技联合阿里云TTS开发的AI数字人应用案例。

AI数字人

AI数字人的概念起源于2017年SIGGRAPH大会上,众多学术机构合作推出了一款AI数字人Virtual Mike。通过融合当时尖端的渲染技术与动作捕捉技术大会打造了一个惟妙惟肖的实时虚拟角色。经过两三年的发展,互联网行业中开始出现数字人技术应用的案例,如百度公司与浦发银行共同打造的AI数字人“小浦”可以作为银行的数字员工为相关用户提供业务咨询及简单业务办理的服务。
图片3.png

image.png

AI数字人技术为用户提供了全新基于视觉通道的人机交互界面。该界面通过融合CG技术、语音技术及自然语言处理等多种技术,为使用者打造出类似人与人交互的操作体验。企业通过切换数字人背后的知识库或AI模块使其可以支撑不同的业务场景,如在媒体播报领域、个人助理领域及业务咨询等领域数字人技术均有不俗的表现。

虚拟主播云平台

相芯科技公司基于与阿里云的合作在很多领域开始进行AI数字人技术的应用落地。相芯科技的AI数字人技术,只需要输入一段文字,就可以全自动地合成整个人的说话,包含动作、形态、情绪的视频。公司搭建的虚拟主播云平台如下图所示。在平台编辑界面中,用户可以对虚拟人物的角色、对话内容脚本及相关人物动作进行选择,并通过阿里云的云服务器进行渲染和视频合成,就能快速生成数字人的视频,用户可以自行将视频下载,并进行分发。

image.png

虚拟主播及虚拟机器人

下图所示为公司虚拟主持人模块的架构。公司将相关脚本输入,通过TTS语音技术完成人物语音的合成,在STA(Speech-to-Animation)模块中进行动画及视频合成,最后生成相关的虚拟视频。企业同时对互动助手、虚拟机器人技术架构进行了开发。在数据输入部分,系统通过接入自然语言处理等模块完成了机器人问答系统的搭建,以此支持数字人与用户的实时交互功能。
image.png

语音技术合作伙伴—阿里云TTS

STA业务打造的虚拟主播与虚拟客服,都离不开语音合成技术TTS的支持。企业对市面上提供TTS服务的公司进行调研对比后,选择了阿里云TTS作为合作伙伴。企业通过与阿里云TTS的合作,为数字人角色搭建了真实自然的语音模型,并陆续在进行更深层次的技术合作。

image.png

STA算法流程

下图所示为STA(Speech-to-Animation)算法流程示意图。企业将文本数据与语音数据共同作为算法数据导入算法模块中,算法将会对语音数据中的情绪及语速等因素进行分析,以此合成出数字人说话的口型、发音及与用户的对话情景等数据,通过分析出的数据驱动数字人表现出自然生动的画面。
image.png

图形合成模块

企业经过一系列探索,目前已拥有了完备的数字人表现及部署方案。从3D卡通形象到高精度虚拟人形象企业均可提供良好的塑造技术支持。企业可以使用不同的虚拟人物完成不同业务场景下对虚拟人物的需求,包括且不限于支持智能手机、终端及大屏上数字人的问答业务、支持云渲染实现高质量视频合成等业务场景。
image.png

照片级人像合成技术

企业由SIGGRAPH大会论文成果设计实现的照片级人像合成技术效果如下图所示。使用者在左侧输入表情时,右侧的目标照片上的人物可以实时做出惟妙惟肖的表情。该技术能非常细腻地合成人物脸上每处细节(如法令纹、牙齿等),使观看者感受到照片像现实人物一样在做动作。
image.png

该技术背后为企业基于生成对抗网络所开发的技术架构。由于生成对抗网络技术最大的难点在于它生成的结果的不可控性,考虑到数字人场景需要极其精准掌控人物的发音状态表现,开发团队创新性的构建了两个阶段的人像合成算法架构。算法首先通过三维的数据重建与数据理解将图像变形到开发团队预设的表情上,之后算法通过生成对抗网络技术对虚拟人物在细节上进行修补与还原。在这种方案下,生成对抗网络本身可以专注于人物细节的修补,免去了其处理图片形变与位移所需的精力,使算法可以良好的控制虚拟人物表情变化,真实的还原人物细节。
image.png

下图为企业照片级人像合成技术的效果。左上方在人在做一些表情,来控制其他照片,使这五张照片也可以合成出非常真实的表情,包括牙齿、嘴巴内部、法令纹等细节都能合成得非常真实,很难判别出真假。
image.png

虚拟主播案例

目前AI数字人技术不仅可以在高精度虚拟人物合成场景中进行应用,同时也多样型的数字人解决方案开始在各行各业的业务场景中落地提供相应服务。下图所示为企业基于AI数字人技术设计开发的虚拟主播应用案例。对于报社、电视台及媒体等业务方而言,虚拟主播技术很好的满足了业务方在自动化视频生成、媒体内容生成方面的业务需求,成为了融媒体时代新闻媒体的传媒利器。同时虚拟主播技术也被应用于新媒体之中,业务方通过打造公司专属的虚拟主播形象既可以实现与观众的情感互动也保证了公司本身的传媒影响力,避免了出现以往公众影响力集中在新闻主播身上的情况。
image.png

虚拟机器人案例

企业在具有将强的互动性虚拟机器人和互动助手在技术上也在进行相关探索。通过STA技术,企业将虚拟人物与问答系统整合。在用户使用系统进行交互时,系统将展现出更为具象的虚拟人物进行交流互动。比如公司通过与汽车企业合作研制的车机虚拟助手目前已实现量产车上的部署。公司同时积极探索数字人技术在线下场景中的应用,通过在银行大厅、地铁售票处、医院、法庭及企业展厅中部署AI数字人系统。同时公司可以实现让智能音箱升级为具有具像化形象的智能系统。公司为不同业务的用户群体提供了更为高效便利的咨询服务及良好的交互体验。

相关文章
|
缓存 Linux
centos7更换yum源 一条命令搞定
centos7更换yum源 一条命令搞定
2652 0
|
机器学习/深度学习 人工智能 编解码
基于ViT主干的扩散模型技术,开源!
近期大火的OpenAI推出的Sora模型,其核心技术点之一,是将视觉数据转化为Patch的统一表示形式,并通过Transformers技术和扩散模型结合,展现了卓越的scale特性。
|
6月前
|
云安全 人工智能 搜索推荐
客户案例|皇家宠物食品:以“懂我”的温暖服务,延续每一份人宠羁绊
皇家宠物食品携手阿里云与Salesforce,打造高性能本地化客户关怀平台,实现多渠道服务整合,为宠主提供个性化、温暖的服务体验,助力科学养宠新时代。
|
4月前
|
机器学习/深度学习 算法 PyTorch
125_训练加速:FlashAttention集成 - 推导注意力优化的独特内存节省
2025年,大型语言模型的训练面临着前所未有的挑战。随着模型参数量和序列长度的不断增加,传统注意力机制的内存瓶颈问题日益突出。FlashAttention作为一种突破性的注意力算法,通过创新的内存访问模式和计算优化,显著提升了训练效率和内存利用。
|
4月前
|
人工智能 自然语言处理 TensorFlow
134_边缘推理:TensorFlow Lite - 优化移动端LLM部署技术详解与实战指南
在人工智能与移动计算深度融合的今天,将大语言模型(LLM)部署到移动端和边缘设备已成为行业发展的重要趋势。TensorFlow Lite作为专为移动和嵌入式设备优化的轻量级推理框架,为开发者提供了将复杂AI模型转换为高效、低功耗边缘计算解决方案的强大工具。随着移动设备硬件性能的不断提升和模型压缩技术的快速发展,2025年的移动端LLM部署已不再是遥远的愿景,而是正在成为现实的技术实践。
|
机器学习/深度学习 分布式计算 并行计算
【MATLAB】史上最全的13种数据拟合算法全家桶
【MATLAB】史上最全的13种数据拟合算法全家桶
2581 1
|
6月前
|
机器学习/深度学习 搜索推荐 算法
揭秘京东 API,让京东店铺商品推荐更懂用户
在电商时代,京东API通过大数据与机器学习,助力店铺实现精准商品推荐。本文揭秘其核心机制与优化策略,助您打造更“懂”用户的推荐系统,提升转化率与用户体验。
201 0
|
9月前
|
传感器 人工智能 边缘计算
别让无人机“飞瞎”!5G才是它的“天眼”
别让无人机“飞瞎”!5G才是它的“天眼”
334 13
京东外卖抢单脚本,京东骑手抢单辅助插件,autojs框架分享
这段代码展示了如何使用AutoJS实现一个基础的订单监听和抢单逻辑。实际应用中需要考虑更多细节
|
机器学习/深度学习 存储 人工智能
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型
EfficientTAM是Meta AI推出的轻量级视频对象分割和跟踪模型,旨在解决SAM 2模型在移动设备上部署时的高计算复杂度问题。该模型采用非层次化Vision Transformer(ViT)作为图像编码器,并引入高效记忆模块,以降低计算复杂度,同时保持高质量的分割结果。EfficientTAM在多个视频分割基准测试中表现出与SAM 2相当的性能,具有更快的处理速度和更少的参数,特别适用于移动设备上的视频对象分割应用。
452 9
EfficientTAM:Meta AI推出的视频对象分割和跟踪模型

热门文章

最新文章