AiTalk创始人梁宇淇:镜像连接虚拟与现实的纽带

简介: 赋予虚拟数字人“实时沟通与互动”的能力

私享会现场.jpg

图:2022阿里云视觉计算私享会现场


5月11日,在“2022阿里云视觉计算私享会”上,AiTalk创始人梁宇淇为大家带来了题为《仿人智能交互:镜像连接虚拟与现实的纽带》的主题分享。以下内容根据他的演讲整理而成。

image001.jpg

现实生活,我们经常在机场、地铁站等公共场所见到一些实体机器人,也有很多比如小度、小冰、小爱等语音机器人。但这类机器人与人类的交互存在诸多障碍,往往沦为一种摆设。

image.gifimage003.jpg

数字人与上述各种机器人的本质是一样的,它是一种机器人的表现形式。然而数字人作为元宇宙的核心,依然缺乏实时的沟通和交流能力


目前市面上主要存在几类数字人:


  • 第一类:比如像柳夜熙、AYAYI等通过传统的CG动画制作、偏虚拟偶像类的产品。制作方法需要团队有很强的创意策划能力,但它很难超越阿凡达以及阿凡达塑造的元宇宙世界,仅适用于电影娱乐。


  • 第二类:由百度、商汤、相芯这类公司出品,基本采用统一的技术架构,采用云端渲染加推流的方式。但它的并发会受到很大限制,且很难适应终端的应用环境,比如弱网、无网或极端的嘈杂环境。此外,因为需要额外的GPU云服务器以及直播推流带宽,会额外增加很多成本。


  • 第三类:小冰、小度类型的语音交互产品。单纯从算力角度来看,AI已经远超人类。但是此类语音产品在与人进行交互时,始终无法顺畅、无障碍地与人对话。加多层神经网络、使用更优的深度学习模型,也依然无法解决语音产品与人交互时不符合人的日常习惯和逻辑的问题。

image.gifimage005.jpg


正是因为以上这几点,我们将研发重心放在了赋予数字人零障碍沟通和互动的能力上。很多客户对数字人的要求是:与人交流的时候能够做到“对答如流”


核心技术重点围绕以下几点展开:


1.STEP算法

我们自主研发了STEP算法,它的原理非常简单,任何人表达的任何意图都可以放在特定的场景下,围绕若干话题,通过特定事项来达到期望的目的,它能够解决AI与人交互时的习惯和逻辑问题。


比如问Siri哪里可以喝咖啡,他会直接推送搜索结果。但正常人交流时的逻辑应该是:A说想喝咖啡,B可能会告诉他楼下有哪几家咖啡店,有哪些种类的咖啡。因此,step算法重点就是解决逻辑问题。


2.识别干扰

与语音产品进行交互时,如果屏幕前有多个用户,则不管用户是否在与AI对话或与朋友对话,它都会将声音收录进去,并做出回应,然而这并不符合正常生活习惯。因此,需要对多人对话进行识别和干扰排除。


目前我们已经能够实现当AI面前有多人对话,他能够判断当前用户是否在与自己对话,是否需要回应。


3.对话打断

出现了听不懂的专有名词,或者对内容不感兴趣时,会打断对话。打断以后会考虑是否做恢复。


4.无唤醒词

在与市面上大部分语音智能产品交互时,一般需要喊“嘿siri”或按键以唤醒AI。而在线下4S店、银行网点、公交站等地与AI交互时,用户往往无法记住所有AI的唤醒词,因此需要做无唤醒词的处理以方便用户使用。

image007.jpg


解决了仿人交互的问题,让A.I.不再智障。我们还需要对人的形象数字化。不同于其他厂商“云端+推流”的技术架构,我们坚持采用客户端实时渲染处理,解决了延迟问题。对CPU的消耗不超过10%,而且可以兼容iOS9.0/android4.4,意味着七八年前1000元左右的安卓手机也可以运行此程序,可以不依赖网络。

image.gifimage009.jpg


采用云端分离的方式,好处在于,无论在哪里,都可以将它当成一个“人”。沟通和交互时,不管是3D全息、智能交互屏,还是未来的脑机接口或在大脑皮层植入芯片,都可以营造面对面聊天的效果。


图像的处理、与人物之间的交互都放在端上处理;而云主要用于强化沟通和互动的能力,更多地用来做思考和推理,主要是数据处理和训练:就像人们要接受培训和教育,不断充电、完善自我。

image011.jpg

AiTalk对外输出主要有三类标准化产品:


  • 第一类:仿人交互软件。它又分为两种:一种是SDK,可以针对比如手机App或智能家居产品,完全标准化,且成本很低。比如手机APP的license授权可能只需低于0.1元;另一种是针对银行网点、4S店、商超、公共场所等提供一整套软件,一般会搭载XR硬件。


  • 第二类:XR硬件。它具备多模态感知的能力,可以与它进行视觉层面、听觉层面的等多个层面的交互,而且它可以适用终端弱/无网和噪音的处理。


  • 第三类:配套的应用服务,它能够处理交互过程,AI与人交互的时候,不只是简单的聊天,而是能够帮助企业或用户完成相关的事务和流程。比如办工商注册,数字人会推送相关流程,并协助完成某些流程的办理,过程中还有VR/AR方面的应用,增强用户沉浸式的交互。

image013.jpg

与其他友商相比,AiTalk更加注重于仿人交互方面的探索,优势在于以下两个方面:


  • 1. 客户端实时渲染。我们是唯一一家采用边缘计算的公司,不存在任何并发限制,而且没有延迟,可以让三四五六七八九线的用户零成本使用相关产品。模型精度可达150万面,成本降低90%以上。


  • 2. 虚拟数字人沟通能力。沟通互动能力是数字人的灵魂,我们采用大量仿生技术,让虚拟数字人具备与人进行零障碍交流和互动的能力,不再智障。只有达到这一点,数字人/AI才能真正大规模进入商业化应用。


以上是我的全部分享,特别感谢阿里云的邀请以及长久以来合作伙伴的大力支持,谢谢大家。


点击阅读原文,查看本次视觉计算私享会的回放视频


相关阅读

虚谷未来CEO 唐佳娴:让虚拟人“灵” 动起来

英伟达周锡健:设计到数字营销的最后一公里

阿里云张新涛:异构计算为数字经济提供澎湃动力

携手数字人、数字空间、XR平台,阿里云与伙伴共同建设“新视界”

相关文章
|
3月前
|
传感器 数据采集 物联网
元宇宙与物联网:连接虚拟与现实
【10月更文挑战第29天】元宇宙与物联网正逐步改变我们的生活和工作方式。元宇宙通过区块链、云计算等技术,构建了一个与现实世界平行的虚拟空间;物联网则通过智能感知和连接,将物体与互联网相连,提供精准数据和服务。两者融合,提升了虚拟空间的真实感和沉浸感,带来了更智能的服务,共同推动社会的数字化和智能化进程。
|
5月前
|
人工智能 Unix 物联网
揭秘操作系统演进奇迹:从单一孤岛到多元宇宙的跨越,你的每一次点击背后有何奥秘?
【8月更文挑战第28天】操作系统的演进是一段从简单单一到复杂多元的壮丽旅程。自计算机诞生以来,操作系统作为硬件与软件的桥梁,不断推动信息技术的发展。从早期ENIAC的硬编码指令到IBM OS/360的批处理系统,再到UNIX的多用户多任务能力,操作系统逐步实现了真正的并发执行。21世纪,Windows以图形界面称霸个人电脑市场,Linux则在服务器和云计算领域大放异彩,macOS也在创意产业中占据重要地位。示例代码展示了在Linux下创建和运行新进程的方法。未来,操作系统将在物联网、人工智能等新兴技术的推动下继续进化,构建更智能、高效的数字世界。
34 1
|
8月前
|
监控 安全 测试技术
【亮剑】在网络技术日益发展的今天,端口映射已成为家庭和企业网络环境中不可或缺的一项技术。
【4月更文挑战第30天】本文介绍了端口映射(Port Forwarding)的概念,它是NAT技术的一种,用于让外部设备访问内部网络服务。端口映射广泛应用于远程桌面、网络游戏、视频监控和个人服务器托管等场景。操作步骤包括登录路由器管理界面、设置映射规则、保存并启用规则,以及测试映射效果。虽然端口映射能扩大网络应用,但也可能带来安全风险,因此需谨慎管理和设置安全措施。
127 0
|
决策智能
互联网发展历程:速度与效率,交换机的登场
互联网发展历程:速度与效率,交换机的登场
98 0
互联网发展历程:速度与效率,交换机的登场
|
自动驾驶 5G 新制造
5G和6G网络:塑造未来的连接技术
5G和6G网络正在塑造着未来的连接技术,带来了更快、更可靠、更广泛的网络连接。5G已经成为现实,为各种应用带来了新的可能性,而6G则有望在不远的将来推动我们进入一个更加智能和高度连接的时代。无论是在个人生活还是商业领域,我们都将因为5G和6G的发展而迎来更多机遇和挑战。
283 0
5G和6G网络:塑造未来的连接技术
|
8月前
|
人工智能 安全 算法
专访电享科技朱卓敏:用虚拟电厂搭建用户与大电网互动的“桥梁”
摘要:电享科技作为一家新型电力系统能源数字化AI创新企业,致力于新一代能源控制与电池AI技术,解决分布式储能领域快速发展中的调配失衡与价值回报难题,通过Energy AI为碳中和基础设施投资者提高IRR,快速驱动市场扩张。
343 1
专访电享科技朱卓敏:用虚拟电厂搭建用户与大电网互动的“桥梁”
|
缓存 网络安全 网络架构
网络是怎样连接的 - 探索之旅路线图
网络是怎样连接的 - 探索之旅路线图
205 0
网络是怎样连接的 - 探索之旅路线图
|
安全 vr&ar
Meta进军元宇宙Horizon虚拟实镜社群空间,开放成年使用者进入新世界
Meta Platforms Inc在2019年宣布推出,并且日前进行BETA测试版Horizon虚拟实境社群空间,目前已经正式向美国及加拿大地区年满18岁以上的使用者开放。根据官方网站消息,在Horizon所呈现的虚拟实境空间中,使用者将可透过Quest 2等虚拟实境装置登入,并且建立属于自己的虚拟实境分身。
983 0
|
Kubernetes 自动驾驶 关系型数据库
打破专有系统的桎梏:5G网络的开放之路
随着技术的不断变迁,专有无线接入网络的时代正在逐渐消失。运营商希望能在降低成本的同时增加灵活性,其需要易于部署且经济实惠的网络和网络组件,这也导致整个行业从4G专用硬件和专有软件开始转向安装在COTS硬件平台上的开放软件栈。
|
数据格式 XML
跨越源界限.开创新纪元--暨微软互操作阶段成果汇报会
微软这个会议的名称把我搞糊涂了,以为又要讲什么SOA类似的东西了,不过喜欢自动化的我对新东西并不排斥,上周五到了会场一听,才知道是关于微软OPEN XML的事情,所以这才明白袁萌老师会出现在会场,听完会议之后,才理解袁萌老师为什么会对微软的OPEN XML变了态度。
647 0