AiTalk创始人梁宇淇:镜像连接虚拟与现实的纽带

本文涉及的产品
云服务器 ECS,每月免费额度200元 3个月
云服务器ECS,u1 2核4GB 1个月
简介: 赋予虚拟数字人“实时沟通与互动”的能力

私享会现场.jpg

图:2022阿里云视觉计算私享会现场


5月11日,在“2022阿里云视觉计算私享会”上,AiTalk创始人梁宇淇为大家带来了题为《仿人智能交互:镜像连接虚拟与现实的纽带》的主题分享。以下内容根据他的演讲整理而成。

image001.jpg

现实生活,我们经常在机场、地铁站等公共场所见到一些实体机器人,也有很多比如小度、小冰、小爱等语音机器人。但这类机器人与人类的交互存在诸多障碍,往往沦为一种摆设。

image.gifimage003.jpg

数字人与上述各种机器人的本质是一样的,它是一种机器人的表现形式。然而数字人作为元宇宙的核心,依然缺乏实时的沟通和交流能力


目前市面上主要存在几类数字人:


  • 第一类:比如像柳夜熙、AYAYI等通过传统的CG动画制作、偏虚拟偶像类的产品。制作方法需要团队有很强的创意策划能力,但它很难超越阿凡达以及阿凡达塑造的元宇宙世界,仅适用于电影娱乐。


  • 第二类:由百度、商汤、相芯这类公司出品,基本采用统一的技术架构,采用云端渲染加推流的方式。但它的并发会受到很大限制,且很难适应终端的应用环境,比如弱网、无网或极端的嘈杂环境。此外,因为需要额外的GPU云服务器以及直播推流带宽,会额外增加很多成本。


  • 第三类:小冰、小度类型的语音交互产品。单纯从算力角度来看,AI已经远超人类。但是此类语音产品在与人进行交互时,始终无法顺畅、无障碍地与人对话。加多层神经网络、使用更优的深度学习模型,也依然无法解决语音产品与人交互时不符合人的日常习惯和逻辑的问题。

image.gifimage005.jpg


正是因为以上这几点,我们将研发重心放在了赋予数字人零障碍沟通和互动的能力上。很多客户对数字人的要求是:与人交流的时候能够做到“对答如流”


核心技术重点围绕以下几点展开:


1.STEP算法

我们自主研发了STEP算法,它的原理非常简单,任何人表达的任何意图都可以放在特定的场景下,围绕若干话题,通过特定事项来达到期望的目的,它能够解决AI与人交互时的习惯和逻辑问题。


比如问Siri哪里可以喝咖啡,他会直接推送搜索结果。但正常人交流时的逻辑应该是:A说想喝咖啡,B可能会告诉他楼下有哪几家咖啡店,有哪些种类的咖啡。因此,step算法重点就是解决逻辑问题。


2.识别干扰

与语音产品进行交互时,如果屏幕前有多个用户,则不管用户是否在与AI对话或与朋友对话,它都会将声音收录进去,并做出回应,然而这并不符合正常生活习惯。因此,需要对多人对话进行识别和干扰排除。


目前我们已经能够实现当AI面前有多人对话,他能够判断当前用户是否在与自己对话,是否需要回应。


3.对话打断

出现了听不懂的专有名词,或者对内容不感兴趣时,会打断对话。打断以后会考虑是否做恢复。


4.无唤醒词

在与市面上大部分语音智能产品交互时,一般需要喊“嘿siri”或按键以唤醒AI。而在线下4S店、银行网点、公交站等地与AI交互时,用户往往无法记住所有AI的唤醒词,因此需要做无唤醒词的处理以方便用户使用。

image007.jpg


解决了仿人交互的问题,让A.I.不再智障。我们还需要对人的形象数字化。不同于其他厂商“云端+推流”的技术架构,我们坚持采用客户端实时渲染处理,解决了延迟问题。对CPU的消耗不超过10%,而且可以兼容iOS9.0/android4.4,意味着七八年前1000元左右的安卓手机也可以运行此程序,可以不依赖网络。

image.gifimage009.jpg


采用云端分离的方式,好处在于,无论在哪里,都可以将它当成一个“人”。沟通和交互时,不管是3D全息、智能交互屏,还是未来的脑机接口或在大脑皮层植入芯片,都可以营造面对面聊天的效果。


图像的处理、与人物之间的交互都放在端上处理;而云主要用于强化沟通和互动的能力,更多地用来做思考和推理,主要是数据处理和训练:就像人们要接受培训和教育,不断充电、完善自我。

image011.jpg

AiTalk对外输出主要有三类标准化产品:


  • 第一类:仿人交互软件。它又分为两种:一种是SDK,可以针对比如手机App或智能家居产品,完全标准化,且成本很低。比如手机APP的license授权可能只需低于0.1元;另一种是针对银行网点、4S店、商超、公共场所等提供一整套软件,一般会搭载XR硬件。


  • 第二类:XR硬件。它具备多模态感知的能力,可以与它进行视觉层面、听觉层面的等多个层面的交互,而且它可以适用终端弱/无网和噪音的处理。


  • 第三类:配套的应用服务,它能够处理交互过程,AI与人交互的时候,不只是简单的聊天,而是能够帮助企业或用户完成相关的事务和流程。比如办工商注册,数字人会推送相关流程,并协助完成某些流程的办理,过程中还有VR/AR方面的应用,增强用户沉浸式的交互。

image013.jpg

与其他友商相比,AiTalk更加注重于仿人交互方面的探索,优势在于以下两个方面:


  • 1. 客户端实时渲染。我们是唯一一家采用边缘计算的公司,不存在任何并发限制,而且没有延迟,可以让三四五六七八九线的用户零成本使用相关产品。模型精度可达150万面,成本降低90%以上。


  • 2. 虚拟数字人沟通能力。沟通互动能力是数字人的灵魂,我们采用大量仿生技术,让虚拟数字人具备与人进行零障碍交流和互动的能力,不再智障。只有达到这一点,数字人/AI才能真正大规模进入商业化应用。


以上是我的全部分享,特别感谢阿里云的邀请以及长久以来合作伙伴的大力支持,谢谢大家。


点击阅读原文,查看本次视觉计算私享会的回放视频


相关阅读

虚谷未来CEO 唐佳娴:让虚拟人“灵” 动起来

英伟达周锡健:设计到数字营销的最后一公里

阿里云张新涛:异构计算为数字经济提供澎湃动力

携手数字人、数字空间、XR平台,阿里云与伙伴共同建设“新视界”

相关文章
|
9月前
|
自动驾驶 5G 新制造
5G和6G网络:塑造未来的连接技术
5G和6G网络正在塑造着未来的连接技术,带来了更快、更可靠、更广泛的网络连接。5G已经成为现实,为各种应用带来了新的可能性,而6G则有望在不远的将来推动我们进入一个更加智能和高度连接的时代。无论是在个人生活还是商业领域,我们都将因为5G和6G的发展而迎来更多机遇和挑战。
215 0
5G和6G网络:塑造未来的连接技术
|
缓存 网络安全 网络架构
网络是怎样连接的 - 探索之旅路线图
网络是怎样连接的 - 探索之旅路线图
160 0
网络是怎样连接的 - 探索之旅路线图
|
存储 云安全 监控
云计算vs.内部部署软件的辩论
如今,每当企业部署新软件时,他们都会面临一个两难的境地:他们应该使用基于云计算的软件即服务(SaaS)解决方案,还是应该在自己的数据中心内部部署应用程序?对于越来越多的组织来说,云计算已经成为一种可行的选择,至少对于某些需求而言。在RightScale Cloud of 2018年调查报告中,96%的受访者表示他们正在使用某种形式的云计算。
189 0
|
Kubernetes Cloud Native Unix
容器十年 ——一部软件交付编年史
张磊,阿里云容器平台高级技术专家,CNCF Ambassador (CNCF 官方大使),Kubernetes 项目资深成员与维护者,曾就职于 Hyper、微软研究院(MSR),现在负责 Kubernetes 技术及上下游相关工作。
451 0
容器十年 ——一部软件交付编年史
|
数据格式 XML
跨越源界限.开创新纪元--暨微软互操作阶段成果汇报会
微软这个会议的名称把我搞糊涂了,以为又要讲什么SOA类似的东西了,不过喜欢自动化的我对新东西并不排斥,上周五到了会场一听,才知道是关于微软OPEN XML的事情,所以这才明白袁萌老师会出现在会场,听完会议之后,才理解袁萌老师为什么会对微软的OPEN XML变了态度。
633 0
|
虚拟化 Docker 容器
专访李瑞丰:建立一个全面的知识网络是很重要的一件事儿
这是一本关于Docker的图书。这本书的宗旨是从零开始学习Docker,因此你无须任何前置知识储备。如果你对Docker感兴趣,希望了解Docker工作原理以及如何正确使用Docker,则本书适合你。同时本书也可作为Docker认证工程师考试的参考图书。
2471 0
国内量子计算新进展,上交大团队成功运行专用算法
这一研究让量子计算的物理实现成为可能。
457 0
|
Kubernetes 安全 Docker
IDC 研究经理亲临网络研讨会现场,6问6答带您了解最新容器动态!
最新的 IDC 数据显示,越来越多的组织正在使用容器将应用程序部署到生产环境中,从而推动了对 Docker Enterprise 等容器平台的需求,这些平台集成了广泛的如编排、安全性和访问控制等管理功能。
1559 0

热门文章

最新文章