直播已成电商、金融等领域的标配,由于真人主播成本高、在线时间有限,具有认知能力的虚拟主播因此成为可以替代真人最佳选择。
不同于传统虚拟人机械化的表达,阿里虚拟主播率先融合了达摩院最前沿的认知智能和感知智能技术,其表情动作、直播内容可以根据直播情况而实时变化。例如,基于阿里自研的深度网络模型,虚拟主播喊出 “OMG!”这样的口头禅时,会配合展现相应的嘴型、表情和肢体语言动作,表露出惊讶的神态。另外,虚拟主播还可以和直播间的千万级用户实时互动,无论是闲聊还是对商品提出疑问,虚拟主播都会实时做出回应。
据介绍,淘宝直播间背后还采用了窄带高清、大规模低延时等基础创新技术,例如低延时技术可以让世界各地不同环境、不同设备的消费者,能同步接收到画面和声音。
达摩院智能服务团队负责人赵昆表示,“虚拟主播背后是一套复杂的算法和工程体系,涵盖了视觉、语音、自然语言处理等多模态融合算法,这是机器能和人自然沟通的基础,未来,我们将继续将这套人机交互技术应用到金融、教育、医疗等领域。”