万众瞩目的北京2022冬奥会正在如火如荼地进行中,作为奥林匹克全球合作伙伴的阿里巴巴也有大动作,用科技对百年奥运进行数字化升级和转型,致力于通过云科技和电商服务,为人们带来不同的奥运感受和观赛体验。特别是推出了首个会智能互动的数字人冬奥宣推官——冬冬,在多场景让每个人都能够感受到冬奥冰雪带来的快乐。
在此之前,各个领域已经出现了不少的数字人,如新华社的全球首位数字航天员小诤、央视与朱广权对话的手语数字人、登上央视《对话》央美毕业的艺术类数字人夏语冰……
对比之下,从冬冬在北京冬奥会期间的表现来看,她非常像那种有创新精神、希望同时尝试不同职业的“斜杠青年”——她既是一名有着很强的采访能力的主持人和记者,又是一位有着丰富控场和销售经验的带货主播,只要冬奥用户关注的大小屏各个场域,都能看到她的身影。
作为新华社官方认证的数字人记者,冬冬出现在新华社的《秀我中国》栏目中,并与真人记者一起前往比赛场馆探馆。例如,冬冬与记者一起探访冰立方,当记者说出这里将是中国队的首秀场地后,冬冬马上接话:“是的,凌智和范苏圆参加了(冰壶)混双比赛。”
冬冬作为特约记者在《秀我中国》中探访冰立方
老冀还注意到,冬冬就像专业的体育记者那样,可以与采访对象进行互动。她出现在央视备受欢迎的《体坛英豪》节目中,对多位知名运动员做了现场访谈。例如,在对前短道速滑世界冠军杨扬的采访中,她不仅能够列出杨扬曾经获得的冠军数,还就中国冬奥热门项目短道速滑向杨扬进行了针对性的提问,并请杨扬为中国队送上祝福。后续她又陆续采访了蔡雪桐等多名冬奥人气运动员,并与他们进行互动。
冬冬在《体坛英豪》采访前世界冠军 杨扬
冬冬向中国女子单板滑雪名将蔡雪桐请教动作
看到这里你可能要提出疑问,冬冬作为冬奥数字人,与之前那些在特色场景完成特定任务的功能型数字人,好像并无本质不同。但其实不然,更让老冀眼前一亮的是,除了特定场景下的身份设定及内容输出,冬冬不再单纯依靠传统的动捕技术,而是可以通过AI驱动实现实时互动和智能化输出,可以像一个真人一样做到“有问必答,有求必应”。
下面就让我们来看看,这位从小就爱在什刹海滑冰、快人快语的北京姑娘冬冬,与众不同之处在哪里?
全场景实时互动
冬冬与其他数字人最大的不同,即为她可以实现全场景的实时互动,这一点在冬冬的直播间里得到充分的体现。
如果你觉得冬冬只是名优秀的体育记者或主持人,那你的认识就片面了。实际上,冬冬还是位好主播。从2月4日北京冬奥会开幕式当天,冬冬直播间便同步每晚7点半准时开播。冬冬直播间落地在淘宝直播,每天至少上播两个小时,与天猫奥林匹克官方旗舰店合作,售卖各种冬奥特许商品,这里也是官方唯一认证的淘宝直播售卖渠道。
在收看了冬冬的直播之后,老冀对冬冬直播间的总体印象有两点:一个是应景,能够与正在进行中的冬奥赛事紧密结合;另一个就是活泼,能够充分带动网友的情绪。主要体现在直播的四个方面:
第一个是冬奥百科问答互动。冬冬在直播时会问到一些和运动员相关的内容,并弹窗提示网友选择对应答案发送至评论区进行互动,在网友选择相应答案后,冬冬会根据答案做出回应,并进行科普。如冬冬问到“大家知道谷爱凌小姐姐的比赛项目是什么吗?”,在网友回复自由式滑雪后,冬冬会根据回答科普自由式滑雪项目的相关内容;
第二个是图文资讯抓取播报。在2月5日的直播中,冬冬就当日短道速滑混合团体接力摘中国冬奥首金的消息,进行了即时的播报;
第三个是用户互动动作秀。在直播间里,冬冬会号召网友们在评论区回复“中国加油”,并会根据网友的实时反馈为奥运健儿跳舞助威,如果有网友在评论表白冬冬,冬冬也会积极回复,并向其比心;
0:36
第四个是智能售卖冬奥特许商品。在两个多小时的直播里,冬冬会持续上架二三十件奥运特许商品,包括冬奥会纪念徽章、棒球帽、T恤衫、羽绒服等多种商品,特别是稀缺的“顶流”冰墩墩周边,更是被网友一抢而空、一墩难求。
试想一下,如果是你,你能否做到白天辗转于各个比赛场馆和访谈间,晚上还要直播带货?恐怕你不一定做得比冬冬更出色,也肯定没有冬冬那种永远不知疲倦的活力。尤其是每日直播间丰富、有趣的互动内容,就需要很强的科技能力,那么,为数字人冬冬赋能的科技能力,又来自何方?
AI驱动力
其实,冬冬全场景实时互动能力的背后,依托的是阿里巴巴强大的AI驱动力。具体来说,主要应用了以下黑科技:
第一项是AI实时驱动。为什么在直播的时候,冬冬的动作会那么自然?这是因为冬冬采用了实时驱动技术。
一般数字人处理动作的主流技术是动作捕捉,需要真人穿上相应的动捕专业设备,设备里面布满了传感器,和真人肢体动作相绑定,可实时传递到虚拟数字人身上。通过这种方式,来让数字人学会人的行为举止。
AI实时驱动的数字人冬冬,她的每一个动作反应都是算法计算出来的。例如,冬冬在说话和播报的时候,会通过AI的实时演算,整合输出多模态的发音、口型、表情及身体动作,简单说,就是算出口型应该是什么样的,与此同时面部表情和肢体动作也会和说话内容相符合,达到更自然的效果。
第二项是具有情感表现力的TTS语音合成。数字人的发音,最难的是如何能够输出抑扬顿挫、有气口、有韵律的发声。有赖于阿里巴巴达摩院语音实验室为冬冬量身打造的高表现力语音合成技术,特别是“显式韵律建模”技术,在传统播音腔的“字正腔圆”之外,更加入了强调、停顿、情绪等拟人元素,使得AI合成的语音比以往更加抑扬顿挫、自然流畅、充满表现力。
第三项是自动剧本生成。自动剧本生成的难点,首先在于长时间的脚本生成。一场2个多小时的直播,如果是真人,可能需要提前好几天准备几万字的文稿,但是冬冬可以实时抓取、自动生成高质量的文本。冬冬能够自动根据场景,生成逻辑通顺、有一定文采的文本,实现数字人对于内容的口语化、自然化、趣味化的输出,表达上更贴近自然人的沟通处理能力。
另一个难点还体现在即时性。得益于新华社与UC的合作,冬冬能够从新华社UC大鱼号上获取最新赛事动态,完成对一手冬奥资讯权威、实时的播报。基于此,冬冬可以自动抓取大量信息,并自动提炼核心内容生成适宜于播报的稿件。
第四项是多模态互动。从冬冬在淘宝直播间的表现可以看出,冬冬已经实现了1v1,甚至1vn的多模互动。想要灵活地与多个网友采用文字、图片、语音甚至视频互动,这就用到了目前AI领域最领先的多模态机器学习技术:通过机器学习的方法,实现对多源模态信息的分析和理解。
而冬冬的直播表现证明,阿里巴巴在多模态领域有着很强的技术积累。
因此,从数字人冬冬的外在表现,老冀看到的是阿里巴巴在AI领域的深厚积淀。如今的阿里巴巴,通过整合研发图形图像语音技术,已经拥有了2D仿真人和3D虚拟人技术产品,支持淘宝直播虚拟主播、虚拟讲师等业务场景。阿里巴巴的AI技术覆盖了虚拟人生成、驱动和交互领域,并在高精度人脸人体重建、卡通捏脸(photo2avatar)、真人复刻(video2avatar)、文本语音驱动(speech2action)、虚拟人交互对话等方向有着业界领先的技术积累。
结语
奥运会一直是各大企业亮肌肉的角力场。这一次,阿里巴巴却让老冀看到了不一样的科技力量。
作为奥林匹克全球合作伙伴,在北京冬奥会期间,阿里巴巴借助推出“冬冬”这个数字人,不是大开大合地讲述尖端技术,而是亲和地、润物细无声地融入观众喜闻乐见的节目和新闻报道中,甚至是售卖冬奥吉祥物相关特许商品的直播间里,让更多用户可以更简单、更趣味地体验冬奥的冰雪之乐。
从冬冬在冬奥会期间的表现,我们也更深入地体会到阿里巴巴一直提倡的“橙色科技”理念:那就是用深厚积累的科技能力,应用到与用户生活息息相关的体验当中,为人们带去更多的幸福与满足。
从这个意义上来看,阿里巴巴冬奥数字人冬冬的一小步,是阿里巴巴致力于科技改变用户生活的一大步,也是奥林匹克运动数字化的重要一步。
冬奥期间(2.4-2.20),每晚7点半上淘宝直播或点淘APP,搜索【冬冬直播间】,体验冬冬直播互动,感受不一样精彩的北京冬奥!