数字人凭啥能干这些?阿里巴巴让我开眼了

简介: 数字人凭啥能干这些?阿里巴巴让我开眼了

   万众瞩目的北京2022冬奥会正在如火如荼地进行中,作为奥林匹克全球合作伙伴的阿里巴巴也有大动作,用科技对百年奥运进行数字化升级和转型,致力于通过云科技和电商服务,为人们带来不同的奥运感受和观赛体验。特别是推出了首个会智能互动的数字人冬奥宣推官——冬冬,在多场景让每个人都能够感受到冬奥冰雪带来的快乐。

image.png

在此之前,各个领域已经出现了不少的数字人,如新华社的全球首位数字航天员小诤、央视与朱广权对话的手语数字人、登上央视《对话》央美毕业的艺术类数字人夏语冰……


对比之下,从冬冬在北京冬奥会期间的表现来看,她非常像那种有创新精神、希望同时尝试不同职业的“斜杠青年”——她既是一名有着很强的采访能力的主持人和记者,又是一位有着丰富控场和销售经验的带货主播,只要冬奥用户关注的大小屏各个场域,都能看到她的身影。


作为新华社官方认证的数字人记者,冬冬出现在新华社的《秀我中国》栏目中,并与真人记者一起前往比赛场馆探馆。例如,冬冬与记者一起探访冰立方,当记者说出这里将是中国队的首秀场地后,冬冬马上接话:“是的,凌智和范苏圆参加了(冰壶)混双比赛。”


image.png

冬冬作为特约记者在《秀我中国》中探访冰立方


老冀还注意到,冬冬就像专业的体育记者那样,可以与采访对象进行互动。她出现在央视备受欢迎的《体坛英豪》节目中,对多位知名运动员做了现场访谈。例如,在对前短道速滑世界冠军杨扬的采访中,她不仅能够列出杨扬曾经获得的冠军数,还就中国冬奥热门项目短道速滑向杨扬进行了针对性的提问,并请杨扬为中国队送上祝福。后续她又陆续采访了蔡雪桐等多名冬奥人气运动员,并与他们进行互动。


image.png

冬冬在《体坛英豪》采访前世界冠军 杨扬


image.png

冬冬向中国女子单板滑雪名将蔡雪桐请教动作


看到这里你可能要提出疑问,冬冬作为冬奥数字人,与之前那些在特色场景完成特定任务的功能型数字人,好像并无本质不同。但其实不然,更让老冀眼前一亮的是,除了特定场景下的身份设定及内容输出,冬冬不再单纯依靠传统的动捕技术,而是可以通过AI驱动实现实时互动和智能化输出,可以像一个真人一样做到“有问必答,有求必应”。


下面就让我们来看看,这位从小就爱在什刹海滑冰、快人快语的北京姑娘冬冬,与众不同之处在哪里?



全场景实时互动


冬冬与其他数字人最大的不同,即为她可以实现全场景的实时互动,这一点在冬冬的直播间里得到充分的体现。


如果你觉得冬冬只是名优秀的体育记者或主持人,那你的认识就片面了。实际上,冬冬还是位好主播。从2月4日北京冬奥会开幕式当天,冬冬直播间便同步每晚7点半准时开播。冬冬直播间落地在淘宝直播,每天至少上播两个小时,与天猫奥林匹克官方旗舰店合作,售卖各种冬奥特许商品,这里也是官方唯一认证的淘宝直播售卖渠道。


在收看了冬冬的直播之后,老冀对冬冬直播间的总体印象有两点:一个是应景,能够与正在进行中的冬奥赛事紧密结合;另一个就是活泼,能够充分带动网友的情绪。主要体现在直播的四个方面:


第一个是冬奥百科问答互动。冬冬在直播时会问到一些和运动员相关的内容,并弹窗提示网友选择对应答案发送至评论区进行互动,在网友选择相应答案后,冬冬会根据答案做出回应,并进行科普。如冬冬问到“大家知道谷爱凌小姐姐的比赛项目是什么吗?”,在网友回复自由式滑雪后,冬冬会根据回答科普自由式滑雪项目的相关内容;


第二个是图文资讯抓取播报。在2月5日的直播中,冬冬就当日短道速滑混合团体接力摘中国冬奥首金的消息,进行了即时的播报;


第三个是用户互动动作秀。在直播间里,冬冬会号召网友们在评论区回复“中国加油”,并会根据网友的实时反馈为奥运健儿跳舞助威,如果有网友在评论表白冬冬,冬冬也会积极回复,并向其比心;


image.png0:36

第四个是智能售卖冬奥特许商品。在两个多小时的直播里,冬冬会持续上架二三十件奥运特许商品,包括冬奥会纪念徽章、棒球帽、T恤衫、羽绒服等多种商品,特别是稀缺的“顶流”冰墩墩周边,更是被网友一抢而空、一墩难求。

image.png


试想一下,如果是你,你能否做到白天辗转于各个比赛场馆和访谈间,晚上还要直播带货?恐怕你不一定做得比冬冬更出色,也肯定没有冬冬那种永远不知疲倦的活力。尤其是每日直播间丰富、有趣的互动内容,就需要很强的科技能力,那么,为数字人冬冬赋能的科技能力,又来自何方?



AI驱动力


其实,冬冬全场景实时互动能力的背后,依托的是阿里巴巴强大的AI驱动力。具体来说,主要应用了以下黑科技:


第一项是AI实时驱动。为什么在直播的时候,冬冬的动作会那么自然?这是因为冬冬采用了实时驱动技术。


一般数字人处理动作的主流技术是动作捕捉,需要真人穿上相应的动捕专业设备,设备里面布满了传感器,和真人肢体动作相绑定,可实时传递到虚拟数字人身上。通过这种方式,来让数字人学会人的行为举止。


image.png


AI实时驱动的数字人冬冬,她的每一个动作反应都是算法计算出来的。例如,冬冬在说话和播报的时候,会通过AI的实时演算,整合输出多模态的发音、口型、表情及身体动作,简单说,就是算出口型应该是什么样的,与此同时面部表情和肢体动作也会和说话内容相符合,达到更自然的效果。


第二项是具有情感表现力的TTS语音合成。数字人的发音,最难的是如何能够输出抑扬顿挫、有气口、有韵律的发声。有赖于阿里巴巴达摩院语音实验室为冬冬量身打造的高表现力语音合成技术,特别是“显式韵律建模”技术,在传统播音腔的“字正腔圆”之外,更加入了强调、停顿、情绪等拟人元素,使得AI合成的语音比以往更加抑扬顿挫、自然流畅、充满表现力。


第三项是自动剧本生成。自动剧本生成的难点,首先在于长时间的脚本生成。一场2个多小时的直播,如果是真人,可能需要提前好几天准备几万字的文稿,但是冬冬可以实时抓取、自动生成高质量的文本。冬冬能够自动根据场景,生成逻辑通顺、有一定文采的文本,实现数字人对于内容的口语化、自然化、趣味化的输出,表达上更贴近自然人的沟通处理能力。


另一个难点还体现在即时性。得益于新华社与UC的合作,冬冬能够从新华社UC大鱼号上获取最新赛事动态,完成对一手冬奥资讯权威、实时的播报。基于此,冬冬可以自动抓取大量信息,并自动提炼核心内容生成适宜于播报的稿件。


第四项是多模态互动。从冬冬在淘宝直播间的表现可以看出,冬冬已经实现了1v1,甚至1vn的多模互动。想要灵活地与多个网友采用文字、图片、语音甚至视频互动,这就用到了目前AI领域最领先的多模态机器学习技术:通过机器学习的方法,实现对多源模态信息的分析和理解。


而冬冬的直播表现证明,阿里巴巴在多模态领域有着很强的技术积累。


image.png


因此,从数字人冬冬的外在表现,老冀看到的是阿里巴巴在AI领域的深厚积淀。如今的阿里巴巴,通过整合研发图形图像语音技术,已经拥有了2D仿真人和3D虚拟人技术产品,支持淘宝直播虚拟主播、虚拟讲师等业务场景。阿里巴巴的AI技术覆盖了虚拟人生成、驱动和交互领域,并在高精度人脸人体重建、卡通捏脸(photo2avatar)、真人复刻(video2avatar)、文本语音驱动(speech2action)、虚拟人交互对话等方向有着业界领先的技术积累。



结语


奥运会一直是各大企业亮肌肉的角力场。这一次,阿里巴巴却让老冀看到了不一样的科技力量。


作为奥林匹克全球合作伙伴,在北京冬奥会期间,阿里巴巴借助推出“冬冬”这个数字人,不是大开大合地讲述尖端技术,而是亲和地、润物细无声地融入观众喜闻乐见的节目和新闻报道中,甚至是售卖冬奥吉祥物相关特许商品的直播间里,让更多用户可以更简单、更趣味地体验冬奥的冰雪之乐。


从冬冬在冬奥会期间的表现,我们也更深入地体会到阿里巴巴一直提倡的“橙色科技”理念:那就是用深厚积累的科技能力,应用到与用户生活息息相关的体验当中,为人们带去更多的幸福与满足。


从这个意义上来看,阿里巴巴冬奥数字人冬冬的一小步,是阿里巴巴致力于科技改变用户生活的一大步,也是奥林匹克运动数字化的重要一步。


冬奥期间(2.4-2.20),每晚7点半上淘宝直播或点淘APP,搜索【冬冬直播间】,体验冬冬直播互动,感受不一样精彩的北京冬奥!

相关文章
|
关系型数据库 MySQL Linux
宝塔面板BT Composer安装及使用教程
本文介绍,相信你已经掌握了在宝塔面板上安装和使用 Composer 的方法。希望这些内容能对你有所帮助,祝你在开发过程中一切顺利!
2875 2
|
机器学习/深度学习 数据采集 人工智能
文档智能 & RAG 让AI大模型更懂业务 —— 阿里云LLM知识库解决方案评测
随着数字化转型的深入,企业对文档管理和知识提取的需求日益增长。阿里云推出的文档智能 & RAG(Retrieval-Augmented Generation)解决方案,通过高效的内容清洗、向量化处理、精准的问答召回和灵活的Prompt设计,帮助企业构建强大的LLM知识库,显著提升企业级文档管理的效率和准确性。
|
弹性计算 数据安全/隐私保护 Linux
不需要懂技术,3分钟幻兽帕鲁服务器搭建教程
幻兽帕鲁最近非常火。有些小伙伴可能不喜欢跟陌生人一起玩,那么你可以搭建一个专有服务器和朋友一起联机游戏。自己搭建服务器不仅更私密,还能自定义游戏里的一些选项,比如调整工作速度倍率、经验获取倍率等。 这篇教程将引导你在几分钟内快速完成幻兽帕鲁服务器的搭建。
40853 283
不需要懂技术,3分钟幻兽帕鲁服务器搭建教程
|
索引 Python
【Python】已解决:elasticsearch.exceptions.RequestError: TransportError(400, ‘search_phase_execution_exc
【Python】已解决:elasticsearch.exceptions.RequestError: TransportError(400, ‘search_phase_execution_exc
817 0
|
8月前
|
人工智能 JSON 缓存
利用 CodeBuddy 构建高效可维护的《植物大战僵尸》游戏项目
本文介绍基于Python开发的《植物大战僵尸》游戏项目,采用模块化设计,包含游戏逻辑、资源管理、UI与音效系统。通过CodeBuddy平台,实现智能代码补全、错误诊断、实时协作等功能,大幅提升开发效率。项目支持5种植物与4种僵尸,具备可扩展架构与关卡配置驱动机制。未来将探索Web/移动端移植及联网对战功能,欢迎访问GitHub贡献代码或体验。
403 8
|
人工智能 自然语言处理 并行计算
EchoMimicV2:阿里推出的开源数字人项目,能生成完整数字人半身动画
EchoMimicV2是阿里蚂蚁集团推出的开源数字人项目,能够生成完整的数字人半身动画。该项目基于参考图片、音频剪辑和手部姿势序列,通过音频-姿势动态协调策略生成高质量动画视频,确保音频内容与半身动作的一致性。EchoMimicV2不仅支持中文和英文驱动,还简化了动画生成过程中的复杂条件,适用于虚拟主播、在线教育、娱乐和游戏等多个应用场景。
3801 5
EchoMimicV2:阿里推出的开源数字人项目,能生成完整数字人半身动画
|
存储 Kubernetes Docker
【赵渝强老师】Kubernetes中Pod的基础容器
Pod 是 Kubernetes 中的基本单位,代表集群上运行的一个进程。它由一个或多个容器组成,包括业务容器、基础容器、初始化容器和临时容器。基础容器负责维护 Pod 的网络空间,对用户透明。文中附有图片和视频讲解,详细介绍了 Pod 的组成结构及其在网络配置中的作用。
255 1
【赵渝强老师】Kubernetes中Pod的基础容器
|
监控 数据挖掘 数据安全/隐私保护
ERP系统中的报价与报价管理模块解析
【7月更文挑战第25天】 ERP系统中的报价与报价管理模块解析
1116 3
|
安全 数据安全/隐私保护
同态加密含义以及应用场景
文章探讨了同态加密技术的含义、发展历程、技术路线以及在安全求交、隐匿查询、多方联合计算和建模等隐私计算场景中的应用,并分析了其在实际应用中面临的关键问题和研究发展方向,同时指出了同态加密可能导致的计算精度损失和效率降低。
1330 0
同态加密含义以及应用场景
|
机器学习/深度学习 监控 算法
深度学习之图像去噪与去模糊
基于深度学习的图像去噪和去模糊是计算机视觉中的重要任务,旨在提升图像质量,去除噪声和模糊。
954 3