揭秘：技术和人文交织，记阿里云人工智能ET魔术秀幕后故事-阿里云开发者社区

揭秘：技术和人文交织，记阿里云人工智能ET魔术秀幕后故事

2016-11-11 4794

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： “每个人都贡献出了自己的全部能力。”

在昨天2016天猫双十一狂欢夜晚会上，大家是不是被阿里云人工智能机器人ET表演魔术的那一幕给惊呆了。不仅实时互动、全程实时速记，还猜出了每个人手里的牌是什么。

太厉害了，有没有！！！

不过：

这个魔术的创意是怎么来的？

从想法到拍板、再到落地，历时多久？有没有遇到什么坎，都是怎么解决的？

技术上都有哪些细节？

魔术的背后，都有哪些幕后？

云栖社区记者就以上问题，采访了魔术环节的项目PM李博（花名：傲海）。

创意来自于一个经典魔术

昨晚惊艳全场的阿里云人工智能ET表演的是一个经典魔术。

32张扑克牌以De Bruijn 序列排列，五人洗牌之后，实际上排列可能减少到32种，ET将转身观众（黑牌）记作1红牌观众记为0。进一步从32种可能性中算出最终的唯一排列。

它就是DeBruijn 序列，这个序列的原理很复杂，但效果很简单，就是从这样的序列中任意取出相邻n个数，它们的二进制排列一定不相同，这就意味着只要黑牌和红牌的排序出来，就只有一个唯一的解。

魔术虽然经典，但从创意到落地还是经历了非常多的困难

采访中，李博表示，从创意的排版到最终呈现，整个项目大致用了一个多月的时间，期间遇到了非常多的困难。

包括以下几个方面：

跨团队的资源调度和协调；
跟导演组的沟通以及如何快速迭代项目来应对变化；
如何对接演播当天音频、视频、导播车这些专业的直播设备，这一块困难非常大，任何一个设备的型号或者是线路出错都会造成直播事故；
直播中跟导播如何配合；
如何保持状态：整个团队在最后的彩排阶段非常疲劳，连续好多天工作到凌晨3点；
如何保证直播质量，因为是上亿人观看的直播，要有应急手段，要把所有可能发生的困难都提前做好预案。
大伙对于直播这种很专业的领域缺乏经验，现场的布线、设备的摆放、整个流程怎么走都要学习。

技术上实现难点在于场地、灯光、音效交混下的直播环境

通常这个魔术非常考验魔术师的记忆和推算能力。对ET来说，这些都不是难题。难的是整个过程中需要ET要具备高精确度、高实时性的视频识别能力，并用人类的语言和主持人沟通交流，因为直播现场环境非常复杂。

现场环境的复杂，体现在三个方面：

环境噪声的复杂性：如晚会活动现场, 有多个高功率的音响设备, 会场混响非平常办公室or家居场景可比拟的；
设备连接的复杂性：由于此次晚会涉及信号传输有7--8路, 除了音频信号还有视频信号, 各种设备之间互相干扰, 除了环境噪音之外, 还带来了大量的电流噪声干扰.
直播的特殊性：现场是对全球的实时直播，一切都是不可控的，任何情况都会出现。

“对于以上的问题, 我们做了以下应对。”阿里云iDST技术专家汪淼淼在接受采访时说，“一个是阿里云ET自身的能力，之前它已经在千差万别的场景中得到锤炼；第二个是在后台的模型算法方面, 通过带噪数据的不断学习, 使得最终模型获得了带噪数据的适应性和鲁棒性，从而提高了对于带噪信号的适应性，当然各种场景下真实数据的反馈,也让模型不断学习&自适应, 获得了对各种复杂环境的适应性和识别效果的鲁棒性；第三个是加强对华少的适应性——通过对华少的一些历史数据的学习, 如华少主持过的节目《华少爱读书》《王牌碟中谍》等视频的学习, 使得ET更加适应华少说的话。”

阿里云人工智能ET的实力

阿里云微信公众号的一篇文章中指出，这场魔术秀背后是阿里云iDST技术团队研发的智能语音交互（Intelligent Speech Interaction）系统, 包含语音识别、语音合成、自然语言理解等技术。

通过学习录音资料，ET还能模仿指定个人的音色。

而在ET识别黑牌的过程中，应用到的就是人工智能的图像识别技术，其功能准确度达95%以上。

在观众抽取扑克牌时，ET已经完成了对5位观众的面部识别，并利用算法建立了器官轮廓定位，以便之后识别出是否有人转身。

之前ET检测出华少手上有新的物品，便触发了图像识别机制，“看出”华少手上多了一幅扑克牌。

目前，阿里云ET的人脸算法已经覆盖了人脸检测、器官轮廓定位、人像美化、性别年龄识别、1对1人脸认证和1对多人脸识别等多个方向，用机器学习的方法，包括卷积神经网络、Supervised Descent Method等，实现了高精度和高效的技术，人脸识别在LFW上识别率99.5%。

无论是语音识别还是图像识别，阿里云ET的底层都依赖于深度学习算法以及大规模计算能力。

一套复杂算法模型的训练往往需要千亿级别的样本数据，这就对背后的计算能力提出了很高的要求。

难忘的事：每个人都贡献出了自己的全部能力

作为整个项目的PM，傲海分享了项目过程中一些令人难忘的事。

他说，难忘的事情非常多。“直播前，品牌的同学为了跟导演组沟通台本，在现场几乎可以坐一个晚上；开发的同学凌晨三点多刚躺下，第二天早上就自发起来改各种需求；负责采购硬件的同学每天往返于各种设备市场；因为人手有限，UED同学甚至开始充当布线工程师，还到导播车帮忙监控项目的直播。”这些细节，李博都历历在目。

这位负责机器学习PAI的产品经理表示，整个团队真的是非常有勇气和战斗力，电视直播是他们从没涉及过的领域，大家可以在这么短的时间内开发整套项目，并且成功的呈现到电视机前，克服了非常非常多的问题。

“每个人都贡献出了自己的全部能力。”他最后说到。