作为双11背后庞大系统的大脑,忙碌的阿里云人工智能ET还抽空表演了一个神奇的魔术。
11月10日晚,“天猫双11狂欢夜”在深圳大运中心拉开巨幕。在全球上亿观众的见证下,阿里云人工智能ET隔空计算出5人手中的扑克牌,震惊全场。理论上32张扑克牌分到5人手里要全部猜对的概率是2400万分之一。ET究竟是如何做到的呢?
双11魔术揭秘
事实上,阿里云人工智能ET表演的是一个经典魔术。
32张扑克牌以De Bruijn 序列排列,五人洗牌之后,实际上排列可能减少到32种,ET将转身观众(黑牌)记作1红牌观众记为0。进一步从32种可能性中算出最终的唯一排列。它就是DeBruijn 序列,这个序列的原理很复杂,但效果很简单,就是从这样的序列中任意取出相邻n个数,它们的二进制排列一定不相同,这就意味着只要黑牌和红牌的排序出来,就只有一个唯一的解。
双11为ET点赞!
通常这个魔术非常考验魔术师的记忆和推算能力。对ET来说,这些都不是难题。难的是整个过程中需要ET要具备高精确度、高实时性的视频识别能力,并用人类的语言和主持人沟通交流。
因为直播环境受到场地、灯光、音效的影响,语音识别、视频识别都会受到很大考验。
ET背后
在这场魔术秀背后,是阿里云iDST技术团队研发的智能语音交互(Intelligent Speech Interaction)系统, 包含语音识别、语音合成、自然语言理解等技术。
通过学习录音资料,ET还能模仿指定个人的音色。而在ET识别黑牌的过程中,应用到的就是人工智能的图像识别技术,其功能准确度达95%以上。
在观众抽取扑克牌时,ET已经完成了对5位观众的面部识别,并利用算法建立了器官轮廓定位,以便之后识别出是否有人转身。之前ET检测出华少手上有新的物品,便触发了图像识别机制,“看出”华少手上多了一幅扑克牌。
目前,阿里云ET的人脸算法已经覆盖了人脸检测、器官轮廓定位、人像美化、性别年龄识别、1对1人脸认证和1对多人脸识别等多个方向,用机器学习的方法,包括卷积神经网络、Supervised Descent Method等,实现了高精度和高效的技术,人脸识别在LFW上识别率99.5%。
无论是语音识别还是图像识别,阿里云ET的底层都依赖于深度学习算法以及大规模计算能力。
一套复杂算法模型的训练往往需要千亿级别的样本数据,这就对背后的计算能力提出了很高的要求。
因此阿里云采用了带GPU加速的新一代高性能计算平台,单节点每秒浮点运算次数达16次,ET用3个月的时间就学会了英语。这套平台还帮助ET实现了BLSTM(双向长短时记忆神经网络)算法的第一个工业级应用,帮助3000万YunOS系统实现智能语音交互。
身边的ET
其实,ET能做的不仅仅是当个魔术师这么简单,借助深度神经网络等机器学习技术,阿里云人工智能已经具备利用数据为一整座城市提供思考和决策的能力。
目前,杭州政府联合阿里云等13家企业,为这座拥有2200多年历史的城市安装了一个人工智能的杭州城市数据大脑,将杭州打造成一座能够自我调节、与人类良性互动的城市。
在交通领域的试点中,ET通过对路口交通状况的预测调控红绿灯,使部分路段的车辆通行速度最高提升了11%。阿里云的语音合成技术也已经运用到智能客服、语音导航、智能助手等功能,也越来越个性化。
人工智能正在以超乎想象的速度融入你的生活,其实ET已经成为你身边一个真正的魔术师了呢。