早上好!阿里妹来考大家一道数学题:有10万件大小不同的商品,要平均放到1万个箱子里,应该如何分配?
对于聪明的你来说,这还是一个可解的问题。但是!如果问题更难一点:这10万件商品会随时变大变小,而且还有“矿泉水不能压在薯片上”等一大堆限制条件,如何在几秒钟内给出最均衡的装箱方案?
阿里巴巴的工程师每天都会面对这类问题。无数个应用对服务器的需求每时每刻都在变化,还有新的应用不断加入,如何才能把这些应用均衡的分配到数万台不同规格的机器上。
为了解放人类工程师并能够更好的分配计算资源,11月6日,阿里巴巴计算资源AI分配官“达灵”正式上任,准备迎接天猫双11的挑战。
实习期间,达灵将数据中心资源分配率拉升到了90%以上,在部分业务中节省了一半服务器,并且可以2秒钟锁定异常机器,命中率94%。
减少机械重复工作 为阿里节省一半机器
打开手机淘宝,首页可以看到“有好货”、“猜你喜欢”等这样的常用功能模块。以前,要人工为每一个模块分配服务器数量以及监督运行情况。对于工程师来说,挑战巨大。
“伴随双11规模的逐年暴涨,这样的工作已经不适合人来做了。” 阿里巴巴资深搜索研发专家郑南说。为此,阿里巴巴搜索团队对“达灵”进行了大量训练和工程化,在实习期“达灵”就完全替代了人工,在推荐平台智能调度方面将资源分配率提高了一倍,这相当于节省了一半的机器。
“这套算法能够快速给出最优的部署方案,并且根据访问量不断搬运应用和数据,确保没有一台机器偷懒”。郑南说,我们要做的就是不断用数据喂养她,提供表格数据大小、访问量以及目前的部署方案等信息,省下的就是喝着茶看她的表演。“她甚至可以在线上克隆一个真实的服务,自己进行压力测试,以判断方案是否最优。”
只需2秒钟,隔离异常机器准确率94%
阿里巴巴遍布全球的数据中心如果有一台机器发生异常,未被及时处理,会带来什么损失?天猫双11期间,可能会是近百万用户下单失败。
为了避免这种情况,每年双11都会有大量的工程师紧盯着集群的健康情况。如果发现有不正常的机器,马上进行手工隔离,甚至直接下线,业内俗称“杀机器”。
但从出现异常、被发现到处理完成,整个过程有时会长达数分钟。阿里巴巴调度系统资深专家丁宇说,“之前我们已经做到了人能够做的极限。去年,我们开始探索用人工智能技术寻求突破,把时间、负载、服务状态等不确定因素通过数据算法关联,最终找到了问题的解法”。
今年丁宇团队和“达灵”合作,对“达灵”进行深度改装,实现了对异常机器更精准、快速的探测。算法每天会采集29亿条机器运营状态,在之前的测试中,日均处理异常机器1000次左右,在大促期间调度准确率达到94%,时间只需要2秒钟。一发现异常机器,立刻精准出手,绝不含糊,可谓顶级“刺客”。
从仓库到数据中心 天猫双11 AI满地跑
“其实达灵的前身真的是仓库管理员,就是为了解决包裹装箱的难题”,阿里巴巴iDST机器学习算法负责人朱胜火博士透露。
一年前,iDST和菜鸟网络的算法工程师共同研发了一套算法,能够在顾客下单的瞬间,对商品的属性、数量、重量、体积,甚至摆放的位置都综合进行计算,可迅速地与箱子的长宽高和承重量进行匹配,并且计算出需要的几个箱子,商品在箱子里面如何摆放最节省包装。整个计算过程,不足1秒。
AI介入后,菜鸟网络的仓库较过去减少5%以上的包装材料。这是什么概念呢?以2015年天猫双11当天产生的约4.67亿包裹数来算,如果用上这个技术,一天能节省2300万个箱子。技术解读详情可看:世界级难题:把不同物品装进箱子,如何使箱子表面积最小?
朱胜火介绍,基于同样的理念,我们将这套算法带到了数据中心,研发出了达灵。达灵的工作首先是在集群监控数据之上,建立起很多个深度学习、在线学习的模型,由此对集群内每一台机器、每一个应用,当前和未来的状态都了然于胸。在此基础上,达灵通过应用强化学习、组合优化等技术,可以在复杂环境中自行学习判断,作出一系列比如错峰排布、碎片规整等聪明的决策,从而全局最优化集群的资源分配率以及稳定性。
原文发布时间为:2017-11-7