惊!阿里双11数据中心来了一位顶级“刺客”?-阿里云开发者社区

开发者社区> 技术小能手> 正文

惊!阿里双11数据中心来了一位顶级“刺客”?

简介: 早上好!阿里妹来考大家一道数学题:有10万件大小不同的商品,要平均放到1万个箱子里,应该如何分配? 对于聪明的你来说,这还是一个可解的问题。但是!如果问题更难一点:这10万件商品会随时变大变小,而且还有“矿泉水不能压在薯片上”等一大堆限制条件,如何在几秒钟内给出最均衡的装箱方案? 阿里巴巴的工程师每天都会面对这类问题。
+关注继续查看

早上好!阿里妹来考大家一道数学题:有10万件大小不同的商品,要平均放到1万个箱子里,应该如何分配?

对于聪明的你来说,这还是一个可解的问题。但是!如果问题更难一点:这10万件商品会随时变大变小,而且还有“矿泉水不能压在薯片上”等一大堆限制条件,如何在几秒钟内给出最均衡的装箱方案?

0507d8624678309877d2c3409386c4f2886e6668

阿里巴巴的工程师每天都会面对这类问题。无数个应用对服务器的需求每时每刻都在变化,还有新的应用不断加入,如何才能把这些应用均衡的分配到数万台不同规格的机器上。

为了解放人类工程师并能够更好的分配计算资源,11月6日,阿里巴巴计算资源AI分配官“达灵”正式上任,准备迎接天猫双11的挑战。

1d7324977c364daece8d01041d71666709eb8120

实习期间,达灵将数据中心资源分配率拉升到了90%以上,在部分业务中节省了一半服务器,并且可以2秒钟锁定异常机器,命中率94%。

9e8742631d0f9e57e53e22c8cdb1ca17588245e4 

减少机械重复工作 为阿里节省一半机器

打开手机淘宝,首页可以看到“有好货”、“猜你喜欢”等这样的常用功能模块。以前,要人工为每一个模块分配服务器数量以及监督运行情况。对于工程师来说,挑战巨大。

“伴随双11规模的逐年暴涨,这样的工作已经不适合人来做了。” 阿里巴巴资深搜索研发专家郑南说。为此,阿里巴巴搜索团队对“达灵”进行了大量训练和工程化,在实习期“达灵”就完全替代了人工,在推荐平台智能调度方面将资源分配率提高了一倍,这相当于节省了一半的机器。

59fccc75cc56d99248b460e167437933f03775b4

 “这套算法能够快速给出最优的部署方案,并且根据访问量不断搬运应用和数据,确保没有一台机器偷懒”。郑南说,我们要做的就是不断用数据喂养她,提供表格数据大小、访问量以及目前的部署方案等信息,省下的就是喝着茶看她的表演。“她甚至可以在线上克隆一个真实的服务,自己进行压力测试,以判断方案是否最优。”

只需2秒钟,隔离异常机器准确率94%

阿里巴巴遍布全球的数据中心如果有一台机器发生异常,未被及时处理,会带来什么损失?天猫双11期间,可能会是近百万用户下单失败。

为了避免这种情况,每年双11都会有大量的工程师紧盯着集群的健康情况。如果发现有不正常的机器,马上进行手工隔离,甚至直接下线,业内俗称“杀机器”。

9f30f0260b0cf8511d5e6ce7946123c962b08281

但从出现异常、被发现到处理完成,整个过程有时会长达数分钟。阿里巴巴调度系统资深专家丁宇说,“之前我们已经做到了人能够做的极限。去年,我们开始探索用人工智能技术寻求突破,把时间、负载、服务状态等不确定因素通过数据算法关联,最终找到了问题的解法”。

今年丁宇团队和“达灵”合作,对“达灵”进行深度改装,实现了对异常机器更精准、快速的探测。算法每天会采集29亿条机器运营状态,在之前的测试中,日均处理异常机器1000次左右,在大促期间调度准确率达到94%,时间只需要2秒钟。一发现异常机器,立刻精准出手,绝不含糊,可谓顶级“刺客”。

从仓库到数据中心  天猫双11 AI满地跑  

 “其实达灵的前身真的是仓库管理员,就是为了解决包裹装箱的难题”,阿里巴巴iDST机器学习算法负责人朱胜火博士透露。

一年前,iDST和菜鸟网络的算法工程师共同研发了一套算法,能够在顾客下单的瞬间,对商品的属性、数量、重量、体积,甚至摆放的位置都综合进行计算,可迅速地与箱子的长宽高和承重量进行匹配,并且计算出需要的几个箱子,商品在箱子里面如何摆放最节省包装。整个计算过程,不足1秒。

AI介入后,菜鸟网络的仓库较过去减少5%以上的包装材料。这是什么概念呢?以2015年天猫双11当天产生的约4.67亿包裹数来算,如果用上这个技术,一天能节省2300万个箱子。技术解读详情可看:世界级难题:把不同物品装进箱子,如何使箱子表面积最小?

朱胜火介绍,基于同样的理念,我们将这套算法带到了数据中心,研发出了达灵。达灵的工作首先是在集群监控数据之上,建立起很多个深度学习、在线学习的模型,由此对集群内每一台机器、每一个应用,当前和未来的状态都了然于胸。在此基础上,达灵通过应用强化学习、组合优化等技术,可以在复杂环境中自行学习判断,作出一系列比如错峰排布、碎片规整等聪明的决策,从而全局最优化集群的资源分配率以及稳定性。


原文发布时间为:2017-11-7

本文来自云栖社区合作伙伴“阿里技术”,了解相关信息可以关注“阿里技术”微信公众号

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云创新中心启动“2019双11创业节”1.1亿创业“红包”让创业“初冬” 不再寒冷
为了更好的服务创业者,阿里云创新中心整合阿里巴巴集团内外生态伙伴、联动全国56家创新中心基地、百位全国知名创投机构、百位创业企业创始人共同打造属于创业者的狂欢节。“双11创业节”将面向广大创业企业限量发放亿元创业资源“红包”,优秀的创业项目还将有机会走进阿里巴巴,体验阿里巴巴文化、进行业务链接,并与一线投资人面对面交流。
354 0
【双11背后的技术】永不停止的脚步——数据库优化之路
作者:佳毅 前言 2016年双11已经顺利落下帷幕,在千亿电商流量的冲击下,集团数据库整体表现完美。完美表现的背后,隐藏着数据库团队对技术的执着追求。这是一个什么样的团队,他们究竟做了什么,是什么支持着双11这一全民狂欢的数字一次次突破?笔者以一个亲历者的角度来给大家揭开双11背后,阿里巴巴数据库团队的神秘面纱。
5353 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
3950 0
应运而生! 双11当天处理数据5PB—HiStore助力打造全球最大列存储数据库
阿里巴巴电商平台历史数据存储与查询相关业务, 大量采用基于列存储技术的HiStore数据库,双11当天HiStore引擎处理数据记录超过6万亿条、原始存储数据量超过5PB。从单日数据处理量上看,该系统已成为全球最大列存储数据库。
3129 0
12.10直播预告|2020双11,阿里集团数万数据库系统全面上云解密
议题内容:阿里集团数据库上云挑战;全面上云新打法,以MyBase for RDS构建超高效数据库管理体系
1066 0
阿里云双11 香港云服务器1年仅需119元
阿里云双11 香港云服务器1年仅需119元
1667 0
双11核心系统全面云原生化:效率提升一倍,成本下降80%
阿里云落地全球最大云原生实践:双11核心系统全面云原生化。
12639 0
+关注
技术小能手
云栖运营小编~
5945
文章
9
问答
来源圈子
更多
+ 订阅
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载