如丝般顺滑的2017阿里双11黑科技曝光-阿里云开发者社区

开发者社区> 阿里巴巴云研发> 正文

如丝般顺滑的2017阿里双11黑科技曝光

简介: 双11前夕,阿里巴巴集团CTO行癫就给阿里两万多位工程师下了一个很新鲜的KPI——“双11晚上,大家的主要任务是喝茶。” 能如此淡定喝茶的背后,除了无数阿里技术小二的才智与努力,还有很多阿里的黑科技支撑着这样世界超级工程。现在我们跟着阿里云云效一起来揭秘下有哪些基础设施黑科技?
2017双11全球狂欢节,阿里再创奇迹,成交金额1682亿,交易峰值32.5万/秒,支付峰值25.6万/秒,数据库处理峰值4200万次/秒。

双11前夕,阿里巴巴集团CTO行癫就给阿里两万多位工程师下了一个很新鲜的KPI——“双11晚上,大家的主要任务是喝茶。”

17c18b6a6b989fa84cfe793a86422dd105a02a00

能如此淡定喝茶的背后,除了无数阿里技术小二的才智与努力,还有很多阿里的黑科技支撑着这样世界超级工程。现在我们跟着阿里云云效一起来揭秘下有哪些基础设施黑科技?

4d8e60c416d8b10cd7fc85fbab55d82d02cee22a

蜻蜓——世界领先的大规模文件分发系统

黑科技指数:

解决痛点:大规模文件分发稳定性差、效率低、成本高的难题,解决大规模镜像分发的成功率、效率难题。

实践效果:平均每天上百万次下载,TB级数据分发。平均成功率99.9999%。全集团覆盖率90%以上。解决了跨机房,跨地域,跨国际的分发难题,可以全天候,全球范围内提供不间断的服务。支撑了双十一大规模快速建站。兼容Docker mirror协议,支持Docker,Pouch,Hyper。

产品推荐:蜻蜓即将在阿里云云效中开放对外,赋能更多阿里云企业用户,帮助企业解决跨积分、跨地域、跨国际的文件分发难题。

蜻蜓系统详细解读:直击阿里双11神秘技术:PB级大规模文件分发系统“蜻蜓”

Sigma——阿里所有服务器像一台机器一样被管理

黑科技指数:

解决痛点:为了保证系统的在线交易服务顺利运转,最初几年,阿里都是在大促来临之前大量采购机器储备计算资源,双 11 之后资源大量闲置。是否能把计算任务与在线服务进行混合部署,在现有弹性资源基础上提升集群资源利用率,降低双 11 资源新增成本?

实践效果:2017年双 11,Sigma调度可以跨多个不同平台来分配双11所需资源,使双11IT成本降低50%;混部技术把服务器资源利用率提升30%,复用计算任务集群为双11节约大量服务器,全网Pouch化实现阿里在线服务全面容器化,内部达到百万级容器部署规模。基于资源弹性和混部技术的云化战略又一次为双 11 带来成本的降低,未来这样具有混部能力的混合云弹性能力将通过阿里云开放,让用户以更低的成本获得更强的计算能力,进而帮助整个社会提高资源效率。

混部技术详细解读:欢迎关注云效(ali_yunxiao)微信号,回复混部即可。

StarAgent——百万级运维通道

黑科技指数:

解决痛点:还记得哪些年我们半夜爬起来重启服务器的暗黑历史吗?如何保证百万量级主机管理能安全、稳定、高效,如丝般顺滑?

实践效果:StarAgent支持百万级规模服务器管控,通过基于消息的分布式架构改造,1秒可操作上万台服务器,系统具备多中心部署能力,单机房/单存储故障不影响业务,高危操作自动识别与拦截有效第保证系统安全。

产品推荐:智能运维产品将在阿里云云效平台对外输出。

智能化运维详细解读:应对双11挑战,阿里巴巴智能化运维体系演进与建设

X-Cluster——阿里10年分布式数据库技术沉淀 

黑科技指数:

解决痛点:2014 双11随着业务高速的增长,同城主备 AliSQL 部署的方式已经无法满足阿里对可扩展的部署、国际化以及容灾方面的需求。“异地多活”成为了公司应用的新标准。“异地多活”也给底层的数据库提出了新的容灾要求。传统的 Master-Slave 架构下,主备如果不使用强同步模式就会存在数据丢失的可能,然而强同步下一旦有节点异常,则整体不可服务。

实践效果:X-Cluster是阿里巴巴自研的分布式数据库。2017年双11,X-Cluster服务于淘宝天猫核心交易系统,经受了零点压力峰值的考验,并且在数据质量得到保证的前提下,提供了高效稳定的跨单元数据同步服务。

X-Cluster技术详细解读:欢迎关注云效(ali_yunxiao)微信号,回复X-Cluster即可。

网络自愈技术

黑科技指数:

解决痛点:作为一名工程师,网络无疑是最最基础的,一旦出现其中一个方向的网络故障,就会影响成千上万甚至亿级用户的正常使用,如何保证网络稳定运行? 

实践效果:通过实时准确的故障发现和故障收敛能力,结合自动化恢复,2017年阿里巴巴网络已经具备自愈能力,全面保障双11全体业务的稳定运行。

Aone——一站式项目生命周期管理

黑科技指数:

解决痛点:双11的交付时间不可妥协,所有工作必须在11.11之前全部ready,这就要求项目必须按计划交付,但1000+的项目计划制定的是否合理?是否满足双十一的节奏?项目交付是否按计划完成?过程如何check?信息透明是PM在双11项目管理最大的挑战。
 
实践效果:2017年双11,Aone支持30+个BU,100+个核心产品,1000+个垂直项目,在2个月时间里,几千人共同协作完成双十一大促的所有准备工作。
 
产品推荐:Aone作为阿里巴巴集团统一一站式研发协同平台,提供一站式项目生命周期管理流程,从需求-计划-协作-风险-跟踪-反馈环环相扣,并与构建发布流水线进行有机集成;支持Scrum和看板模式,通过里程碑、项目等级分层、漏斗式式风险管理, 将双11的项目进度准确无误地传递到各个业务和组织;同时,通过数据度量和舆情监控,反馈项目进展数据,自动计算任务状态停留时长,找出效率瓶颈。通过舆情监控,将用户的反馈声音第一时间反馈给产品、开发,将缺陷快速关联到对应的产品、开发。
    
Aone的项目管理功能除了满足天猫双11,还为阿里其他部门业务一起进行高效项目管理、协同办公,包括蚂蚁金服、菜鸟、大麦网等,也正在对外,为一万多家外部企业用户提供高效协同服务,对外的产品名称叫阿里云云效,赋能阿里云大中型企业及发展中的创新企业。
 
敏捷项目管理详细解读:支撑双11大促,阿里巴巴敏捷项目管理实践及工具落地

PS:关注云效,学习更多阿里双11黑科技。点击云效,体验黑科技!

3b1f69f9eee8ee61c7d192db7e39adb38f93eeb8


版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:

云效,企业级一站式DevOps平台,源于阿里巴巴先进的研发理念和工程实践,致力于成为数字企业的研发效能引擎!云效提供从“需求→开发→测试-→发布→运维→运营”端到端的协同服务和研发工具,支持公共云、专有云和混合云多种部署形态,通过人工智能、自动化技术的应用提升开发者的研发效能,持续交付有效价值。

官方博客
【产品与服务】
【友情链接】