【阿里飞天】阿里唐洪:飞天从5K到1万,不是简单的乘以2-阿里云开发者社区

开发者社区> 云原生> 正文

【阿里飞天】阿里唐洪:飞天从5K到1万,不是简单的乘以2

简介: 10月14日,阿里云栖大会在杭州盛大开幕,在专访间,阿里云事业群资深总监唐洪,依图科技创始人林晨曦、阿里云资深专家汤子楠接受了CSDN记者采访,唐洪表示飞天从5K到1万,不是简单的乘以2。

10月14日,阿里云栖大会在杭州盛大开幕,本届大会吸引了超过2万名参会人员,超过3000多家云上企业,规模空前,大会现场,包括浙江省省长李强,阿里巴巴集团董事局主席马云,阿里巴巴集团CTO王坚、阿里云总裁胡晓明等大咖们也会悉数出席并带来了精彩的演讲,而关于本届大会的众多干货已经刷爆朋友圈,阿里云栖大会也必将成为本年度云计算领域的关键词。

如果回顾本届大会,“计算“绝对是本届大会上出现频率最高的词汇,“计算,为了无法计算的价值”,阿里云启用了全新的 Slogan,赋予阿里云全新的品牌定位。马云表示,当前企业正在从IT时代走向DT时代,这个时代的能源,不是石油,而是数据,而中国一定会成为数据大国,他相信数据将成为生产资料,计算能力将成为生产力。

计算的价值被提到了前所未有的高度,作为阿里云的基础设施和核心架构,飞天是整个阿里云的核心技术部分,阿里云事业群资深总监唐洪对它的定义是“飞天等同于整个阿里云的技术体系”,是云计算的后台。在采访间,阿里云事业群资深总监唐洪、依图科技创始人林晨曦、阿里云资深专家汤子楠就阿里飞天平台的现状、背后的故事以及未来的一些想法接受了CSDN的专访。

作为中国云计算领域的里程碑,2013年8月15日,阿里巴巴集团正式运营服务器规模达到5000(5K)的“飞天”集群,成为中国第一个独立研发拥有大规模通用计算平台的公司,也是世界上第一个对外提供5K云计算服务能力的公司。过去2年,飞天人并没有停止脚步,而是默默无闻,在向着10000台服务器甚至20000台服务器的目标继续迈进。

飞天对于阿里云

据唐洪介绍,其实最开始,飞天团队叫做阿里巴巴集团研发院,最初的想法主要是整合各个集团的技术力量组建一支精英团队,解决阿里巴巴内部的问题,但是,后来发现最终解决的问题和对外服务是一样的,所以,在2009年,成立阿里云时目标就是做标准化的,以公共服务的方式提供这些产品。

谈到飞天对于阿里云的影响,汤子楠表示,他加入飞天的时候阿里云只能跑30台,除了飞天做阿里云很多产品的基础设施,现在,阿里有将近一半的产品都基于飞天的基础设施,但是在他看来飞天项目的真正的作用是两个方面:

第一,中国的IT公司当时都是在做应用层,做底层系统面临非常大的技术挑战。作为学计算机专业的他来说,他所学到的绝大部分的IT知识都是被国外垄断的,没有中国人自己的技术,所以,飞天平台如果做成了一定会被写进史册。飞天,实际上见证了阿里云在这个过程中的探索。

第二,在飞天的研发过程中,集中基础设施的构建,不断解决系统核心的问题,比如说规模、稳定性、容灾等等,这个过程中锻炼了大量的分布式系统的人才。阿里云在中国

分布式领域人才最集中、最密集的地方,这个和飞天系统持续的投入是分不开的,这些技术的积累为将来阿里云产品的爆发提供了厚积薄发的能力。

飞天背后的技术选择

无论是对于一家成熟的IT公司,还是一家初创公司,任何项目的上马,都会考虑已有的技术方案,阿里云也不例外,据了解,在飞天项目开始之前,阿里内部的技术团队也针对三套技术方案进行过论证,包括开源的技术、雅虎的技术以及传统的IOE架构,经过反复调研,林晨曦当时的想法就是随着阿里业务不断向前发展的过程中会产生更多的新的技术问题和需求,这些技术的问题和需求,如果不是用自主的知识产权的技术来解决,开源的技术在没有了解内部原理之前,会产生很多问题,而且开源有迭代周期的问题,

这不是阿里可以自主引导的,所以当时阿里的飞天团队下了很大的决心,希望这些技术能够掌握在自己手里。阿里云作为一家云技术公司,云计算是非常重要的核心竞争力。

在唐洪看来,如果一开始吃了开源的甜头,但是能力上没有把握好是非常危险的,因为你不知道里面是什么东西,“用软件”和“写软件”完全是两方面的事情。另外,之所以阿里云今天有全中国分布式系统最大的一支或者最强的开发团队,也得益于当时的摸爬滚打。

当然,自己开发,面临的困难也是前所未有的,“最大的困难不是具体的问题,而在于你未知的问题,所以我做到现在最大的问题,你永远都要去准备好一些不可预判的问题。我们唯一能够做的就是找到一些兜底的方案,当这些问题发生的时候不至于变成灾难性的问题。”唐洪表示。而在林晨曦看来,在中国做事情,包括做技术,很大层面要面临信心和质疑的问题,我们在做这个事情的过程中间本来的困难已经是困难了,但是别人解决不了的困难才是最大的困难。

在去年的云栖大会上,唐洪详细的剖析了阿里云飞天面临的三大挑战并且给出了解决策略,值得一提的是,针对小概率事件和人为导致的故障,阿里目前在做一个相对比较大的系统叫“天机”,这个系统可以把“华佗”、“御风”有机结合在一起。而对于多租户隔离方面,比如说运算存储分离,就是一个内部架构重构,包括打快照的时候导致用户IO受到的影响的问题也已经得以解决。

从5K到1万,不是简单的乘以2

在采访中,我们了解到,阿里飞天目前正在做10000台服务器的规模,唐洪表示,从5000到1万不是简单的乘以2,要想真正实现10000台的规模,需要攻克的技术难点也非常多,因为飞天各方面能力都在增加,功能上也在叠加,比如多租户隔离的时候做资源的弹性调度,当一个低优先级的作业和高进程在抢东西的时候,我们会动态调配资源,这个会增加调度、控制层面的复杂度,在规模不变的情况下难度已经很大,现在还要乘上这个系数。所以数据结构优化上和关键路径优化上需要做很多工作,包括需要解决很多很底层的工作。具体落实到各个点上的算法上面难度可想而知。

阿里云和容器技术

对于当前热门的容器技术,唐洪表示:“今年Docker来云栖大会参展了,成为我们的合作伙伴,我们有意向基于Docker做一些技术,它非常开放,代码都开源,并且很快吸引了很多厂商,在我们看来我们非常在乎他的开放性。PaaS有很多不同的PaaS,每个云计算的厂商都会提供自己一套很垂直的东西,但是这些PaaS又是非常孤立的,非常碎片化。Docker的好处是所有软件可以变成Docker化的软件,用同一个方式可以进行编排,所以这个在我们看来是非常有用的。另外,Docker社区非常开放,有一个开放的标准协会,我们觉得通过Docker支持这个生态是阿里的一个方向。对内部来说,Docker有一些独特的东西,使得多版本的部署、软件升级上有一定效果,所以我们尝试在内部最底层来使用Docker,但是Docker更多设计之初是基于微应用的,所以这方面我们还会做很大的投入。”

另外,汤子楠补充道:“第一,阿里云应该算国内比较早的去响应Docker开源浪潮的公司,向Docker社区提交很多代码,目前Docker的官方版本支持把OSS作为官方存储的一个存储引擎,Docker官方在公共云只支持三版,下一个版本发布的会提交很多Docker运行在ECS驱动上的优化。

从产品化的角度来讲,用户的选择就是阿里云在产品化很重要的方向,阿里云很多产品在上层做托管服务,比如说RDS的数据库,我们在研究一个Docker托管集群的服务,帮用户创建Docker配置。


本文转载自 CSDN  作者 魏伟
原文链接

版权声明:本文中所有内容均属于阿里云开发者社区所有,任何媒体、网站或个人未经阿里云开发者社区协议授权不得转载、链接、转贴或以其他方式复制发布/发表。申请授权请邮件developerteam@list.alibaba-inc.com,已获得阿里云开发者社区协议授权的媒体、网站,在转载使用时必须注明"稿件来源:阿里云开发者社区,原文作者姓名",违者本社区将依法追究责任。 如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:developer2020@service.aliyun.com 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
云原生
使用钉钉扫一扫加入圈子
+ 订阅

云原生时代,是开发者最好的时代

其他文章