阿里造“神龙”

简介: 人类对于计算的梦想,像一条河。涓涓细流,奔腾入海。 计算的载体,从楼船一般的大型机,到快艇似的小型机,到如今万吨巨轮的云计算,我们的武器如史诗般演化,但背后却有同一个技术的身影,那就是“虚拟化”。

image

浅友们大家好~我是史中,我的日常生活是开撩五湖四海的科技大牛,我会尝试各种姿势,把他们的无边脑洞和温情故事讲给你听。如果你特别想听到谁的故事,不妨加微信(微信号:shizhongmini)告诉我。

阿里造“神龙”
文 | 史中

人类对于计算的梦想,像一条河。涓涓细流,奔腾入海。

计算的载体,从楼船一般的大型机,到快艇似的小型机,到如今万吨巨轮的云计算,我们的武器如史诗般演化,但背后却有同一个技术的身影,那就是“虚拟化”。

简单理解,虚拟化技术就像变形金刚,把无数台计算机“组合”成一台超级计算机,或者把一台整计算机“切割”成无数小计算机。

1962 年诞生的人类第一台超级计算机 Atlas,就用了名为 Supervisor 的虚拟化组件来管理物理主机资源。如今最先进的生产力——云计算,底层的重要技术也是“虚拟化”。

按照正常的故事剧情发展下去,未来云计算会成为人类应用的底座,就像我们熟悉的水电一样。但是,事情并不那么简单。

云计算带有一道“伤痕”——经过虚拟化技术提供的计算力是“打折”的。

世界因此徘徊不前:

上汽集团曾希望用云计算来解决汽车仿真的大算力场景需求,但实测结果让公司大跌眼镜,虚拟化性能损失高达60%,最终不得不忍痛放弃计划。

类似的例子比比皆是,而且越是密集计算的场景,虚拟化带来的损耗问题越明显,无数企业因此被挡在云计算的大门之外,眼看着新时代的浪潮奔流走远。

这个巨大的伤痕,成为了云计算“房间里的大象”,人人都能看到它,却没人有能力除掉它。以至于到后来, 芯片厂商、虚拟化厂商、云厂商,整个产业链对此讳莫如深,从来没有人捅破这层窗户纸。

今天的故事,就从这里开始。

image

(一)


2016年底,阿里巴巴几十位技术“长老”围坐在会议室里。

这是每年一度阿里巴巴的丰收仪式——“双11”复盘会。这一年,双11当天成交额创下了1682亿的纪录,淘宝天猫的后台像一部硕大而精密的数字机器,没有一个零件掉链子。阿里云费了九牛二虎之力,将虚拟化性能损耗降到了当时业界的最低值,大家脸上自然洋溢着轻松和笑意。

轮到行癫发言。

所有人都把目光投向他。在大家心里,这个阿里巴巴集团首席技术官(CTO)有两个特色:“善于拿捏理想和现实的技术信徒”+“爱曝金句的耿直 Boy”。

image

行癫

行癫的套路是这样的:

每年双11,他一边波澜不惊,一边启发大家构想出一些宏大的技术方向,足够整个阿里巴巴集团接下来奋斗一整年,今年也不例外。

我们要定义哪些是核心问题,然后根本性地解决它。比如,虚拟化损耗问题就是之一。我们的目标很简单,必须想办法把损耗降到“0”。

行癫对满屋子人说。

会议室里的这些技术宅听完差点一口老血喷出来。阿里巴巴过去二十年虽然逆天,但我们已经膨胀到想要挑战几十年来的行业潜规则了么??

故事讲到这里,需要先按一下暂停键。中哥强势插入给你科普一下:云计算的性能损耗究竟是怎么来的?

你肯定熟悉你自己的电脑。如果你把你家的计算机想象成一块蛋糕。那么,云计算就是一块“双层蛋糕”。双层蛋糕的下面一层是无数台和你家电脑一样的物理机,上面一层是无数虚拟机。

image

你去购买云计算,买的可不是下面的物理机,而是上面的虚拟机。

这样对你来说其实更舒爽:

比如你今天需要一台阿里云的4核8G的服务器,明天需要一台8核16G的服务器,不用重新攒电脑,只要轻轻点一个按键,你的虚拟机就自动变大了。至于下面的物理机怎么调度,那不是你的事儿,是阿里云的事儿。

而把物理机变成虚拟机的这个技术,就是“虚拟化”

好,重点来了:“虚拟化”的舒爽不是白白得来的,它的代价就是性能损耗

举个例子:假设你是厂长,工厂流水线上有104个工人,你一个人管不过来104人,他们经常上班摸鱼。于是你从中选出8个小组长,每个小组长管12名工人。这样一来,生产秩序加强了,但是有8个本来能干活的人做了管理工作——原来绝对生产力是104分,现在只剩下96分了。

在这个例子里,我们就说“虚拟化的性能损耗大概是8%”。

image

同样,在2017年,云计算的性能损耗也差不多在这个量级。粗略地说:104个CPU放在一起,要有8个CPU做“管理”,剩下96个才是干活的。你算算,这个损耗也是8%。

用初中物理知识想想也知道,虚拟化性能损耗这件事儿,是天经地义的。最多只能无限降低,不能消失。

好,科普完毕,我们回到双11复盘会上。

行癫提的目标很美好,让CPU全部用于真正的计算。如果成功把虚拟化损耗降下来,绝对是云计算历史上的大功一件,那些企业上云最后的顾虑也将烟消云散。但这个技术难度,似乎不亚于证明“哥德巴赫猜想”。。。

围坐的人里,有一个人心里“咯噔”一下——因为这是他的职责范围。

此人名叫旭卿,阿里云弹性计算的技术负责人,听到行癫“点将”,按捺不住内心的激动。因为这也是他团队一直想做的事情,只是如何实现,还拿捏不准。

image

旭卿

当然,过去几年,世界主流的云计算玩家都在试图通过各种“补丁方案”降低资源损耗,阿里云也没闲着。

2015年,阿里云的底层虚拟化技术架构被更换掉(从 Xen 到 KVM),虚拟化的开销从极端场景的超过一半,降低到了平均10%的水平。

2016年,阿里云越来越稳定,用户也开始迅速超过百万。但在当时的虚拟化架构路线上,这10%的“硬核开销”基本上属于奥特曼消灭不了的小怪兽。

那次会议结束后,阿里云副总裁李津就拉着旭卿团队促膝长谈,他们追踪到了一个行业真相:

过去芯片商、硬件商、虚拟化软件厂商等几乎所有的角色一如既往地扮演好自己的角色,按照各自的进化逻辑和速度演进,他们之间的配合就成了“三不管地带”——虚拟化损耗被视作必然。

在计算力规模较小的时候这不会被当做是个大问题,然而放在数百万台规模的云计算时代,这个损耗才异常可观。

李津和旭卿一致认为,事到如今,再研究“补丁方案”肯定没戏,必须在计算体系结构上做创新:

以往的解决路线都是让虚拟化软件去迁就CPU的特性,好比是让管理学符合流水线工人,明摆着强扭的瓜不甜。

而阿里云的新计划则是让“上帝的归上帝,凯撒的归凯撒”:新造出一个带有智能芯片的专用板卡负责虚拟化调度,从而把那些CPU解救出来。

也就是说不从原来的工人里选拔小组长,而是阿里巴巴自己研制一个“专业组长”,直接空降管理104个工人,这样104个工人不就都可以全力干活了么?

image

大概就像酱

看完方案之后,大家眼珠一转,技术构想很NB,没意见。但问题有两个:

第一、做芯片,做板卡,这可都是门槛极高的硬件设计。。。

第二、举头望去,就连世界公认的云计算领头羊,亚马逊 AWS,也没听说有这么激进的“硬件计划”。

看这意思,整套事情玩下来,难度不亚于两万五千里长征,未来一年团队可要生死未卜咯。

(二)


平心而论,这是一条很激进的路线。

这相当于要首次实现云、虚拟化和芯片的技术大融合。旭卿掰着手指头数,要想召唤神龙,至少需要四颗龙珠:

龙珠一、虚拟化软件开发;

龙珠二、软硬件衔接的中间层;

龙珠三、核心芯片设计;

龙珠四、硬件(板卡、服务器)设计。

虚拟化软件开发就是团队的原班人马,胜任这次技术改革不在话下。当时的虚拟化技术负责人叫子团,他是个玩赛车的技术宅,对新技术总是保持着赛车般激情,子团听后异常兴奋,主动请缨带着团队开干。

而硬件、芯片方面,阿里也做过一些技术积累,曾经自研了闪存 AliFlash、全闪存存储服务器泰山、光模块、以及大容量存储服务器貔貅、液冷服务器、自研数据中心等等。

只不过,现在还必须要有一支专门为这一项目服务的技术团队。

image

阿里的液冷服务器集群

软硬件中间层,旭卿脑海里冒出一个人选,此人花名行宪,当时供职于某著名外国芯片公司北京分公司。

那天下午,旭卿电话突然响起,一个好朋友告诉他一个惊天秘密——行宪所在的部门要被那家外企整体裁撤。。。

旭卿两只眼睛喷出了火,就直接打车去机场。从首都机场再打车到西二旗时,已经夜里十点多了。旭卿给行宪打电话,明天早晨找你谈谈。

第二天早晨咖啡馆刚开门,行宪就到了。没想到旭卿更早,已经在门口蹲了半天。。。

行宪顺利加盟。

“当时我就知道,这事儿成了一半儿!”旭卿回忆。

行宪外向又暖男的性格,加上精湛的技术,使得他团队的兄弟们一直很信任他。结果,听说他加盟了阿里云,兄弟们纷纷给他打电话,想继续跟着他做研究。

确认过眼神,行宪张开怀抱,加上兄弟团队的人马,这部分研发阵容妥妥齐备。

image

行宪

现在龙珠只剩下最后一颗——芯片研发的负责人。说实话,中国好的芯片人才屈指可数,短时间要找到合适的人选堪比登天。。。

但眼看还有一个多月就要过春节了,旭卿下令,硬着头皮先开始干!行宪团队算是半个芯片团队,先兼职芯片设计,如果有些功能不会用芯片搞定,就只能“绕个路”,用软件替代。

团队第一次跑通验证程序,已经是来年早春三月了。

那天是个周六,大伙都堆在项目室,谁都不想休息,因为验证结果马上就要出来了。

然而,最终在屏幕上跑出的数据给大伙儿泼了一盆冷水——“延迟”指标远高于预期。

仔细分析之后,大家基本定位出了原因:有些坑绕是绕不过去的。这颗芯片是造也得造,不造也得造。

当务之急是找到一位芯片大牛。

那两天,行宪魂不守舍,第二天周日本来他要开车去燕郊参加同学聚会,结果满脑子都在想这事儿,连着开错了两个高速口。他怕出事故,只好把车停在路边让自己冷静一下。

就在这时,收到一条老友的信息,听说行宪在找芯片人才,给他推荐了一个厉害的人选,渐名。

旭卿得知自己苦苦寻找的芯片人才终于要有着落,像当年“追”行宪一样,又开始三顾茅庐对渐名发起爱的攻击,终于感动了渐名。

image

渐名

和行宪外向的性格形成鲜明反差,渐名是个技术宅,不看广告看疗效的那种。

多说一句,这里渐名做的芯片不是从头自研一款芯片,而是用的行业内比较成熟的“可编程芯片”,在现成的芯片上设计逻辑。由于时间和能力所限,这算是个最客观的妥协方案。(当然,这也成为了另一个故事的序章,我们后面还会说。)

行宪记得很清楚,渐名是带着行军床进办公室的。两个月时间,他就没回家几次。那天他找到行宪,淡淡地说了句:“芯片这边设计得差不多了,你再测测。”

大家围拢过来,看到各项测试结果都“超常发挥”。大伙儿轮番抱着显示器上的参数合影留念,看起来就像一群傻子。

image

此时旭卿手里已经基本集齐了龙珠,接下来只待召唤“神龙”。

大家开了个会,讨论新研制的这套服务器到底要叫个什么名字。有一位工程师说:“既然是召唤神龙,那我们就叫“神龙云服务器”如何!”

同学们一听,纷纷露出“哎呦不错哦”的表情,能飞天的不就是“神龙”嘛!

接下来的几个月里,产品经理霁荣在各研发团队奔走呼号,跟进团队内部和外部所有相关大牛们的研究进度,保证大家在承诺的时间里完成各自的技术准备。

(三)

就在行宪他们死去活来折腾核心技术的时候,旭卿一刻都没闲着。他心心念念惦记着做硬件设计的兄弟团队。
2017年初,旭卿和硬件团队的芳志一起去台湾出差。

大巴车里,旭卿往芳志旁边一坐,开始了唐僧般的念叨,从盘古开天地,到神龙服务器,说了个遍。

很多人还不知道,为什么阿里巴巴会有一个硬件设计团队,这里多聊几句八卦。

从2014年开始,阿里云就遇到一个重大的问题:买来的标准服务器,“七国八制”,总是出现各种“幺蛾子”,今天这里不稳定,明天那里不适配。每天芳志的团队都四处灭火,生无可恋。

从那时开始,阿里巴巴就走上了定制服务器的道路。功能规格、接口标准都由自己规定好,服务器厂商按照这个规格研发生产,问题就少多了。

到了2016年,阿里巴巴更进一步,已经开始完全自己设计服务器。CPU和内存选型、存储、主板设计、电源、甚至散热元件都在设计图里清晰地设计好,服务器厂商只管去生产交付就好了。

所以,有关服务器底层硬件设计,经过这么多年锤炼,服务器研发团队是门儿清的。

image

阿里巴巴的定制服务器

初一听到旭卿的构想,芳志的反应和其他同事差不多。“总感觉有点离经叛道,但又觉得值得试一试。。。”他后来回忆。

于是,芯片设计和软件架构基本确定下来后,服务器硬件团队马上开始和他们一起做关键器件选型。

渐名的芯片方案验证差不多后,接下来芳志团队就要开始设计搭载这块芯片的板卡了。大家给这块卡起了个名字,叫“MOC卡”。

大家想象了一下 “MOC卡”的样子,应该看上去有点像一个显卡。

但是真到具体设计的时候,童鞋们开始头大了。

“说实话,好歹我在这个行业里也摸爬滚打十五年了,这是我见过最复杂的板卡,没有之一。”芳志说。

image

芳志

由于复杂度太高,在写电路设计的时候,哪怕只有一根线路设计出现错误,都会导致板卡点不亮。这种情况一旦发生,只能推倒重来,返厂大吉。

返厂不仅会造成巨大的成本浪费,还会直接让2017年云栖大会发布神龙云服务器的梦想泡汤。

就在设计图交给工厂之前,团队的童鞋通宵一周,你给我检查,我给你检查,一个点一个点看,一个电路一个电路查。送走设计图的时候,就像老父亲目送进京赶考的儿子一般。。。

2017年夏天,第一版MOC卡实物终于从工厂运了过来。

image

MOC卡

硬件的同学们摩挲着自己的作品,沉甸甸地,像块砖头,爱不释手。他们忐忑地把板卡插进机箱。。。。“点亮啦!”屋子里一片沸腾。在如此高压高强度的工作状态下,如此复杂的电路设计没有出现一处错误,这群阿里人用事实证明了自己在硬件领域的专业性。

MOC卡的照片通过钉钉群传输到北京,所有人一片欢呼。

为了测试板卡工程结构上的可靠性,他们把MOC卡泡在装满红墨水的容器里,捞出来晾干,然后直接用钳子把芯片一个个拽下来,查看里面是否曾有液体渗入,结果非常满意,里面完全没有墨水痕迹,说明芯片引脚的焊接也是天衣无缝。

到8月中旬整个产品软硬件全部验证完成,但留给中国队的时间不多了。带有MOC卡的神龙云服务器火速放量生产,像蚂蚁搬家一样进入阿里云的“蛋糕底层”,成为无数台物理机的一部分。

2017年10月12日。云栖大会。

李津在没有任何高能预警的情况下,在台上突然发布“神龙云服务器”,并且宣布神龙是“现货”——从当天开始,客户就可以购买神龙云服务器做为硬件底层的阿里云计算资源。

image

云栖大会上

李津发布神龙云服务器

业界爆燃。

当天下午,在只能容纳100人的神龙的技术论坛上,生生挤进去了300人。后来保安人肉堵住门口,才算作罢。

更神奇的事情发生了。

就在那次云栖大会之后的一个月,大洋彼岸的云计算全球老大亚马逊 AWS,在他们的“云栖大会” ——Reinvent 大会上同样发布了类似的硬件虚拟化技术。他们的虚拟化架构叫做 Nitro。

image

AWS 发布 Nitro

听到这个消息,旭卿全明白了,原来 AWS 也早就秘密开始研究和神龙一样的技术,不同的是 AWS 的芯片来自他们2015年初收购的以色列芯片初创公司 Annapurna Labs。两家公司出于最高级别的保密,相互一点风声都没走漏。

大洋两岸的两家公司通过这种方式隔空致意,英雄相惜。这像是云计算的一场“生物大进化”,云计算朝着“IT行业的水电煤”又迈进了一步。

“那一刻我终于知道,我们不再孤单了。”旭卿感慨。

旭卿的慨叹,其实每一个阿里云人都感同身受。

亚马逊是世界上第一家云计算巨头,用“开创了云计算时代”来形容它丝毫不过分。中哥曾在另一篇文章《阿里云的这群疯子》里详细写过阿里云的创业故事。2009年王坚带领阿里云的兄弟们筚路蓝缕地长征,很大程度上也是将亚马逊AWS视作自己的镜像。

那时候,阿里云虽然艰难,但前路终归有一盏灯。而开发神龙的时候,研发团队是两眼一抹黑的。所以,当他终于知道阿里云的创新和AWS居然是同一个方向,而这一次阿里云居然还领先AWS一个月时,心中的骄傲如火山喷涌。

神龙天降,马上投入战斗。

image

截止2019年10月,世界各大厂商自研软硬件一体架构的进度。

(四)

购买神龙云服务器的网页快被挤爆了。

第一时间购买神龙的客户大概分三类:

1、好奇的用户——他们来尝鲜;

2、云计算的同行——他们来看看阿里云有没有吹牛;

3、传统企业——他们早就迫不及待地想上云,但之前传统的云计算架构并不适合他们,神龙架构却是他们的菜。

之前提到的上汽是第一个吃螃蟹的人。他们透露,相比过去使用传统超算服务,使用神龙超算集群汽车仿真计算效率提升25%;吉利集团也将全部仿真业务在神龙超级计算集群,过去平均排队2个月的任务,现在平均2周搞定。

为什么用传统云架构不行,换成了神龙云架构就行了呢?

这里中哥多解释一句。

很多传统企业,例如制造业,从90年代就采用了物理机架构,那时候还没有云计算,所以他们自己构建了一套虚拟化架构(很可能选用的是VMware)。

现在传统企业要向上云,就面临两难了:

1、把这套虚拟化架构原封不动地装在云计算本身的虚拟化架构里,就会出现“嵌套虚拟化”的问题,大概就像《盗梦空间》里描述的那样,在一个梦境里又做了一个梦,这样会让虚拟化性能开销飙升,跑起来比拖拉机还慢,完全不能忍。。。

2、就算企业为了上云,下决心重新构建一套适应云计算架构的软件,又会发现上下游供应商他们用的体系还是传统架构,又出现了猪队友接口不兼容的问题。。。

image

这就叫嵌套虚拟化

由于神龙云服务器自身的虚拟化动作都被“藏”到了MOC卡里,对于传统企业来说,神龙机和物理机没区别。所以把原来的系统原封搬上来,既不会造成性能损失,又不用面临和上下游接口不符的问题。

image

神龙云服务器上

MOC卡已经把

虚拟化的活儿给干了

云的好处全都有了,过去的不方便又全没了,世界上还有这样的好事儿。很多传统企业纷纷开始大量选购阿里云。

为此,2018年,行癫将阿里巴巴集团唯一一个企业端产品创新突破奖颁给了神龙。

image

但在阿里云眼中,此时的神龙还未强大到能支撑起所有计算需求。这是为啥呢?

之前我们提到,虚拟化其实分成两个方向:

一个方向是虚拟化组合:把一堆物理机粘成一个大的虚拟机;

一个方向是虚拟化切分:把一个物理机切成一堆小的虚拟机。

刚才为了不打扰你听故事,中哥没有说得很细:作为第一代产品,神龙云服务器用MOC卡实现的硬件虚拟化,其实只能满足第一个方向。

每一个神龙云服务器,就像一块乐高积木,很多乐高积木拼起来组成更大的积木,这没问题,但一个乐高积木本身没办法再切分。

image

神龙架构的虚拟化组合,大概就是这个样子。

结论很明确:第一代神龙架构其实是缺一条腿的——它只能支撑一半的云计算场景。

如果神龙架构不仅能做到虚拟化组合,还能够做到虚拟化切分,那么它就可以替换掉阿里云现有的所有服务器,实现全部升级了。

这就是神龙2.0的任务。

当时的神龙,已经不是当初一个小团队“自娱自乐”了,它是要支撑阿里云很多业务的。但凡拖延,后果不堪设想。说白了,这次技术升级是干也得干,不干也得干。

神龙2.0交付日期临近,团队手忙脚乱,人手严重不足。

这时,有一个人能紧急调动所有人的资源,那就是阿里云智能基础产品事业部总经理小邪。实际上,在神龙研发早期,小邪就对这个技术寄予厚望。

小邪在阿里巴巴的技术体系里“摸爬滚打”十年,他曾参与集团首次大规模技术改造项目——“五彩石战役”,非常清楚神龙对阿里云乃至整个行业的价值。如果说五彩石打通的是淘宝、天猫的架构和数据,那么神龙统一的则是阿里云的底层基础设施。

image

小邪

神龙不只是颠覆计算服务这么简单,它还会推动云平台上存储、网络、数据库等等基础技术的跃进!

小邪在飞天2.0启动会上如是说。

那段时间,小邪在各团队奔走呼号,在他的感召下,无数兄弟部门加入战斗序列,为新一代神龙贡献力量。

正如那句话,如果你知道要去哪里,全世界都会为你让路。

2018年8月份,阿里云终于如约把新一代神龙架构的这套代码完成了——虚拟化层被做薄,损耗率被大幅降低。

image

第二代神龙架构

大概是这样

这下旭卿“手里有粮,心中不慌”了——凡是能用传统云计算架构实现的,神龙架构都能实现!而这也意味着,云服务器首次实现了整颗CPU用于计算任务,在算力资源紧缺的时代,这一突破极具意义。

在第二代产品成型后,神龙这帮人就奔走呼号,邀请阿里巴巴内部的各个业务团队“吃狗粮”——不仅要多用阿里云,还要认准神龙云服务器作为底层的阿里云。

阿里巴巴内部使用神龙云服务器的云计算,和外部客户买阿里云的流程是一样的,特别简单,只要在网页上点几下,就相当于过去采购了几千台机器搬到机房。

时间来到2018年双11,投入战斗的神龙云服务器已经初具规模,团队再次严阵以待。

虽然对自己的技术有信心,但这毕竟是神龙第一次抵御这么大的流量洪峰,大家心里还是很紧张。

所有人都围在“作战室”,盯着神龙的后台数据。结果,神龙云服务器的CPU占用率非常平稳,几乎是一根直线,像假的一样。据估算,2018年双11当天,大部分云部分峰值流量都是神龙云服务器扛下来的。

image

不仅如此,在有些业务中,用神龙的虚拟化架构,比直接用物理机还快。虽然这看起来不科学,但其实也在团队的意料之中。

因为阿里云的很多业务是跑在时下正流行的“容器”中,而容器技术有个显著特点:它本身是基于云架构设计的。

所以,本来容器技术跑在云架构里就比物理机里更如鱼得水,加上神龙机本身的计算性能和物理机一样快,整体的性能就超越了物理机。

这一仗打得漂亮。

image

(五)

2019年春节回来,行癫又组织技术长老们开了一次重磅会议。

这次会上,他又提出了一个非常激进的计划——“从此刻开始,全集团不再购进一台物理机,所有新增计算力全部上阿里云”。

就在2019年4月。集团又发布了一条新的决定:

集团上云,全部采用神龙云服务器架构。

从2009年创业,到现在已经10年,阿里云服务了上百万家客户,但多数企业出于尝鲜的目的——把验证性的工作放在云上,生产任务仍旧在自己的环境里,换句话说,还不够相信云足够靠谱。如今,阿里巴巴宣布所有业务上云,是对阿里云技术实力的最高认可,也给了全行业做出了信心表率。从王坚以来,一代代技术人,终于守得云开见月明。

在这之后,神龙一路狂奔,在2019的杭州云栖大会上,第三代神龙发布。经过实测,第三代神龙作为底层架构的云计算,绝大多数指标都优于传统架构的云计算。所有人都意识到,这是一个可怕的“新物种”。

马不停蹄,时间又冲向了2019年的11月11日——“双11”。

这一年双11,总成交额定格在了2684亿,比上一年暴增四分之一。就在24点的最后冲刺之前,从舞台暗区走上来一个神秘人,他就是行癫。作为阿里巴巴技术带头人,他居然是第一次从双11的幕后来到聚光灯下。

他开心到连自我介绍都有些语塞,但这是我所见过他最畅快淋漓的演讲。

峰值每秒544000笔订单,没有任何抖动,阿里云承载阿里巴巴自己100%的核心系统,这个是我们全球第一个做到的!从此以后,所有用户都可以更放心地把自己的核心系统放在阿里云上!

那一刻,他仿佛代表身后无数技术人,暂时忘记代码的严谨和硬件的低调,只是享受聚光灯的温暖。

image

行癫

事实也正是如此,基于神龙架构的云服务不仅大规模应用于淘宝、天猫、菜鸟等业务,还吸引了一大批拥趸客户:上汽、吉利、旷视科技,不一而足。

而这次技术变革带来的影响正在迅速蔓延,全球云厂商都在跟进采用类似的技术路线,中国创造的“神龙”正在成为服务器的世界标准。未来一旦全世界云计算厂商迭代结束,节省的计算资源会是一个天文数字。

image

三年历程,神龙雏形初现,凡此劫难,九死一生。

哪怕倒退五年,可能也绝不会有人想到,阿里巴巴这家电商基因的公司,会有勇气跳入泥潭,花费数亿投入去研发互联网底层的单元——服务器。而且一出手就不是世界上的“又一台”服务器,而是“另一种”服务器。

但站在历史的岸边,完整目睹变迁的过来人也许能体会,阿里造物,真正的幕后推手是“时代”二字。

我在《阿里云的这群疯子》里写到,当年阿里云的创建,就是因为阿里巴巴面临越来越重的服务器和存储负担。时任阿里巴巴首席架构师王坚给马云算了一笔账,如果不上云,单单购买IBM的小型机和Oracle的数据库,就能让阿里巴巴破产。

而一代技术总会遇到规模瓶颈。技术竞争正如升级打怪,你跑得比别人靠前,就比别人更早遇到这一关的大BOSS。

当年那代阿里云人,从第一行代码开始,写出了阿里云底层调度系统“飞天”,成功干掉了那个年代的大 BOSS。旭卿这代人登上舞台时,阿里云服务的人越来越多,场景越来越复杂,新的 BOSS 就在眼前。

真正的技术人,其实从来没有退路。

前路总会荆棘坎坷。坐在原地,可能一生至死都不会遇到惊涛骇浪。但那些远处的峻峭风景,也随之在你生命的可能性里永久消失。

正如《约翰·克利斯朵夫》所写:人生是一场不停的,无情的战斗。向前,向前,永远不要停。

在之前的故事里,我曾经埋下一个伏笔,那就是神龙服务器的那块核心芯片。我说那片 FPGA 是现成的可编程芯片,是个“妥协方案”。

于是你可能想起,2018年云栖大会,阿里巴巴宣布了一件大事,那就是成立了自己的芯片公司“平头哥”。

image

过去几个月,平头哥连续发布玄铁、无剑、含光。

于是,中哥有了一个大胆的猜想。经过从阿里云内部多方打听,我确信了一点:平头哥正在研制的芯片中,至少有一款将要用在神龙云服务器中,替代之前旭卿一直在使用的妥协方案“FPGA”。

也就是说,下一代神龙云服务器将会搭载一颗阿里巴巴自研的芯片。

粗略算来,仅仅阿里巴巴一家公司,利用阿里云提供的服务就可以触达十亿人,而在阿里云上,还有几百万其他客户,他们同样可以触达数亿人。加总起来,神龙服务器中平头哥芯片所能影响到的人次,将突破十几亿。

那将是中国芯片的里程碑。

那也将是下一个故事。

飞鸟掠过这片古老的大地,此时此刻,正有无数中国人自己设计的神龙服务器,从各条生产线上喷涌而出,构筑起我们生存在这个星球上坚如钢铁的计算力。

身处时代大潮中,人们往往不会注目那些英雄们的身影。只有当世界终于被改变,你我才会在余晖的岸边回首旧日,恍然想起那一个个闪亮的瞬间。

原文发布时间:2019-11-13
文章来源:史中
本文来自浅黑科技,了解相关信息可以关注“浅黑科技

相关实践学习
2分钟自动化部署人生模拟器
本场景将带你借助云效流水线Flow实现人生模拟器小游戏的自动化部署
7天玩转云服务器
云服务器ECS(Elastic Compute Service)是一种弹性可伸缩的计算服务,可降低 IT 成本,提升运维效率。本课程手把手带你了解ECS、掌握基本操作、动手实操快照管理、镜像管理等。了解产品详情: https://www.aliyun.com/product/ecs
相关文章
|
人工智能 达摩院 自动驾驶
攀登造芯之路:玄铁已出,生态为王
攀登造芯之路:玄铁已出,生态为王
118 0
|
弹性计算 网络安全
飞天助力计算,阿里圆梦学子
云服务器是一种简单高效、安全可靠、处理能力可弹性伸缩的计算服务。其管理方式比物理服务器更简单高效。用户无需提前购买硬件,即可迅速创建或释放任意多台云服务器。
|
存储 弹性计算 安全
阿里云张献涛:自主最强DPU神龙的秘诀
读懂云计算,才能看清DPU热潮。
阿里云张献涛:自主最强DPU神龙的秘诀
|
存储 云安全 弹性计算
|
Java Linux
关于我对飞天计划的感触
关于飞天计划的感触
|
弹性计算 运维 云计算
飞天计划感悟
通过飞天计划,我体会到了阿里云给我们带来了多么精彩的校园生活
|
弹性计算 云计算
飞天计划使用心得
在操作过程中也感受到了飞天计划的成果,在领取云服务器之前有一个简单的测试,通过之后便可以领取服务器使用了,通过这样的方法让初学者们对云服务器有更好的理解以便更好的操作。平台中还有详细的操作教程可供我们自主学习
|
弹性计算 Linux
飞天计划的使用感言
我是来自重庆的一名大一学生,就读的专业是计算机科学与技术,从小就有想要自己开发和建站的想法,上了大学后就绝对一定要实现自己的梦想,想着自己搭建网站和开发环境,本来想着自己租一台服务器,但服务器的价格对于一个在校学生并不便宜,而阿里云的“飞天加速计划.高校学生在家实践”正好可以让高校学生免费领取2.5个月的云服务器,简直是我们高校学生的福利。
|
弹性计算 Java Linux
飞天计划的使用心得
对于ecs的使用感受及在使用过程中遇到的问题,同时对于使用ecs的收获。

热门文章

最新文章