阿里技术保障高山渊:阿里基础设施自研路线图

简介: 据保障君了解,云栖大会已被评为国内人均价值最高的会议,所以干货不能停啊,精彩内容继续来,今天给大家推送的是阿里巴巴技术保障研发总监高山渊的演讲内容。

据保障君了解,云栖大会已被评为国内人均价值最高的会议,所以干货不能停啊,精彩内容继续来,今天给大家推送的是阿里巴巴技术保障研发总监高山渊的演讲内容。

以下为演讲PPT:

今天我想聊聊阿里巴巴怎么样去做好我们的基础设施,让我们的云客户能够享受到这样好的优质服务。

image.png

我今天的演讲主要有三个部分,一个是基础设施到底是怎么样来支持业务发展的,设计的原则是什么?在中间的演讲环节,有一个同学问到,我们建设一个像千岛湖数据中心的时候,考虑的原则是什么?我会做一个阐述。第二,我们在这个的原则支持下,我们做了什么东西?我们今天自研的技术成果是什么样的状态?未来几年我们在基础设施方面投入什么样的研发,为更好的云技术的未来做更好的服务的设施。

image.png

根据美国针对300多位专业人士的调研,他们在选择云计算的时候,会考虑很多方面,但是在云计算的基础设施方面会优先考虑三件事,第一是基础设施的可靠性,第二个需求是性能,第三是对于成本的考量。刚才主持人说使用云计算需要能力,其实建设运营基础设施需要更高的能力。如果在这方面的能力不够的话,你更加要用云计算来帮助你解决这样的问题。

image.png

我们今天做云计算基础设施就是要去应对这样的挑战,满足客户对于可靠性、性能、成本这三者合一的挑剔的要求。为什么说是一个挑剔的要求?因为我们知道对于这样一个可以说类似于CAP理论的东西,我今天既要东西好、可靠性高,又要性能好,就意味着更多新的东西要用,又要我的成本低,这是非常难以做到的。

image.png

按照RFC1925网络12条军规的结论,在这种三个都要的情况下,几乎不可能做到。我们今天去面对这样的挑战,就是要在这三个中间寻找最佳平衡。这样带来很多的取舍,因为这个基础设施是非常复杂的东西,比如说我今天从服务器出发,服务器往下拆解,会涉及到CPU、电源、机箱等等,同样我把基础设施累加起来往宏观方面建设的时候,也会碰到这样的问题。

网络怎么样把它连通,怎么用软件把一个一个标准的服务器云化出来提供给客户,每一个层次上都会碰到很多的问题。在这样的复杂的系统里面牵涉都很多的领域,你调整一个非常小的变化,可能会牵一发而动全身,让你整个系统很能达到一个最优的状态,这是我们非常难以做好的第二个挑战。

image.png

第三个挑战是硬件研发周期是非常长的,投入的研发非常的高。今天我们要运营一个非常庞大的基础设施,阿里今天在这样的环境下,我们还不是说所有的硬件都要自己做的情况下,投入的研发费用已经是好多个手指都数不过来的数字了。针对这样的条件下,你要把这个事做成,就是我们今天基础设施最大的挑战。

既然用户有这样的稳定性,高性能、低成本的诉求,我们怎么样去应对这样的挑战?下面就是回到刚才那位同学问的问题,我们在基础设施上怎么样?比如说今天发布的量子加密产品,以及在二楼展示的最新自研硬件,既然用户需要可靠性和成本,我们就要兼顾它。除此之外,云客户需要的解决方案,我们给他提供一个裸的产品是满足不了用户对于高性能云计算基础设施的要求的,所以我们也会去提供系统化的解决方案,比如说OAS等等。这些内容我们都在后面会详细的介绍我们是怎么去做到这些可靠性、性能成本的平衡,包括给业务提供统一化的解决方案的。

image.png

回到前面说的挑战里面,从整个产业来看,假如说我们从服务器的角度分析,可以分成几个层次,我们今天要做的事就是在每一个层次上掌握每一个层次应该有的核心技术。比如说对于传统上在OEM比较强项上,它会交付给我一个成品的东西,但是今天成品的东西对于我来说不能满足用户对于基础设施的要求,我会介入到系统的设计,供应链的管理等等环节去掌控我这个环节的技术,掌控我这个环节的供应链去提升我的质量,降低我的成本。传统上很多OEM的服务器都是ODM去做的,我们怎么样通过我们的努力去让ODM的核心能力能够直接的作用于我们的基础设施,为我们的云计算服务,这是我们今天正在努力要做好的非常重要的方面。

再往上是产业链的最上游,涉及到物理学、材料等等,对于最终的成本、性能都是有非常大的影响,我们能否去搞清楚这样一个尖端行业里面的技术点在哪里?我们能够用到它什么好的技术去作用于我们今天的基础设施,是我们今天再去努力的方向。

image.png

前面讲完了我们对于基础设施的出发点,我们要满足用户对于基础设施在稳定性、可靠性、性能成本三者之间平衡的考虑基础上,我们取得了什么样的成果,我们在后面做了一个展示。大家一般会把云计算的产品分成存储、计算、网络等等。前面周明在对于基础设施的整体规划里面做了比较多的介绍,最底下的两张图片,是我们今天在千岛湖的实景图片,非常的漂亮,不管是左边的夕阳落下去的图片,还是右边的湖水分流的设计,照出来都是非常的漂亮。最终大家说云计算也好,大数据也好,都落在两个地方,一个是存储,二是存下来的数据我要做怎么样发挥。

image.png

首先说IDC,我们今天看到的实际上是千岛湖的概括介绍,对于阿里所有的IDC来说,一直以来的追求是绿色环保、高效节能。回到我们的原则上来说,我们的原则是低成本、高效率交付给客户。像千岛湖这样的数据中心,我们做了大量的技术创新之后,能够得到的一个结果就是能源效率指标PUE。我们在做一些技术的储备,为未来在张北的数据中心做一些技术的准备。这样一个数据中心,不论是性能还是效率,已经达到了世界先进的水平。

另外在数据中心里面我们要考虑的是的交付效率,因为今天的数据中心的建设周期是非常非常长的,从拿地到谈各种条件,以年计的周期。今天在互联网变化这么快的条件下,这样的速度是不能满足业务发展需要的,我们在交付效率上做了大量的研发工作。模块化数据中心ADM体现了我们的交付技术,可以使我们的IDC效率提升40%。在供电上我们也做了非常多的创新,比如说市电、直流。传统的电要经过几级的变压、整流,这里面每一级的转化都会有一些损耗。但是今天阿里这样整个的供电效率里面我们能够达到97%的效率,这是非常不容易的事。另外我们的数据中心都经过AAAA的认证。

我们做了这么多的创新,不能说我们要用新的技术,我们要降低我们的成本,就去冒然用不安全的东西,相反我们要更加提升我们的安全性。

image.png

我们有一个天蝎计划,服务器的整机技术。稳定性方面,所有的天蝎的服务器,经过认证比传统的服务器有所提升。传统的每一台服务器都有单独的电源供电,电源要做一加一才能保证它的稳定,更大的问题是风扇震动导致的硬盘故障。另外是部署效率,整机的交付我们可以做到一天物理部署五千台服务器。低成本,TCO优于传统的服务器。

image.png

另外在计算领域,阿里今天跟英特尔有深度的合作。我们为了云计算的发展,为了我们自己的业务发展,在计算领域跟英特尔做了非常多的技术探讨。之前不管是阿里也好,还是国内其他的行业,在大部分时间远远落后于英特尔的步伐。例如,英特尔在发布一个新的CPU之后,我们使用的时候已经落后于它6到9个月。但到今年年底前,我们将能够做到和英特尔同步发布最新一代英特尔CPU架构的云计算产品。这就是我们跟英特尔做了非常多深入合作的结果。

image.png

另外是存储。之前主要做了一件事,基于PCIE接口的Flash,它的一个好处就是性能非常好,而且成本比较低。在这两个之外更重要的是我们这一款是可以软件定位的系统,我们结合我们的业务场景,把我们在上层应用里面不容易解决的问题,用硬件的方式写到我们的部件里面解决,这样极大释放了我们业务研发的压力。这个存储服务器是专门为存储做的定制存储,结合了专用的存储服务器,我们也推出了一款专门的云产品,它能够做到一个非常低的存储成本。亚马逊有相关的产品,我们能做到比亚马逊售价更低。

image.png

另外一个是网络。大家一直以来对于互联网访问中出现的各种各样的问题,好象觉得都是网络的问题,有些不见得是,但是网络今天追求的目标是稳定可控。因为网络对于云计算来说是非常重要的基础设施,网络如果做不到高稳定性的话,一个小的波动会影响到上层非常多的云计算的稳定性。我们今天是10GE的全面的应用,40GE的Aliguard,我们基于这种网络高性能的软件加硬件一体化的解决方案做到了单机房可以防护1TB能力的水准。我们网络自研的成果体现在网络的质量提升。对网络管理方式的优化,自动化部署等等的方式都会在这个网络上体现出来。未来还有一些智能网络的设备会投入使用。

image.png

最后再讲一下量子技术。实际上量子这件事能够运用到互联网里面是非常的不容易的,光我们技术保障部就投入了非常多的人力,经过了两年多的时间,我们才能说我们可以把这个东西用起来。随着云产品的发布,会有更多有意思的东西发布出来,未来的话可以展望一下,应用我们的生产技术是可以期望的。对于量子计算来说,我们会积极的跟中科院的团队探讨,把我们的质量控制方面的经验等等做一些深入的探讨和交流。

image.png

未来的重点突破方向,还是这些东西,但是这些东西会每一个都更上一层台阶。比如说对于IDC来说,张北会更绿色、环保、节能。另外,在这种自研IDC的控制下,我们多了一层对业务的保证。服务器是未来的标志,预计在今年年底或者说明年初会应用于我们的产品里面。在计算领域,除了跟英特尔加强合作以外,我们还会在其他方面加强合作。

image.png

image.png

今天我的内容就到这儿,谢谢大家!

image.png

最后保障君送福利来啦!2015年云栖大会演讲嘉宾ppt资料下载地址:http://yunqi.aliyun.com/2015/download-docs.php?spm=5176.100131.2.3.4ztGfw

目录
相关文章
|
存储 Kubernetes 容器
Kubernetes 存储选项:持久化卷与存储类
【8月更文第29天】随着容器化的普及,越来越多的应用程序需要持久化数据以保持状态信息。Kubernetes 提供了一套完整的解决方案来管理和配置持久化存储,包括持久卷 (Persistent Volume, PV)、持久卷声明 (Persistent Volume Claim, PVC) 和存储类 (StorageClass)。本文将详细介绍这些概念,并通过实际示例来演示如何在 Kubernetes 中配置存储。
953 4
|
监控 安全 网络安全
|
存储 弹性计算 人工智能
阿里云弹性计算_通用计算专场精华概览 | 2024云栖大会回顾
阿里云弹性计算产品线、存储产品线产品负责人Alex Chen(陈起鲲)及团队内多位专家,和中国电子技术标准化研究院云计算标准负责人陈行、北京望石智慧科技有限公司首席架构师王晓满两位嘉宾,一同带来了题为《通用计算新品发布与行业实践》的专场Session。本次专场内容包括阿里云弹性计算全新发布的产品家族、阿里云第 9 代 ECS 企业级实例、CIPU 2.0技术解读、E-HPC+超算融合、倚天云原生算力解析等内容,并发布了国内首个云超算国家标准。
阿里云弹性计算_通用计算专场精华概览 | 2024云栖大会回顾
|
存储 固态存储 大数据
阿里云服务器实例、块存储、带宽收费标准与云服务器最新活动价格参考
阿里云服务器价格通常包括云服务器实例价格、块存储价格和带宽价格组成,云服务器不同实例规格收费标准不一样,选择不同类型的块存储收费标准也不一样,选择不同的带宽收费标准也不一样。现在阿里云轻量应用服务器2核4G4M峰值带宽298元1年,云服务器2核4G5M固定带宽199元1年、2核8G1M固定带宽652.32元1年、4核8G1M固定带宽955.58元1年、4核16G10M带宽100G ESSD Entry云盘70元1个月。本文为大家整理了目前阿里云服务器实例、块存储、带宽收费标准与云服务器最新的活动价格情况,以供参考。
阿里云服务器实例、块存储、带宽收费标准与云服务器最新活动价格参考
|
JSON API 开发者
淘宝商品销量数据接口:获取与利用全攻略
淘宝商品销量数据接口让开发者获取平台上商品的销量信息。首先,需在开放平台注册并创建应用;随后获取API密钥(appkey与appsecret),用于身份验证。参考官方文档了解接口详情,通过HTTP请求调用接口并设置参数如商品ID。接口返回JSON格式数据,需用编程语言解析提取销量数据。示例代码展示了如何使用Python和requests库调用接口及打印结果。使用时应遵守规定,避免违规行为,并关注接口更新。若无开发能力,可选用第三方服务但需谨慎评估。
1034 0
|
机器学习/深度学习 算法
AdaBoost算法
**AdaBoost** 是一种 Boosting 算法,通过序列训练弱分类器并赋予错误分类样本更大权重,逐步构建强分类器。它使用指数损失函数,每次迭代时,弱分类器聚焦于前一轮分类错误的样本。最终,弱分类器的预测结果按其性能加权组合成强分类器。与 Bagging 相比,Boosting 是串行的,每个模型依赖前一个模型的输出,更重视错误样本。AdaBoost 的优点包括提高弱分类器性能、鲁棒性和灵活性,但对噪声敏感且训练时间可能较长。
|
消息中间件 缓存 负载均衡
【Kafka】Kafka 消息的消费模式
【4月更文挑战第5天】【Kafka】Kafka 消息的消费模式
五面阿里技术专家岗,已拿offer,这些面试题你能答出多少
在面试前三面真的有点急促,一周内就面完了三次面试,接着就开始无尽的等待,整整等了三周左右,终于完成了四面和HR面。整个过程还是比较曲折的,技术面试还是挺考察技术深度的。现在已拿到offer。
|
存储 弹性计算 缓存
阿里云Intel Xeon(Sapphire Rapids) Platinum 8475B处理器CPU
阿里云Intel Xeon(Sapphire Rapids) Platinum 8475B处理器CPU,阿里云服务器ECS通用型实例规格族g8i采用2.7 GHz主频的Intel Xeon(Sapphire Rapids) Platinum 8475B处理器,3.2 GHz睿频,g8i实例采用阿里云全新CIPU架构,可提供稳定的算力输出、更强劲的I/O引擎以及芯片级的安全加固
1986 0