“飞天”如何有效支撑中国最大公共云:详情架构与演进

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
日志服务 SLS,月写入数据量 50GB 1个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 2019杭州云栖大会大咖有约,由阿里云智能资深技术专家陈绪带来以“飞天如何有效支撑中国最大公共云:详情架构与演进”为题的演讲。本文对为什么飞天系统要自主研发,以及“飞天”的演进与架构进行了详细的介绍。

2019杭州云栖大会大咖有约,由阿里云智能资深技术专家陈绪带来以“飞天如何有效支撑中国最大公共云:详情架构与演进”为题的演讲。本文对为什么飞天系统要自主研发,以及“飞天”的演进与架构进行了详细的介绍。

视频直播回顾

以下为精彩视频内容整理:

“飞天”史

当看到“飞天”这个词时会想到什么?其实在中国谈飞天有三个含义。第一个飞天是印度的飞天Apsara神女的壁画;第二个是跟阿里云长期合作的飞天茅台;第三个就是我们今天要讲的这个支撑中国最大规模公共云的飞天操作系统。这个飞天是在2008年立项,就是要构造一个自主研发的操作系统,飞天的来源从本质上是借鉴了印度的飞天壁画,意味着能够一飞冲天。阿里云是在2009年9月10号成立的,但早在2009年2月,阿里云团队就写下第一行飞天代码,到2010年,第一个客户阿里金融通过飞天平台正式对外提供服务,到2011年,阿里云开始大规模对外提供基于飞天的云计算服务,到2012年,飞天成为双11的基础设施,到2013年,飞天首个5000台集群正式上线,阿里云成为世界上第一家对外提供5K计算能力的公司,到2014年,飞天全球用户突破100万,到2015年,“登月计划”完成,阿里巴巴集团所有的数据计算任务迁移至飞天平台,到2016年,ET城市大脑项目启动,飞天进入人工智能时代并应用于解决社会治理的难题,到2017年,飞天获得中国电子学会15年来首个科学进步特等奖,直到去年2018年,飞天进入2.0时代,成为面向万物智能的云操作系统。

为什么飞天系统要自主研发

为什么有自信说这个飞天是阿里云自主研发的系统呢?原因在于当年全世界还没有特别成熟的云计算软件代码可以为阿里云所用,因此也就意味着阿里云从第一天开始,每一行代码就只能自己写,就只能自主研发。这是时代选择的偶然,更是历史的必然。

飞天系统的演进

飞天系统的架构与演进来源于世界对计算的实际需求。很多云是为做云而做云,而阿里云不是,阿里云是针对业务的需求而做云。阿里云研发要解决两个问题,一个就是针对IT成本增长太快的问题;另一个就是当时整个世界上还没有任何一个公司能够支撑这个性能指标。
在2013年所说的5k是指用5000台计算机组成一个集群同时处理大数据,也就是当年所说的ODPS,后面改名为MaxCompute。双11凌晨大屏幕出现的数据统计就是由这个飞天系统计算出来的,但是再往后飞天的技术方向发生了改变,改变在哪里呢?用户更多的是嫌到ID物理机房扛机器太麻烦,不想用原来的物理机,开始使用虚拟机,因此想要到阿里云上通过虚拟机的方式来买容器、买存储、买计算。当时阿里云刚刚成立,由于并没有经过实际演练,面临最大的困难是没有客户,就是没有人为飞天的研发买单。阿里云的第一个客户是阿里小贷,它是蚂蚁金服的一个业务,通过阿里小贷的牧羊犬项目证实了系统的大数据处理能力,能够满足市场上的需求。
接下来进入一个新的阶段,在2014年的时候还有很多友商攻击阿里云研发的系统不行,到去年2018年,再也没有任何一个公司说飞天系统不行了。这是为什么呢?因为在这四年中,阿里云团队不仅在技术上实现了升级和演变,而且从商业品牌上也获得了市场的认可。

飞天操作系统

最近的数据显示,中国59%的上市公司使用的是阿里云的系统。他们为什么用阿里云的系统呢?因为他们看中的就是飞天,飞天有几大体系,第一大体系叫做飞天云操作系统,它不是传统意义上的操作系统,它是云操作系统;第二个是飞天大数据平台;第三个叫飞天数据库,我们现在主要讲这个飞天云操作系统。
阿里云平台有一个底座,把这个底座称作天基,这个底座是保证所有对物理硬件的管控,能够灵活地进行调度,所以它的层级在最底下。飞天从创建到现在中间经历了无数次的演变和架构的调整,现在的飞天已经达到了一个很高的水平。物理层的管控全部是靠天基系统,在天基之上有神龙、盘古、洛神等主流云计算系统。
神龙是阿里云最先进的计算平台的一个架构,它和所有其它的计算平台最大不同在于它是专用硬件虚拟化。虚拟化经历过三代,第一代是软件虚拟化;第二代是通用硬件虚拟化;第三代自研了神龙的芯片。另外,神农在全世界不是没有对手,有一个对手就是AWS。
盘古是存储部分。当购买阿里云服务和产品的时候,其实主要买的是三个东西,一个是计算能力,就是一秒能够计算多少次;第二个是存储能力,在整个平台之上能够存储多少数据;第三个是网络能力,构建稳定的网络环境。以盘古为例,盘古系统完全是阿里自研的,经过了十年的研发,现在不仅非常稳定,而且还基于盘古创建了许多有创新意义的一些科技。首先,盘古可以存储数据,存储的数据分为块、文件、对象等。基于盘古之上构建的系统能够支持所有的存储需求,所以盘古系统真正实实在在地成为了整个存储的底层。盘古还能够进行日志服务,什么叫日志服务呢?在一个互联网大规模系统之中,最关键的数据就是数据日志,因为数据日志记录着所有行为的轨迹,那么对于日志的处理和分析就成为了一个通用的需求。很多公司的团队开发对数据进行分析的工具,跟阿里云的日志团队相比,这些公司没有那么多的研发工程师,所以说他们在工具的效率和功能上是有限制的。从去年开始,阿里云的日志服务业务增长得非常快,我们开始也没有想到一个日志服务会有这么多的用户,用户都有了日志服务之后,能够进行不同维度和各个层面的统计和归纳,而且花费的处理时间短得超乎想象。换句话说,就是把存储和日志服务这个整块处理能力全部委托阿里云,这是飞天操作系统的能力。
在飞天项目中,很多名字都是古代神话的名字,比如说洛神,其源于古代时期洛神赋。为什么网络这一块叫洛神呢?它讲的是网络之神,意思是把网络已经做得很神了。网络做到现在,目前比较受市场欢迎的两个主打产品是SAG(智能接入网关)和CEN(企业网),SAG解决了目前数字经济时代由于很多公司走向海外,导致分支机构特别多所面临的链接问题。当门店遍布全国或者全球的时候,就会出现一些核心的问题。一个是数据的安全问题,即数据传上去会不会被拦截掉,会不会出现内容的泄漏;第二个是对于新零售来说很核心的问题,是本地和中央的一个数据连接问题。SAG真正地解决了安全问题和连接问题,它能够把全世界所有的门店组成一个局域网,所以说目前SAG特别符合新零售、连锁酒店的联网需求。有些人说没有SAG可以选择拉专线呀。注意:专线的成本至少是SAG的5倍以上,当存储有1000个节点的时候,全部用专线,费用会增长成天文数字,而洛神系统就解决了这方面的问题。
为什么洛神能够解决别人解决不了的问题呢?对于一个系统来说,它和用户越近,那么它的处理效果就越好,所以最好在处理数据的附近有数据机房,而阿里云在全世界有200多个数据机房。阿里云在亚太地区部署的数据存储机房最密集,其中阿里云在中国有八个地域(region),包括北京、张北、上海、杭州、成都、呼和浩特、青岛、深圳等。
云计算的本质特性很重要的一点是弹性,弹性的意思是说用多少买多少。目前最伟大的云计算公司都是从电商产生的。当年双11为了满足那一天的峰值需求,需要备货许多的物理机,而这些物理机往往需要半年的时间才能消耗掉。到了现在,有了公共云之后就不存在这个问题,不再为资源的闲置而烦恼,也不再为未来的需求而提前买单。

公共云和公有云之间的区别

公共云和公有云的英文名称都是public cloud,因此有很多人分不清楚。公共云和公有云的核心区别是看问题的出发点不同。Public cloud是让用户提供可供租用的云计算资源,使之以低成本获取资源并通过Internet使用。公共云的提法很好地承接了这一理念,强调了公共基础设施的概念,以标准化方式构建的平台能够以比较好的性价比满足大部分用户的需求,这里更多强调的是服务。另外,在服务的提供方面,公共云服务提供商往往提供最为大众化的、需求量最为广泛和集中的服务。“公有云”的概念则更多偏重强调对于物理资源的拥有权,这个不如公共云直观和贴切。所以我们一般把阿里云飞天构建的公共基础服务平台称为公共云,而非公有云。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
5月前
|
存储 分布式计算 Hadoop
阿里巴巴飞天大数据架构体系与Hadoop生态系统的深度融合:构建高效、可扩展的数据处理平台
技术持续创新:随着新技术的不断涌现和应用场景的复杂化,阿里巴巴将继续投入研发力量推动技术创新和升级换代。 生态系统更加完善:Hadoop生态系统将继续扩展和完善,为用户提供更多元化、更灵活的数据处理工具和服务。
|
7月前
|
人工智能
邀您参会丨飞天技术沙龙 AI 原生应用架构专场·北京站
飞天技术沙龙 AI 原生应用架构专场·北京站报名中。
1140 9
|
5月前
|
监控 安全 前端开发
交易所系统开发(源码正式版)/需求逻辑/玩法详情/规则架构
交易所源码开发是指基于特定的需求和要求,从头开始构建一个自定义的交易所平台的开发过程。这种开发可以包括以下几个关键方面:
|
7月前
|
弹性计算 编解码 运维
飞天技术沙龙回顾:业务创新新选择,倚天Arm架构深入探讨
阿里云、平头哥与Arm联合举办的飞天技术沙龙在上海举行,聚焦Arm Neoverse核心优势和倚天710计算实例在大数据、视频领域的应用。活动中,专家解读了倚天710的性能提升和成本效益,强调了CIPU云原生基础设施处理器的角色,以及如何通过软件优化实现资源池化和稳定性平衡。实例展示在视频编码和大数据处理上的性能提升分别达到80%和70%的性价比优化。沙龙吸引众多企业代表参与,促进技术交流与实践解决方案的探讨。
飞天技术沙龙回顾:业务创新新选择,倚天Arm架构深入探讨
|
7月前
|
弹性计算 编解码 运维
飞天技术沙龙回顾:业务创新新选择,倚天Arm架构深入探讨
基于「倚天710自研芯片+CIPU云原生基础设施处理器」组合的倚天ECS实例为解决算力挑战提供新思路。
|
7月前
|
存储 分布式计算 安全
【云计算与大数据计算】大数据物理、集成、安全架构及阿里云飞天系统架构讲解(超详细)
【云计算与大数据计算】大数据物理、集成、安全架构及阿里云飞天系统架构讲解(超详细)
836 0
阿里云最新产品手册——阿里云核心产品——飞天洛神3.0——洛神——洛神平台总体架构
阿里云最新产品手册——阿里云核心产品——飞天洛神3.0——洛神——洛神平台总体架构自制脑图
364 1
|
双11
《九年双11云化架构演进和升级,打造更加完美的双11》电子版地址
九年双11云化架构演进和升级,打造更加完美的双11
84 2
《九年双11云化架构演进和升级,打造更加完美的双11》电子版地址
《基于飞天的Lustre高可用、高性能架构解析》电子版地址
基于飞天的Lustre高可用、高性能架构解析
308 0
《基于飞天的Lustre高可用、高性能架构解析》电子版地址
阿里云飞天网络技术架构、洛神系统、洛神:阿里云飞天操作内核核心组件
阿里云飞天网络技术架构、洛神系统、洛神:阿里云飞天操作内核核心组件自制脑图
461 0
阿里云飞天网络技术架构、洛神系统、洛神:阿里云飞天操作内核核心组件