2684亿!阿里CTO张建锋:不是任何一朵云都撑得住双11

简介: 2019天猫双11 成交额2684亿!

image
image

“不是任何一朵云都能撑住这个流量。中国有两朵云,一朵是阿里云,一朵叫其他云。”11月11日晚,阿里巴巴集团CTO张建锋表示,“阿里云不一样,10年前我们从第一行代码写起,构建了中国唯一自研的云操作系统飞天。”

image
阿里巴巴集团CTO、阿里云智能总裁张建锋

2019天猫双11再次刷新世界纪录,订单创新峰值达到54.4万笔/秒,单日数据处理量达到970PB。今年阿里巴巴核心系统100%上云,撑住了双11的世界级流量洪峰。

“阿里巴巴是一架高速飞行中的飞机,我们成功在此过程中换上了全新的引擎。”张建锋说,用公共云来承载这样一个万亿规模的核心系统,阿里云是第一个做到的,“很多云厂商自己的业务系统,不在自己的云上,今后阿里全部系统都在阿里云上。”

阿里巴巴是全球首家将核心系统100%运行在公共云上的大型互联网公司。

附:张建锋演讲核心观点

从去年开始,我们决定把整个阿里巴巴核心系统全部上云,上云还要加一个定语,是上“阿里云”,并不是上任何一朵云都能撑得住这个流量。在中国,我们经常说中国有两朵云,一朵叫做“阿里云”,还有一朵叫做“其它云”。

为什么讲阿里云跟其它云不一样?因为在中国只有阿里云是完全从头研发的一朵云,从头是从每一行代码,从十年前开始写,今年是阿里云的第10年,所以我们的云有一个特别的名字,叫做“飞天操作系统”,当初王坚博士创办阿里云的时候,对我们这个云下面的调度系统,整个云的基础平台,取名叫做“飞天操作系统”。

我们的云完全是中国自研的一朵云,其它很多云从开源软件改造过来的,这是非常大的不一样。

第二个,今年双11,阿里仍然是一家在高速飞行中的飞机,我们成功的在这个过程中换上了全新的引擎。以前大家把非核心负载放在云上,现在阿里巴巴最核心的系统放在了云上。现在我们的云把原来专用的技术变成公共云,大家都可以来享受普惠服务。我们有最好的系统,你们也可以在上面跟我们一样使用。

阿里云承载阿里巴巴自己100%的核心系统,这个是我们全球第一个做到的。很多云厂商自己也有业务系统,但是自己的系统不在自己的云上。我们以后所有阿里系统全部都在阿里云的飞天操作系统上面。

大家一定会想,这是一个简单的替换还是技术上非常大的一个进步、非常大的挑战?我简单说一下,我们有几个方面做得非常好,它不是简单的替换,上云之后性能有了一个非常大的提高。

image

今天大家可能有感觉,我们前十分钟,基本上消费者没有感受到任何抖动,大家购物非常顺畅。

第一、我们在核心虚拟机系统上,自研神龙架构,用自研的服务器来做虚拟化。一般的服务器随着压力增长,最终负载能力会慢慢下降,它不是线性的。我们神龙服务器压力越大,输出也是非常线性的,这是非常难做到的。

第二、我们自研了云原生的数据库。今年有两个数据库,一个是自研的OceanBase,大家知道我们在TPC-C测试里面拿下了全球第一。第二是PolarDB,也广泛用在这次双11上,没有任何问题,我们每秒峰值也是远远超越于原来Oracle这样传统的数据库。

image

第三、我们的计算与存储做了分离,现在阿里巴巴存储是有一个地方专门存数据。数据都是从远端存取的,所以存储可以很方便的扩容,因为它有一个专门的池。原来做不到。因为原来远端存储,访问网络速度就跟不上。

第四、之所以现在能够做到在远端存储,能够比本地读写磁盘更快,是因为我们做了RDMA网络,这是全球第一个大规模做RDMA网络的公司。

我们这四个方面都做了核心突破。

今天,飞天操作系统能够在10万台级别以上的服务器里面做调度,今天双11有非常多的应用,但是它并不是说每一个时间点,所有应用负载都是一样的。我们在零点把大部分计算机资源分配给交易等应用,过了一点之后,我们把数据分配给数据处理系统。数据处理今年创了一个新高,2017年当天处理了300PB的数据,2018年处理了600PB的数据,今年要处理970P左右的数据。

大家可能没有概念,一个P到底有多少数据,我上次跟央视的人交流,央视拍了这么多年电视新闻节目,几十年下来他存了大概80P的数据。双11一天,我们要处理970P的数据,非常大的量,没有一个先进的系统是撑不住的。

第二个是非常实时,大家看到了,今天在秒杀,在会场全部都是个性化、千人千面的,这里的数据不仅是大,而且是要做到非常实时。到目前为止,我们菜鸟物流系统已经产生了超过10亿笔的物流单,这个数据还在很快的上涨,这些都需要依靠阿里云背后大量的计算能力。

我们今年的数据,除了批处理之外,还有流处理,就是实时处理所有数据,就像你们看到的交易数据,每分钟、每秒钟都在变,它并不是从数据库里面统计出来的,它是每生成一笔订单,系统自动一层层把数据汇集上来。我们这个系统每秒能处理25亿笔记录,这是流式的系统。

我们这么多服务器,要把它全部管理起来,除了飞天系统之外,还要管理所有的消息流转,所以我们自己开发了一个叫做MQ的消息系统,这也是全球目前最大的一个消息系统。

今天,从飞天系统、大数据处理平台到智能化应用,这些技术叠加起来打造了一个新的分布式的基于云的平台,才使得阿里整个经济体所有核心应用都能够跑在上面。

最后,我们今年发布了自研的芯片含光800。明年双11,阿里大量人工智能应用都会跑在自研芯片上面。

今天从飞天云操作系统到神龙服务器、数据库、交换机、交换机操作系统、RDMA网络,全部是阿里自研的。我们今天已经积累了非常丰富、非常强的能力,从硬件、数据库、云计算操作系统,到上面的核心应用平台,四位一体,这是这次双11跟往年最大不一样的地方。

所有不可想象,终将化作寻常;
我们相信“相信”,一切都是新的。
双11快乐!

原文发布时间为:2019-11-11
本文来自云栖社区合作伙伴“阿里技术”,了解相关信息可以关注“阿里技术”。

相关文章
|
存储 SQL 分布式计算
Fusion Insight大数据平台介绍
1. 概述 华为Fusion Insight是一个分布式数据处理系统,对外提供大容量的数据存储、查询和分析能力。Fusion Insight在Hadoop集群上又封装了一层,类似于开源的CDH,HDP等大数据平台。
5703 0
|
9月前
|
存储 Linux API
【Linux进程概念】—— 操作系统中的“生命体”,计算机里的“多线程”
在计算机系统的底层架构中,操作系统肩负着资源管理与任务调度的重任。当我们启动各类应用程序时,其背后复杂的运作机制便悄然展开。程序,作为静态的指令集合,如何在系统中实现动态执行?本文带你一探究竟!
【Linux进程概念】—— 操作系统中的“生命体”,计算机里的“多线程”
|
8月前
|
存储 Linux iOS开发
【Linux】冯诺依曼体系与操作系统理解
本文深入浅出地讲解了计算机体系的两大核心概念:冯诺依曼体系结构与操作系统。冯诺依曼体系作为现代计算机的基础架构,通过中央处理器、存储器和输入输出设备协同工作,解决了硬件性能瓶颈问题。操作系统则是连接硬件与用户的桥梁,管理软硬件资源,提供运行环境。文章还详细解析了操作系统的分类、意义及管理方式,并重点阐述了系统调用的作用,为学习Linux系统编程打下坚实基础。适合希望深入了解计算机原理和技术内幕的读者。
245 1
|
编解码
Jetson 学习笔记(十四):降低远程操控延时-修改屏幕分辨率
这篇文章是关于如何通过修改屏幕分辨率来降低Jetson Nano在远程操控时的延时。
442 3
Jetson 学习笔记(十四):降低远程操控延时-修改屏幕分辨率
|
8月前
|
运维 API 开发工具
【阿里云】操作系统控制台操作体验与性能评测全解析
操作系统控制台是现代云计算环境中进行系统管理和运维的重要工具,提供系统概览、诊断、观测、管理等功能,支持API、SDK、CLI等管理方式。通过创建角色、系统配置和组件安装等操作,用户可以高效管理云端资源,提升操作系统的使用效率和稳定性。尤其适合需要高效管理操作系统的用户及学习云计算、网络管理的学生。建议增强自定义功能、优化性能报告和完善文档支持,以进一步提升用户体验。
286 21
【阿里云】操作系统控制台操作体验与性能评测全解析
|
8月前
|
存储 弹性计算 安全
阿里云服务器ECS通用型规格族解析:实例规格、性能基准与场景化应用指南
作为ECS产品矩阵中的核心序列,通用型规格族以均衡的计算、内存、网络和存储性能著称,覆盖从基础应用到高性能计算的广泛场景。通用型规格族属于独享型云服务器,实例采用固定CPU调度模式,实例的每个CPU绑定到一个物理CPU超线程,实例间无CPU资源争抢,实例计算性能稳定且有严格的SLA保证,在性能上会更加稳定,高负载情况下也不会出现资源争夺现象。本文将深度解析阿里云ECS通用型规格族的技术架构、实例规格特性、最新价格政策及典型应用场景,为云计算选型提供参考。
|
11月前
|
存储 缓存 网络协议
Linux操作系统的内核优化与性能调优####
本文深入探讨了Linux操作系统内核的优化策略与性能调优方法,旨在为系统管理员和高级用户提供一套实用的指南。通过分析内核参数调整、文件系统选择、内存管理及网络配置等关键方面,本文揭示了如何有效提升Linux系统的稳定性和运行效率。不同于常规摘要仅概述内容的做法,本摘要直接指出文章的核心价值——提供具体可行的优化措施,助力读者实现系统性能的飞跃。 ####
|
人工智能 数据可视化 API
语义分割笔记(一):基于PaddleSeg使用Transfomer模型对航空遥感图像分割
这篇博客介绍了如何使用PaddleSeg和Transformer模型SegFormer B3对航空遥感图像进行语义分割,包括项目背景、数据集处理、训练步骤和代码实现。
1102 1
语义分割笔记(一):基于PaddleSeg使用Transfomer模型对航空遥感图像分割
|
机器学习/深度学习 人工智能 自然语言处理
评测:AI 大模型助力客户对话分析
该评测报告详细介绍了Al大模型在客户对话分析中的应用,涵盖了实践原理、实施方法、部署体验、示例代码及业务适应性。报告指出,该方案利用NLP和机器学习技术,深度解析对话内容,精准识别用户意图,显著提升服务质量与客户体验。实施方法清晰明了,文档详尽,部署体验顺畅,提供了丰富的引导和支持。示例代码实用性强,但在依赖库安装和资源限制方面需注意调整。整体上,该方案能够满足基本对话分析需求,但在特定行业场景中还需进一步定制化开发。