阿里10年分布式技术沉淀:阿里高可用体系核心缔造者、全链路压测创始人告诉你!

本文涉及的产品
云原生数据库 PolarDB 分布式版,标准版 2核8GB
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
RDS MySQL Serverless 高可用系列,价值2615元额度,1个月
简介: 7月27日,云栖社区、阿里中间件将举办首届阿里巴巴中间件技术峰会,揭秘阿里10年分布式技术干货。本次活动看点十足,大咖齐聚、纯正干货,本文给大家做下详解介绍,相信看后定会让你动心!

7月27日,云栖社区、阿里中间件将举办首届阿里巴巴中间件技术峰会,揭秘阿里10年分布式技术干货。目前活动官网已上线:https://yq.aliyun.com/promotion/262点击报名

本次活动看点十足,大咖齐聚、纯正干货,下面给大家做下详解介绍,相信看后定会让你动心!


议题详情

  • 双11核武器全链路压测——张军 / 阿里巴巴中间件高级技术专家
阿里巴巴双11备战期间,保障系统稳定性最大的难题在于容量规划,而容量规划最大的难题在于准确评估从用户登录到完成购买的整个链条中,核心页面和交易支付的实际承载能力。全链路压测的诞生改变了这一现状,通过对双11进行模拟,支持线上不影响正常用户访问的集群读写压测,获得最真实的线上承载能力数据。全链路压测开启了大促稳定性保障的新纪元,被誉为备战核武器。

听众收益:

  1. 阿里为什么要做全链路压测,全链路压测解决什么问题;
  2. 全链路压测的核心流程和实现机制;
  3. 全链路压测给双11系统稳定性带来的改变和价值;
  • AliSQL:引领开源技术变革之路——何登成 / 阿里巴巴数据库资深技术专家
AliSQL,阿里巴巴的开源MySQL分支,从2010年开始研发,至今已经走过了7个年头,成功支持了历年阿里双11购物狂欢节、蚂蚁新春红包的大促活动。在阿里巴巴业务飞速发展的驱动下,相对于开源MySQL,AliSQL在性能优化、功能增强、可运维性提升等方面都做了大量改进。2016年我们在Percona Live上完成分享后,Percona首席布道师Colin Charles听完后大加赞赏。而从2016年初开始,AliSQL的发展在原有基础上更进一步,一举推出了多个创新性的产品和功能:高性能访问接口X-KV,高性能可全球化部署的AliSQL多副本强一致集群X-Cluster,融合了RocksDB存储引擎的AliSQL(RocksDB)等等。
听众收益:
  1. 简单总结分享AliSQL从2010年到2015年这段时间的性能优化、功能增强和可运维性提升
  2. 重点分享AliSQL在最近两年的技术和产品突破:X-KV、X-Cluster、AliSQL(RocksDB)。分享我们为什么会做X-KV接口?我们在技术上做了什么,使得X-Cluster相对于MySQL官方的Group Replication有着近5倍的性能提升?等
  3. 总结我们的分享,简单探讨阿里数据库未来发展的一些规划。
  • 阿里巴巴海量数据场景下的OLAP解决方案——焦方飞 / 阿里巴巴中间件技术专家
针对阿里巴巴集团海量数据环境下准实时多维ad-hoc查询以及存储成本高的问题,中间件团队研发了两款数据库产品:
  1. HiStore(高性能OLAP列式存储数据库):作为阿里巴巴集团规模最大的OLAP列式存储数据库,是一款分布式低成本分析型OLAP数据库产品, 它基于独特的知识网格技术,有效的解决了海量数据存储的成本问题,以及在百亿数据场景下支持实时高效的多维度ad-hoc查询。HiStore在阿里内部已经应用于多个核心应用,也应用于很多外部用户,场景包括数据仓库、商业智能、用户画像、报表分析、物联网等等,无论成本、性能、稳定性都表现完美。
  2. HiTSDB(时间序列数据库):是一种高性能、低成本、稳定可靠的在线时序数据库服务。HiTSDB 广泛应用于物联网、工业制造、电力、化工以及IT运维等行业海量设备数据实时运行监测、趋势展现分析、故障诊断、业务预研等场景。HiTSDB 提供百万级时序数据别秒级写入、高压缩比低成本存储、预降精度、插值、多维聚合计算、查询结果可视化等功能,解决由于设备采集点数量巨大、数据采集频率高,造成的存储成本高、写入和查询分析效率低的问题。
听众收益:
1.如果你对海量数据OLAP领域感兴趣,并希望需求在数据仓库、商业智能、用户画像、报表分析、物联网等领域寻找高效的存储解决方案,而且对海量数据下的存储成本感到头痛,HiStore将会使你受益匪浅。
2.如果你对时间序列数据领域感兴趣,并且对监控领域、IoT物联网等领域的metrics指标、海量设备数据等与时间相关的数据存储和高效分析感兴趣,那HiTSDB将是你不二的选择。
  • 双11高可用架构演进之路——周洋 / 阿里巴巴中间件技术专家
阿里从09年开始做双11,日交易额从09年的5.9亿涨到15年的912亿,订单创建峰值从400涨到14万每秒,规模增长上百倍,系统的复杂度更是以指数级攀升,面对业界前所未有的挑战,技术团队走上了自主创新的道路,建设了大量高可用性技术产品,经历了几个阶段的技术架构演进。

听众收益:
1.阿里历届双11的技术架构演进。
2.高可用技术产品发展之路。
3.双11保障的最佳实践。

  • 万亿级数据洪峰下的消息引擎——冯嘉 / 阿里巴巴中间件架构师
2016年,阿里巴巴将自主研发的第三代分布式消息引擎RocketMQ捐赠给Apache软件基金会。作为近些年双十一大促核心基础产品,它的架构演进是怎么样的?面对双十一万亿级洪峰,它是如何保证稳定性和可用性的,都有哪些借鉴思想?面对分布式经典问题 - 慢请求,它是如何做到99.996%的延迟落在了10ms以内,而99.6%的延迟在1ms以内的?进入Apache后,我们是如何发展社区的,下一代消息规划是什么样的?本次分享将为大家带来分布式消息引擎在存储上的低延迟优化分享,高吞吐的性能优化以及Apache社区发展动态。

听众收益:
1.了解双十一海量分布式消息引擎背后的设计哲学。

  1. 了解万亿级数据洪峰下分布式系统的高可靠,高可用建设之道。
  2. 了解Apache RocketMQ的发展规划、生态建设,下一代消息规范演进等。
  • 微服务架构上云的最佳实践——李颜良 / 阿里巴巴中间件技术专家
EDAS 诞生两年多以来,接触了上千的客户;在帮助传统企业向互联网转型的过程中,积累了大量微服务实践的经验;在我们接触的研发团队中,有一些问题是由于开发环境或者开发模式的转变而带来的。
这一次分享围绕着微服务上云的场景,跟大家分享几个典型的案例;跟大家探讨如何避免类似的场景在自身的研发团队中发生。

听众收益:

  1. 如果您是涉足微服务领域不太久的同学,通过这次分享可以解开部分疑惑如:如何对服务进行重构、拆分。
  2. 如果您的服务即将上云,这次分享会告诉您服务上云时一些典型的容易踩到的坑。
  3. 如果您是微服务领域的老司机,这次分享的案例或许能让你有种似曾相似的感觉
  • 分布式数据库:从线性扩展谈分布式JOIN——孙梦石 / 阿里巴巴数据库技术专家
分布式JOIN,在分布式数据库中是一个很常见的需求,但分布式JOIN绝非只是一个词,他有很多的策略、很多的变种。那么如何评价一个分布式JOIN是否适合去做,是大家学习DRDS等分布式数据库一个重要的课题。
我们会从使用DRDS等分布式数据库的最原始的初衷,实现系统的线性扩展说起,来为大家分析分布式JOIN到底是怎么一回事。

听众能够了解到以下为:
1.什么样的分布式数据库设计,才能做到线性扩展;
2.分布式JOIN是怎么一回事,有哪些种类,适合什么场景;
3.与分布式JOIN非常相关的一个东西,分布式索引应该如何设计。

  • 阿里电商架构演变之路——谢吉宝 / 阿里巴巴中间件高级技术专家
阿里巴巴是全球规模最大的电子商务平台,也是国内互联网业界最早实践SOA理念的公司之一。依托于其所带来的巨大流量和海量数据,以及对于电子商务平台固有的稳定性要求,使得团队有机会去面对一个又一个技术难题,创造一个又一个技术奇迹。从一个初创型业务,到一个高速发展型业务,再到一整个生态体系。阿里的技术体系架构经历了无数严酷的考验:去IOE,双11,异地容灾。在这个topic中,让我们一起温故知新,看看阿里电商架构演变历程。

听众受益:

  1. 了解阿里巴巴核心架构的演变历程;
  2. 了解阿里中间件的发展历程;

嘉宾简介

TB169syRVXXXXcxaXXXXXXXXXXX-365-365.png


焦方飞,阿里巴巴中间件技术专家,9年技术开发和系统架构经验,2014年加入阿里巴巴中间件团队,从事分布式服务框架、分布式链路跟踪系统的研发和架构演进工作,多次参与双11关键服务的保障工作,随后从事OLAP数据库领域的研发和推广工作,从无到有见证了阿里巴巴海量数据OLAP场景下以及时序数据场景下新产品的诞生和成功,完美的解决了集团海量数据存储成本高、查询性能不足的问题。

TB1aoRXSXXXXXcFXXXXXXXXXXXX-227-227.png


李颜良,阿里巴巴中间件技术专家,EDAS团队技术专家,近十年的软件开发经验,先后参与过外企、中大型互联网企业团队、创业团队的研发,在服务化领域积累了大量的实战经验;目前参与企业级分布式应用服务 EDAS 的核心研发,致力将 EDAS 打造为微服务领域的超级 PaaS 平台。

TB1N8lkSXXXXXXSXXXXXXXXXXXX-500-500.png


周洋,阿里巴巴中间件技术专家,8年技术研发和架构经验,全程参与阿里高可用体系的建设和演进,主导了阿里巴巴强弱依赖治理、灰度发布、线上故障演练等多款高可用产品的研发和落地。深度参与大促、常态稳定性保障工作,积累丰富架构和稳定性经验。2015 年作为共享事业部的大促PM,负责大促和常态稳定性的保障工作。目前主要工作在高可用产品体系云化输出和集团常态化稳定性保障方面。

TB1Vu7RRVXXXXcaXFXXXXXXXXXX-315-315.jpg


孙梦石,阿里巴巴数据库技术专家,分布式关系型数据库服务DRDS与TDDL负责人,从0开始设计并开发了分布式数据库DRDS,在分布式系统架构设计、分布式数据库使用及优化,都有很多的经验。参与淘宝每年的双十一,成功支持虾米、优酷等子公司使用DRDS,融入阿里技术体系,支持云上众多用户实现数据库的线性扩展。

TB1.UIVRVXXXXaZXFXXXXXXXXXX-300-300.jpg


谢吉宝,阿里巴巴中间件高级技术专家,2010年加入阿里巴巴集团,10余年技术研发和系统架构经验。2012年加入中间件技术部高可用架构团队,一直从事高可用建设相关工作,主导设计了灰度发布系统、共享服务化平台、中间件运维平台、建站平台以及异地多活的架构演进。见证了阿里巴巴的高可用产品体系从1.0到3.0的整个发展历程,积累了丰富的架构和稳定性经验,多次参与双11负责稳定性保障工作,目前负责阿里异地多活和同城双活的高可用体系建设和中间件的DevOps。

TB1LiM7RVXXXXaTXpXXXXXXXXXX-300-300.jpg


张军,阿里巴巴中间件高级技术专家,阿里高可用体系核心缔造者,全链路压测创始人,具备多年的大型ERP软件、金融领域和电商领域的高可用架构经验,11年加入阿里巴巴中间件&高可用架构团队,在高可用领域积累了丰富的实战经验。领导设计和建设了阿里的容量规划体系、全链路压测体系、限流降级体系、开关预案体系、流量调度体系等众多高可用架构基础设施,成为阿里双11大促备战必不可少的核心利器,为阿里数十个业务单元,上千个系统提供高可用的基础技术支撑。

TB1phIURVXXXXbaXFXXXXXXXXXX-500-500.jpg


何登成,
资深数据库内核研发专家,从04年开始从事数据库内核研发达10+年以上。先后参与并主导过国产神舟Oscar数据库,网易自研存储引擎NTSE/TNT等数据库产品的研发。同时也作为数据库总负责人参与了多年阿里巴巴双11购物狂欢节,蚂蚁新春红包的备战保障工作。有着丰富的数据库内核研发经验和数据库应用架构经验。目前为阿里巴巴数据库内核研发团队负责人,主导AliSQL的产品研发(AliSQL:开源MySQL的阿里分支)以及下一代数据库系统的规划和研发工作。工作之余,喜欢通过微博平台(微博账号:何_登成)跟大家交流探讨数据库技术以及高性能、分布式、软硬件结合等技术。

相关文章
|
1月前
|
负载均衡 测试技术 调度
大模型分布式推理:张量并行与流水线并行技术
本文深入探讨大语言模型分布式推理的核心技术——张量并行与流水线并行。通过分析单GPU内存限制下的模型部署挑战,详细解析张量并行的矩阵分片策略、流水线并行的阶段划分机制,以及二者的混合并行架构。文章包含完整的分布式推理框架实现、通信优化策略和性能调优指南,为千亿参数大模型的分布式部署提供全面解决方案。
476 4
|
2月前
|
消息中间件 监控 Java
Apache Kafka 分布式流处理平台技术详解与实践指南
本文档全面介绍 Apache Kafka 分布式流处理平台的核心概念、架构设计和实践应用。作为高吞吐量、低延迟的分布式消息系统,Kafka 已成为现代数据管道和流处理应用的事实标准。本文将深入探讨其生产者-消费者模型、主题分区机制、副本复制、流处理API等核心机制,帮助开发者构建可靠、可扩展的实时数据流处理系统。
343 4
|
1月前
|
机器学习/深度学习 监控 PyTorch
68_分布式训练技术:DDP与Horovod
随着大型语言模型(LLM)规模的不断扩大,从早期的BERT(数亿参数)到如今的GPT-4(万亿级参数),单卡训练已经成为不可能完成的任务。分布式训练技术应运而生,成为大模型开发的核心基础设施。2025年,分布式训练技术已经发展到相当成熟的阶段,各种优化策略和框架不断涌现,为大模型训练提供了强大的支持。
|
8月前
|
Cloud Native 关系型数据库 分布式数据库
登顶TPC-C|云原生数据库PolarDB技术揭秘:Limitless集群和分布式扩展篇
阿里云PolarDB云原生数据库在TPC-C基准测试中以20.55亿tpmC的成绩刷新世界纪录,展现卓越性能与性价比。其轻量版满足国产化需求,兼具高性能与低成本,适用于多种场景,推动数据库技术革新与发展。
|
2月前
|
JSON 监控 Java
Elasticsearch 分布式搜索与分析引擎技术详解与实践指南
本文档全面介绍 Elasticsearch 分布式搜索与分析引擎的核心概念、架构设计和实践应用。作为基于 Lucene 的分布式搜索引擎,Elasticsearch 提供了近实时的搜索能力、强大的数据分析功能和可扩展的分布式架构。本文将深入探讨其索引机制、查询 DSL、集群管理、性能优化以及与各种应用场景的集成,帮助开发者构建高性能的搜索和分析系统。
286 0
|
6月前
|
监控 Linux 应用服务中间件
Linux多节点多硬盘部署MinIO:分布式MinIO集群部署指南搭建高可用架构实践
通过以上步骤,已成功基于已有的 MinIO 服务,扩展为一个 MinIO 集群。该集群具有高可用性和容错性,适合生产环境使用。如果有任何问题,请检查日志或参考MinIO 官方文档。作者联系方式vx:2743642415。
2201 57
|
6月前
|
安全 JavaScript 前端开发
HarmonyOS NEXT~HarmonyOS 语言仓颉:下一代分布式开发语言的技术解析与应用实践
HarmonyOS语言仓颉是华为专为HarmonyOS生态系统设计的新型编程语言,旨在解决分布式环境下的开发挑战。它以“编码创造”为理念,具备分布式原生、高性能与高效率、安全可靠三大核心特性。仓颉语言通过内置分布式能力简化跨设备开发,提供统一的编程模型和开发体验。文章从语言基础、关键特性、开发实践及未来展望四个方面剖析其技术优势,助力开发者掌握这一新兴工具,构建全场景分布式应用。
688 35
|
7月前
|
Cloud Native 关系型数据库 分布式数据库
登顶TPC-C|云原生数据库PolarDB技术揭秘:Limitless集群和分布式扩展篇
云原生数据库PolarDB技术揭秘:Limitless集群和分布式扩展篇
|
9月前
|
机器学习/深度学习 存储
DeepSeek进阶开发与应用4:DeepSeek中的分布式训练技术
随着深度学习模型和数据集规模的扩大,单机训练已无法满足需求,分布式训练技术应运而生。DeepSeek框架支持数据并行和模型并行两种模式,通过将计算任务分配到多个节点上并行执行,显著提高训练效率。本文介绍DeepSeek中的分布式训练技术,包括配置与启动方法,帮助用户轻松实现大规模模型训练。数据并行通过`MirroredStrategy`同步梯度,适用于大多数模型;模型并行则通过`ParameterServerStrategy`异步处理大模型。DeepSeek简化了分布式环境配置,支持单机多卡和多机多卡等场景。
|
11月前
|
存储 缓存 负载均衡
从零到一:分布式缓存技术初探
分布式缓存通过将数据存储在多个节点上,利用负载均衡算法提高访问速度、降低数据库负载并增强系统可用性。常见产品有Redis、Memcached等。其优势包括性能扩展、高可用性、负载均衡和容错性,适用于页面缓存、应用对象缓存、状态缓存、并行处理、事件处理及极限事务处理等多种场景。
676 1