云原生点亮数据上云之路 | 数据库全面进入云原生+分布式时代

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
云原生数据库 PolarDB 分布式版,标准版 2核8GB
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
简介: 随着企业数字协同成为常态,数据类型和计算的复杂性空前增加,AI覆盖的场景越来越丰富,如何用好大数据就显得十分关键。对于企业来讲,数据已经成为一种资产,只有让数据更智能,让数据流动起来,才能够真正地发挥数据的价值。为此,阿里云构建了基于数据生产、存储、分析、计算和应用的一体化平台。下面让我们正式进入阿里云端世界的核心去看一看,开启第二篇章:融和·全栈数据工厂。

数字经济迎来了快速的发展,传统的商业数据库已经难以满足和响应快速变化,持续增长的业务诉求。云原生分布式数据库带来了四大特性,很好的解决了企业用户的核心诉求。利用资源池化,弹性扩展,智能运维、离在线一体化等核心的特性,数据库全面地进入云原生+分布式的时代。本次演讲邀请了阿里巴巴集团副总裁李飞飞(飞刀)为大家分享数据库的前瞻趋势,解读云原生如何点亮数据上云之路。

演讲嘉宾简介:李飞飞(飞刀),阿里巴巴集团副总裁,高级研究员,ACM杰出科学家。
领导云原生数据库PolarDB和云原生数据仓库AnalyticDB等多款自研数据库产品。笃信技术与科研创新的力量,爬山、跑步、野外徒步也是他的爱好。繁忙的工作之外,还特别喜欢阅读自然科学、历史、人文地理和时政。坚持做有兴趣,有passion的事情。

以下内容根据演讲视频以及PPT整理而成。点击观看回放
更多课程请进入数据库大讲堂”了解

本次分享主要围绕以下五个方面:
一、背景介绍
二、云原生分布式数据库PolarDB-X
三、云原生数据仓库AnalyticDB
四、云原生数据湖分析Data Lake Analytics
五、产品实践落地

一、背景介绍

如今数字经济迎来了快速的发展,从在线教育到远程办公,直播购物到传统的政企,各个行业都成为了数字经济的新亮点。企业业务全面向数字化、在线化、智能化演进。企业面临呈指数级递增的海量存储需求和挑战,业务有更多的热点和突发流量,企业又需要降本增效,进行更好的智能化数据决策。传统的商业数据库已经难以满足和响应快速变化,持续增长的业务诉求。数据规模在爆炸式增长,数据在不断地加速上云。

image.png
云原生分布式数据库带来了四大特性,很好的解决了企业用户的核心诉求。利用资源池化,弹性扩展,智能运维、离在线一体化等核心的特性,数据库全面地进入云原生+分布式的时代。那究竟什么是云原生分布式数据库呢?下面来一探究竟。

二、云原生分布式数据库PolarDB-X

1.发布PolarDB-X两大全球企业级功能

云原生就是用Shared Everything和Shared Storage架构实现资源池化,资源解耦,存储计算分离。分布式则是用Shared Nothing架构实现数据水平分片,水平拓展。如果将两者完美的结合在一起,就带来了云原生分布式数据库,将Shared Nothing、Shared Everything和Shared Storage的特性完美地结合在一起,兼具了弹性、高可用、水平拓展的特性。

image.png
今天我非常荣幸的在这里正式发布阿里云自研的云原生分布式数据库PolarDB-X。PolarDB-X是阿里云自主研发,采用Shared Nothing+Shared Everything+Shared Storage架构的云原生分布式数据库,解决超高并发吞吐,海量数据存储下的在线事务型数据库的瓶颈问题。为了更高效地支持在线业务高并发交易,以及在线复杂查询的诉求,今天将发布PolarDB-X两大全球企业级功能,混合负载HTAP和全局二级索引透明分布式。

image.png

功能一:混合负载HTAP

在线数据库既要承载高并发海量实时交易,又需要支持在线业务部分复杂查询分析需求。传统的分布式数据库需要通过ETL方式,将数据异步传输至数据分析平台。在线复杂查询的数据一致性和实时性无法得到严格的保证,数据传输链路运维复杂度高,业务使用成本上升。

利用PolarDB-X的HTAP混合负载特性,同时覆盖高并发实时交易和部分在线数据分析处理的场景,实现高并发交易,在线复杂查询加速一体化。利用智能混合负载技术、数据混合强一致技术、资源链路强隔离技术、和在线分析加速技术,使得在线交易和在线复杂查询的性能大大提升,效率提升至5~10倍以上。

image.png

功能二:全局二级索引透明分布式

同时为了更高效地支持在线业务,PolarDB-X发布了全局二级索引功能,可以支持多维段拆分,提供透明分布式拆分能力,满足业务对不同维度查询拆分的诉求。基于分布式事务确保索引数据与主表数据强一致,数据可靠,不丢失。

全局二级索引能够帮助客户做什么呢?下面通过典型的电商买卖家场景来展示全局二级索引的能力。订单表通常由买家的ID进行拆分,当卖家进行订单查询时,数据库则需要扫描全部物理表,导致数据库资源负载飙高,整体吞吐处理能力下降。通过使用PolarDB-X为卖家ID创建全局二级索引,卖家订单查询仅需查询索引表,以及回表两次查询,即可完成整体的SQL操作。数据库整体处理效率可提升数百倍,实现了透明的分布式。

image.png

2.PolarDB-X应用案例

PolarDB-X支撑天猫“双11”活动,完美抵御全球最美,最高的交易洪峰
PolarDB-X连续多年稳定支撑天猫“双11”活动。在2019年的“双11”,阿里巴巴集团电商核心业务全面采用PolarDB-X,支撑了每秒高达8700次的TPS峰值,每秒55万笔的交易订单。在零点有135倍的业务瞬间增长,完美抵御了全球最美,最高的交易洪峰。

image.png

中国邮政-新一代寄递平台

此外,在很多事关国计民生的社会基础服务背后也有PolarDB-X的身影。中国邮政在国家的物流行业中起着中流砥柱的作用,保障其物流平稳生产的核心信息系统。新一代寄递平台就采用了PolarDB-X,以及云原生数据仓库AnalyticDB。

image.png

中国邮政致力打造我国快递行业的国家队,而新一代寄递平台是保障中国邮政物流平稳生产的核心信息系统。在传统商业型数据库无法有效支撑的情况下,新一代寄递平台基于云原生分布式数据库PolarDB-X构建,能够存储PB级业务数据,抵御千万级并发规模。2019年“双11”订单业务峰值高达1亿以上,收寄量业务峰值超过7千万,投递业务峰值达到3千万,有效支撑了“双11”等业务高峰期的生产数据处理。并在今年保证疫情期间防疫物资的运送方面发挥了重要作用。依托阿里云技术构建的在线业务平台服务了5000多万线上用户,支撑此平台的PolarDB-X数据库已累计了上十亿条业务数据。在云原生数据仓库AnalyticDB(ADB)基础上构建的数据分析平台支撑了数十亿寄递数据,以及与客户关系数据的多维分析。未来,中国邮政还将在云计算体系建设方面积极探索,加强于阿里云的技术合作。

三、云原生数据仓库AnalyticDB

1.数据分析用户痛点

PolarDB-X的新增特性很好地解决了分布式云原生条件下在线事务型业务的痛点。在分析领域其实也面临着类似的问题和挑战。传统的自建分析系统不得不面对计算存储扩展、计算成本、计算分析实时化、以及多种架构等一系列的挑战和问题,这些问题也困扰着很多的企业,无法更好的使用数据分析,发挥数据的价值,促进业务发展。基于前面提到的云原生的理念,从弹性、功能、成本、性能等角度解决上述用户的痛点,包括存储计算独立,按需付费,按量使用,ETL在线分析一体化,实时的增删改查,实时计算等。通过云原生、按需付费、离在线一体化、实时性、实时增删改查,OLAP数据库将全面地进入云原生时代,实现会数据库就会大数据。

image.png

2.阿里云数据产品大图

下图为阿里云数据产品大图,核心产品包括云原生数据仓库AnalyticDB,云原生数据湖分析Data Lake Analytics(DLA)等。通过这些产品的组合,可以很好地满足用户对复杂数据分析场景的各类需求。下层有很多多源异构的数据源,比如RDBMS、对象存储OSS、日志服务、大数据生态等, 数据仓库ADB和数据湖DLA都可以提供多源异构的数据接入能力。

image.png

3.AnalyticDB重磅升级发布

为了让分析计算更简单,更好地满足企业面对突发流量需求,很高兴与大家一起见证AnalyticDB的重磅升级发布。

image.png

ADB MySQL版本

ADB MySQL版本高度兼容MySQL,利用云原生的弹性模式能力,让用户在购买基础资源的基础上按时间段或资源需要拓展其计算资源或存储资源能力,满足用户对差异化资源负载或业务峰值的资源需求。这种云原生的特性推出可以大大降低用户的实际使用和购买成本。避免了用户需要预留大量资源满足业务峰值的挑战。

image.png

ADB PG版本

此外,在ADB PG版本上发布了自研的Laser引擎,新增向量计算引擎,列式内存模型,JIT加速,列式存储优化等手段,较原生引擎大幅度提升性能,例如较Greenplum的原生引擎有了一倍以上的性能提升。ADB PG全面兼容Greenplum,同时高度兼容Oracle,RAC,Teradata等传统数仓,功能丰富,成熟度高,具备离在线一体化的能力,非常适合金融,政企,运营商等使用传统Oracle,RAC,Teradata等数仓用户低门槛升级至云原生数仓。

image.png

4. AnalyticDB刷新TPC-H评测性能榜单

多款重磅发布的新功能和特性极大提升了云原生数仓的能力。在2020年上半年参加了国际标准化组织TPC-H评测,ADB刷新了TPC-H 30TB的性能榜单的世界纪录。相比第二名,微软SQL Server 2019 性能提升290%,成为首个登上榜单的国内厂商。

image.png
针对复杂分析场景的TPC-DS 10TB的权威基准测试,ADB在性能指标上刷新了世界纪录,荣登榜单第一名。在测试过程中,充分利用了云原生的弹性、快速扩容和计算加速的能力,在有限资源下实现了性能、性价比双料第一,领先第二名三倍以上。
image.png

四、云原生数据湖分析Data Lake Analytics

1. 云原生Serverless 技术

此次,还有重磅升级的云原生数据湖分析Data Lake Analytics(DLA)。利用云原生Serverless技术,DLA可以提供例如Serverless Spark能力,支持ETL、流、机器学习、用户可编程等一系列丰富的企业级功能。云原生Serverless架构有效地降低了企业数据分析和计算的成本,性能较自建的分析系统,例如Spark提升了300%以上,可实现一分钟弹出300个节点。通过Serverless方式大大降低使用成本,同时辅助UI和诊断工具,提供多种异构数据的访问方式,提供多源异构数据湖的易用性。

image.png

五、产品实践落地

1.ADB及DLA产品落地

云原生数据仓库ADB和数据湖分析DLA已经在国内多个用户落地,覆盖从金融、制造、零售、航空、物流、政务等多个头部企业,包括中国南方航空、中国邮政、海尔、美的、以及大众点评等泛互联网客户。助力特步核心报表从分钟级响应到秒级响应,提速80%。在大众点评的点评微生活场景下,ADB助力报表秒级返回,数据魔方提速40倍,有效地实现了企业降本增效,数据分析离在线一体化的目标。

image.png

2.助力企业上云:万仓计划&升舱计划

为了助力企业上云,设计和推出了两个计划,万仓计划和升舱计划,结合阿里云数据平台和合作伙伴一起助力传统企业实现从传统数仓到云原生数仓的升级。一切业务在线化是数字化创新,数字化转型的本质,数据库又是数字化创新和数字化转型的重要一环。阿里云自研的云原生分布式数据库已经深入各行各业,现在已经在全球领先的运营商(中国移动)核心业务系统中试点,具有里程碑式的标杆意义。

image.png

3.中国移动广东公司试点

中国移动广东公司是目前国内信息通信行业中规模最大的省级公司,为上亿个人客户和上百万企业用户提供服务。传统数据库在存储计算瓶颈、备份效率、资源利用率等方面面临诸多挑战。运营商的业务场景与互联网业务更为复杂,需要数据库系统之间具备更好的兼容能力,以目前广东移动和阿里云试点的广州库业务支撑系统为例,其承载了2000多万的用户规模,单库容量约40T,日访问量几十亿,峰值连接数达到12000个。

image.png
中国移动广东公司与阿里云技术团队一起进行深入的技术探讨以及上层应用的迭代更新,PolarDB作为云原生数据库采用存储和计算分离的架构,所有计算节点共享一份数据,提供分钟级的配置升降级,秒级的故障恢复,全局数据一致性和高效的数据备份容灾能力,既融和了稳定、可靠、高性能、可扩展的特征,又具有开源云数据库简单、开放、自我迭代的优势,非常符合中国移动广东公司对于数据库的要求。目前,PolarDB数据库已经完成部分试点地市数据迁移和业务上线,后续中国移动广东公司非常有信心与阿里云一起在更多的核心业务场景探索创新,以更好的网络服务更多的客户。

4.进入云原生分布式数据库+云原生分布式数据仓库的时代

通信行业一直是传统商业数据库的优势领域,本次的业务落地和试点,充分体现了阿里云阿里云原生分布式数据库的产品能力,已经得到了传统行业客户,以及泛互联网企业客户的高度认可。我们已经进入了从传统OLTP在线事务库和+OLAP在线分析库全面升级至云原生分布式数据库,云原生分布式数据仓库的时代。

image.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
15天前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
在9月20日2024云栖大会上,阿里云智能集团副总裁,数据库产品事业部负责人,ACM、CCF、IEEE会士(Fellow)李飞飞发表《从数据到智能:Data+AI驱动的云原生数据库》主题演讲。他表示,数据是生成式AI的核心资产,大模型时代的数据管理系统需具备多模处理和实时分析能力。阿里云瑶池将数据+AI全面融合,构建一站式多模数据管理平台,以数据驱动决策与创新,为用户提供像“搭积木”一样易用、好用、高可用的使用体验。
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
|
28天前
|
SQL 关系型数据库 MySQL
乐观锁在分布式数据库中如何与事务隔离级别结合使用
乐观锁在分布式数据库中如何与事务隔离级别结合使用
|
9天前
|
关系型数据库 分布式数据库 数据库
PostgreSQL+Citus分布式数据库
PostgreSQL+Citus分布式数据库
39 15
|
16天前
|
存储 缓存 算法
分布式缓存有哪些常用的数据分片算法?
【10月更文挑战第25天】在实际应用中,需要根据具体的业务需求、数据特征以及系统的可扩展性要求等因素综合考虑,选择合适的数据分片算法,以实现分布式缓存的高效运行和数据的合理分布。
|
23天前
|
JSON 分布式计算 前端开发
前端的全栈之路Meteor篇(七):轻量的NoSql分布式数据协议同步协议DDP深度剖析
本文深入探讨了DDP(Distributed Data Protocol)协议,这是一种在Meteor框架中广泛使用的发布/订阅协议,支持实时数据同步。文章详细介绍了DDP的主要特点、消息类型、协议流程及其在Meteor中的应用,包括实时数据同步、用户界面响应、分布式计算、多客户端协作和离线支持等。通过学习DDP,开发者可以构建响应迅速、适应性强的现代Web应用。
|
1月前
|
SQL 关系型数据库 分布式数据库
Citus 简介,将 Postgres 转换为分布式数据库
【10月更文挑战第4天】Citus 简介,将 Postgres 转换为分布式数据库
83 4
|
1月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
阿里云瑶池在2024云栖大会上重磅发布由Data+AI驱动的多模数据管理平台DMS:OneMeta+OneOps,通过统一、开放、多模的元数据服务实现跨环境、跨引擎、跨实例的统一治理,可支持高达40+种数据源,实现自建、他云数据源的无缝对接,助力业务决策效率提升10倍。
|
30天前
|
SQL NoSQL MongoDB
一款基于分布式文件存储的数据库MongoDB的介绍及基本使用教程
一款基于分布式文件存储的数据库MongoDB的介绍及基本使用教程
41 0
|
2月前
|
存储 人工智能 Cloud Native
云栖重磅|从数据到智能:Data+AI驱动的云原生数据库
阿里云数据库重磅升级!元数据服务OneMeta + OneOps统一管理多模态数据
|
3月前
|
C# UED 定位技术
WPF控件大全:初学者必读,掌握控件使用技巧,让你的应用程序更上一层楼!
【8月更文挑战第31天】在WPF应用程序开发中,控件是实现用户界面交互的关键元素。WPF提供了丰富的控件库,包括基础控件(如`Button`、`TextBox`)、布局控件(如`StackPanel`、`Grid`)、数据绑定控件(如`ListBox`、`DataGrid`)等。本文将介绍这些控件的基本分类及使用技巧,并通过示例代码展示如何在项目中应用。合理选择控件并利用布局控件和数据绑定功能,可以提升用户体验和程序性能。
65 0