阿里云自研数据仓库 AnalyticDB 再捧 TPC 全球冠军

本文涉及的产品
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介: 5月14日,TPC 官网正式公布,阿里云自研的 AnalyticDB 通过了TPC-DS全流程测试,将前世界纪录的性能提升了29%,并把单位成本降低了三分之二,成功夺得全球数据仓库的桂冠。

云栖号资讯:【点击查看更多行业资讯
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!

image

5月14日,TPC 官网正式公布,阿里云自研的 AnalyticDB 通过了TPC-DS全流程测试,将前世界纪录的性能提升了29%,并把单位成本降低了三分之二,成功夺得全球数据仓库的桂冠。

image

云市场“只见新人笑、不见老牌哭”。

目前业界普遍认为容器、物联网、数据库和数仓会是云计算未来四大增长技术。尤其是物联网将带来的30倍于目前互联网的流量,将会促使业界从传统的 Big Data 向 Fast Data 的演进历史。

据最新预测数据,到 2025 年企业 50% 的数据是云存储,企业 75% 的数据库运行在云上。可以说一个性能强大的数仓产品,已经成为云服务商的必选项了。

据Gartner最新数据,亚马逊、微软、阿里巴巴三家云计算巨头之间激战正酣。赢者通吃,是云计算市场真实的写照。相信本次AnalyticDB的表现,对于阿里云继续扩大市场份额,有一些推动作用。

image

1 初识数据仓库

数据仓库是由比尔•恩门(Bill Inmon)教授在1990年提出,在概念提出伊始,主要功能是将通过联机事务处理(OLTP)所产生大量数据,透过数据仓库理论的资料储存架构,进行数据的分析整理,进而支持如决策支持系统(DSS)、主管资讯系统(EIS)的创建,帮助用户在快速有效的大量数据中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。与传统的数据库相比数据仓库的不同之处有以下几点:

1、数据仓库是面向主题。操作型数据库的数据组织面向事务处理任务,数据仓库中的数据是按照一定的主题域进行组织。主题是指用户使用数据仓库进行决策时所关心的重点方面,一个主题通常与多个操作型信息系统相关。

2、数据仓库的数据是其它数据源抽取而来。数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合后才能进入数据仓库。数仓中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。

3、数据仓库是不可更新的。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦数据被修改,其实就涉嫌数据造假,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,修改和删除操作,通常只是定期的加载、刷新。

TP数据库是面向事务处理的,所谓事务其实就是交易各个状态之间的迁移与记录,因此TP库各个业务系统之间各自分离。AP数仓中的则是按照一定的主题域进行组织的。主题是与TP数据库的面向应用相对应的,是一个抽象概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象。每一个主题对应一个宏观的分析领域。可以说处理任务的不同是TP数据库与AP数仓之间的本质区别。

2 数据仓库的江湖慢是“原罪”

在这个Fast Data的时代,谁的数仓能先跑出结果,谁就能掌握先机。比如目前笔者所在银行业的核心系统一般都用Oracle数据库,来进行交易处理(TP),完成整个流程性应用的内容,并产生应用数据数据。等交易结束了,数据的生命周期也结束了。要想把数据价值做二次表达,要每天做ETL,跑批作业,存到数据仓库中,然后在数据仓库中建模、挖掘、数据集市、ODS,一层一层地构建起数据仓库报表。

这时可能一些更细节、隐含的问题,比如非线性问题还是回答不了,那么就要把数据复制到SAS中做机器学习,再做统计的指标体系,去做进一步的挖掘。数据要在这里搬动三次,复制三份冗余,还要管理数据一致性,每天数据中心运维的大量工作在做数据搬家。而所以分析处理(AP)操作结束往往都已经是T+1日的下午了,这样的效率是无法满足云时代快速展示的竞争要求。

因此云时代的数据中心急需要一款融合性的计算框架,AnalyticDB所带来的极致速度,堪称云时代计算框架的典范。在Forrester发布《The Forrester Wave: Cloud Data Warehouse》研究报告中,阿里云入选强劲表现者象限,位列中国厂商中的第一。

image

3 AnalyticDB的速度之源

在翻阅了AnalyticDB的论文(https://dl.acm.org/doi/10.14778/3352063.3352124)之后,笔者ADB最大的亮点在于其基于 Raft 协议构建了一套分布式强一致高可靠的轻量级存储。ADB存储可实现高吞吐实时写入,在实时写入强一致可见、支持 ACID ,特别极致分析性能场景,在SQL 分析性能上有较大优势。AnalyticDB 存储整体架构如下:

image

目前在一致性算法领域几乎是Paxos的天下,如阿里的金融级分布式数据库OceanBase是使用Paxos算法来保证节点一致性的,详见《200行代码解读国产数据库阿里在OceanBase的速度头源》。本次ADB使用RAFT协议做为其自研存储的一致性算法,则给业界带来了一股清新的气息。

一个最小化的Raft集群,典型节点数量是5个,这样的配置可以同时容忍两台服务器出现故障。服务器可能会处于如下三种角色:leader、candidate、follower,正常运行的情况下,会有一个leader,其他全为follower,follower只会响应leader和candidate的请求,客户端的请求则全部由leader处理,即使有客户端请求了一个follower也会将请求重定向到leader。candidate代表候选人,出现在选举leader阶段,选举成功后candidate将会成为新的leader。可能出现的状态转换关系如下图:

image

可以看到,在RAFT集群刚启动时,所有节点都是follower,之后在time out信号的驱使下,follower会转变成candidate去拉取选票,获得大多数选票后就会成为leader,这时候如果其他候选人发现了新的leader已经诞生,就会自动转变为follower;而如果另一个time out信号发出时,将会重新开始一次新的选举。

不光是自研存储,ADB在高性能批量导入、高吞吐实时更新 DML、行列混存和智能索引等方面也有很多创新点,后续有机会笔者再详细向大家介绍。

【云栖号在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.aliyun.com/live

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-05-13
本文作者:马超
本文来自:“CSDN”,了解相关信息可以关注“CSDN

相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
1月前
|
人工智能 自然语言处理 关系型数据库
阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成
近日,阿里云云原生数据仓库 AnalyticDB PostgreSQL 版已完成和开源LLMOps平台Dify官方集成。
|
25天前
|
存储 小程序 Apache
10月26日@杭州,飞轮科技 x 阿里云举办 Apache Doris Meetup,探索保险、游戏、制造及电信领域数据仓库建设实践
10月26日,由飞轮科技与阿里云联手发起的 Apache Doris 杭州站 Meetup 即将开启!
53 0
|
4月前
|
存储 数据挖掘 BI
数据仓库深度解析与实时数仓应用案例探析
随着数据量的不断增长和数据应用的广泛深入,数据治理和隐私保护将成为数据仓库建设的重要议题。企业需要建立完善的数据治理体系,确保数据的准确性、一致性和完整性;同时加强隐私保护机制建设,确保敏感数据的安全性和合规性。
497 55
|
3月前
|
消息中间件 存储 大数据
大数据-数据仓库-实时数仓架构分析
大数据-数据仓库-实时数仓架构分析
130 1
|
4月前
|
存储 消息中间件 数据挖掘
数据仓库的深度探索与实时数仓应用案例解析
大数据技术的发展,使得数据仓库能够支持大量和复杂数据类型(如文本、图像、视频、音频等)。数据湖作为一种新的数据存储架构,强调原始数据的全面保留和灵活访问,与数据仓库形成互补,共同支持企业的数据分析需求。
|
5月前
|
Cloud Native 关系型数据库 MySQL
《阿里云产品四月刊》—云原生数据仓库 AnalyticDB MySQL 版 新功能
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
100 3
|
3月前
|
存储 缓存 Cloud Native
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
MPP架构数据仓库使用问题之ADB PG云原生版本的扩缩容性能怎么样
|
4月前
|
SQL Cloud Native 关系型数据库
云原生数据仓库使用问题之分组优化如何实现
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
4月前
|
Cloud Native 关系型数据库 OLAP
云原生数据仓库操作报错合集之遇到“table does not exist”错误,该怎么办
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。
|
4月前
|
SQL Cloud Native 关系型数据库
云原生数据仓库操作报错合集之遇到报错“DDL forbidden because backupTask is doing snapshot”如何处理
阿里云AnalyticDB提供了全面的数据导入、查询分析、数据管理、运维监控等功能,并通过扩展功能支持与AI平台集成、跨地域复制与联邦查询等高级应用场景,为企业构建实时、高效、可扩展的数据仓库解决方案。以下是对AnalyticDB产品使用合集的概述,包括数据导入、查询分析、数据管理、运维监控、扩展功能等方面。

热门文章

最新文章

下一篇
无影云桌面