4种提高多维数据分析的方法

本文涉及的产品
云原生数据仓库AnalyticDB MySQL版,基础版 8ACU 100GB 1个月
简介:

【51CTO.com快译】联机分析处理(OLAP)需要有即时的响应,因此其性能是至关重要的。虽然其结构较为简单,但是在处理各种大的数据立方体(data cubes)时,会涉及到大量的计算。

常被称为OLAP(联机分析处理)的多维分析是一种交互式的数据分析过程,它包括:对于数据立方体(data cube)进行旋转(rotation)、切片与切块(slice and dice)、钻取(drill-down)等执行操作。其后端的计算结构较为简单,如下列SQL语句所示。


 
 
  1. SELECT D,..., SUM(M), ... FROM C WHERE D'=d' AND ... GROUP BY D,... 

该语句通过多个维度(dimension)聚合了各种量度(measure)。其中C是一个数据立方体,D,…表示所选的维度,而M,…则代表用于聚合的各个量度。除了SUM,我们也可以使用其他的聚合函数。D'是一个切片维度。切块操作的范围标准,用语句D IN (d,...)来表示。我们还可以在量度中定义一个规则,用WHERE语句来选择一定范围内的值。

OLAP分析需要即时的响应,因此高性能是至关重要的。尽管该语句的结构较为简单,但是当我们处理各种大的数据立方体时,则可能会涉及到大量的计算。而在我们能够找到一种优化它们的方法之前,其分析过程一般比较缓慢的。以下我们列出了几种能够为多维分析提高后端性能的常见方法。

1. 预聚合(Pre-Aggregation)

早期的OLAP产品通常会采用预聚合作为一种有效地交换存储开销的方法。该方法通过一些或者所有的维度(在GROUP BY语句中被定义),预先计算聚合的值(在SELECT查询的各种量度中被定义),并且存储它们。这些中间结果可以直接被后期的计算所使用到,或是产生一些新的计算。通过这种方式,性能方面能够大幅地提升。

这些聚合的结果会占用大量的空间。通常情况下,可能会有几十个维度,而每个维度值的范围则从一位数到两位数不等。简单的数学运算表明:预聚合的结果将比原始数据立方体大几倍到几十倍(也就是说:如果考虑到各种类型的聚合函数的话,其比例为(k1+1)*(k2+1)*...到k1*k2*...)。尽管数据立方体不会因为太大而无法获得即时地响应,但是这个增大几十倍的数据量还是不可能实现的。

有一个折中的方法是仅计算其中一些维度的聚合值。因为只有少数的分组维度(在GROUP BY语句中被定义)会被显示在OLAP的接口中,所以我们能够以m的维度来执行聚合。如果m的值不大于5,则存储的开销将在一个合理的范围内,而大部分的用户操作也将能得到快速地响应。

当然,部分聚合是不能使用其他维度的切片标准来处理的。然而,钻取却正好是基于切片的。这就糟糕地导致了:即使是那些对于多维分析来说并非少见的且广泛使用的聚合,也无法使用同一个量度来处理某个切片标准(比如说,要获得超过¥1000的销售额)。因此,一个聚合函数很可能仅仅包含一个标准(比如说,只是低于¥100的总成本)。可见,预聚合的结果对于所有这些场景都是无用的。

预聚合只能处理一些最为常见的场景,而这些只在所有类型的多维分析场景中占有一小部分。而全量遍历(full traversal)则仍然在大多数的场景中被用到。

2. 基于段的并行处理(Segment-Based Parallel Processing)

从本质上讲,多维分析就是对数据的过滤和分组,这就很容易实现并行处理。它的步骤包括:将数据划分为多个段,分别处理它们,并收集那些相互独立的子任务(subtask)所处理的结果,从而进行聚合。无论是在单台机器上,还是在多节点集群的计算上,甚至是两者的结合,其多线程处理都不难以被实施。

虽然多维分析的结果是可视化的,但是我们用肉眼所能看到的数据还是远低于现代计算机内存里所能够保存的数据。对于一个足够小的数据集,它能够很容易地被加载到内存中,而不需要在内存和磁盘之间进行交换。其编程也相对比较简单,且性能优秀。不过,在一个计算过程中生成的大数据集则会被直接提交给接口,其计算随即被中止掉。

根据我们的测试,如果所有在同一个多线程处理的子任务,合并它们的结果到一个相同的结果集里,其性能则可能会由于多个线程使用单一的资源进行同步操作,而受到严重的影响。可见,通过使用共享的最终数据集,内存的占用会有所减少。

更多的线程并不一定总是更好的,当线程超过CPU内核数时它就变得无效了。对于存放在外部存储设备中的数据而言,为了获取多线程处理的实际结果,测试是必要的。因为硬盘的并发能力(通常会小于CPU内核的数量),需要被考虑到。

根据记录的数量和每一段结束处的标记,来划分静态数据是很容易的。但是如果要平均地划分动态数据就比较麻烦了。本文将在下面更详细地予以讨论。

对于一个单一的计算任务而言,并行处理能够带来性能上的成倍增加。而由于OLAP的操作基本就是一个并发的事务,其提高了的性能在用户的数量很小的情况下可能会被抵消掉。因此我们需要有一种更好的方法。

3. 排序索引(Sorted Index)

因为非切片式的聚合操作总会牵扯到整体的数据立方体,所以我们几乎无法通过执行预聚合来减少计算量。但是对于切片操作(钻取)来说,如果数据立方体已经被排序,则没有必要去做全量遍历了。

如果我们能为D维度创建一个索引,这就意味着将它的值与对应的序列号记录关联上了,并形成了一定的排列顺序。然后我们就能够快速地定位那些包含在D维度里符合切片标准的记录了。这是一个简单的二分查找。无需全量遍历所有的数据,其计算量将能够降低好几个数量级(这也取决于D的取值范围)。理论上说,我们可以为每个维度创建一个索引,因为其开销并不昂贵。而且在涉及到相应的切片时,其性能会有大幅提升。

不过,那种包含有D1和D2维度的多个字段索引实际上却鲜少被用到。因为它不能快速地定位到只包含D2维度的切片,它只是对同时包含D1和D2的切片非常有效。在定位到了记录一个包含着最大取值范围的维度切片之后,大量的计算将会被相应地大幅减少。当然,我们也可以通过他们的维度去遍历其他的切片。

不幸的是,这种原始的方法只适用于处理那些允许频繁、小额存取的内存中的数据。在大多数情况下,我们要处理的数据集还是相当大的,而且需要存储在磁盘之上。但是就算通过索引,检索那些大量无序记录的操作对于性能提升影响也不很大。数据只有在被真正排序,和切片里的记录在被连续存储时,其性能才会有明显的提升。

由于各种数据需要根据特定维度的排序目的来进行复制,因此其成本还是相当高的。

有一个用来创建两份数据拷贝的解决方案是:一处的数据按照D1,…,Dn维度进行排序,而另一处的数据则按照Dn,…,D1维度来排序。由此产生的数据量只是原来的两倍,这还是可以接受的。通过该二维序列,就有了一处切片维度总是从首部开始降序排列的,确保了此维度的切片数据在整体上是连续的,从而能够获得了更好的性能提高。

4. 压缩列式存储(Compressed Column Storage)

处理多维分析的一个强大工具是:列式存储。

通常情况下,我们在对数据立方体进行多维分析时,会有大量的字段(维度和测度),他们从数十到数百不等。但是其中真正有用的却并不多,如果不考虑切片维度的话,通常也就只有5个或更少。由于切片能够被索引来进行处理,那么只需要对某几个字段遍历便可。

基于这个考虑,列式存储正好可以发挥其优势。在外部存储的计算中,I/O的操作是非常耗时的。因此,与减少计算的数量相比,减少要检索的数据以提升性能就显得更有意义了。比如说一个具有100个字段的数据立方体,如果只检索五个字段的话,其I/O消耗将下降到原来的二十分之一,这会导致性能的数量级飙升。

列式存储的另一个优点是:它支持数据的压缩。在排序和存储数据的D1,…,Dn维度时,我们发现D1在一连串的记录中有着相同的值;而D2在一个较少的连续记录中也是如此;以此类推,在越来越少的连续记录中,都会有这样的相同值出现;直到Dn中几乎没有了这样的连续性。考虑我们没有必要去存储那些反复出现的连续相同值,我们完全可以一次性存储,并记录下它们的数字。通过这种减少数据占用空间的方法,我们就能减少对外部存储的I/O访问,并提高性能。

在使用列式存储时,我们还需考虑如下一些问题。

由于列式存储不会减少计算的数量,它对在内存中操作数据的帮助并不大。但其压缩存储的方案却能够有效地减少内存的消耗。

列式存储会复杂化基于段的并行处理和索引的创建。列的分割需要保持彼此的一致性,而索引则需要同时地且准确地参考所有的列。而当使用压缩的列式存储时,则会更加麻烦。虽然有这些繁琐的问题,但是一般来说,对于静态数据使用列式存储并不是太难(只是不要忘了对它们的处理)。

列式存储的使用会增加并发压力的风险。当字段的总数不多或我们需要检索太多的字段时,它会失去本身的优势。通过硬盘来额外地使用并行处理,将会进一步地增加并发的压力,也可能会导致性能的下降。因此,能够更好地支持并发性的SSD会更适用一些。


本文作者:陈峻译

来源:51CTO


相关实践学习
AnalyticDB MySQL海量数据秒级分析体验
快速上手AnalyticDB MySQL,玩转SQL开发等功能!本教程介绍如何在AnalyticDB MySQL中,一键加载内置数据集,并基于自动生成的查询脚本,运行复杂查询语句,秒级生成查询结果。
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
8月前
|
数据采集 数据可视化 数据挖掘
多维数据分析:使用Pandas进行复杂的数据操作和聚合
【4月更文挑战第12天】Pandas是Python的强大数据分析库,提供DataFrame数据结构进行多维数据处理。本文介绍了使用Pandas进行多维数据分析的流程:1) 导入数据(如CSV、Excel);2) 数据预处理,包括缺失值处理和类型转换;3) 数据探索,利用describe()、hist()、plot()等进行统计和可视化;4) 数据操作,如筛选、排序和分组;5) 数据聚合,通过groupby()和agg()进行计算。文中还给出了电商数据分析的案例,展示Pandas在实际应用中的价值。
323 2
|
2天前
|
数据采集 SQL 数据挖掘
电商数据分析的方法
电商数据分析涵盖从业务需求理解到数据呈现的全流程。初学者应循序渐进,掌握数据清洗、转换等技能,Python是重要工具。社交媒体营销分析关注用户参与度和KOL影响。实战教程如《2019电商数据分析师实战项目》提供Excel、SQL及Tableau应用案例,帮助巩固理论知识。代码示例展示了如何使用Pandas和SQLAlchemy进行销售数据分析,计算转化率。 (注:联系方式和感谢语已省略以符合要求)
电商数据分析的方法
|
2月前
|
机器学习/深度学习 数据采集 算法
机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用
医疗诊断是医学的核心,其准确性和效率至关重要。本文探讨了机器学习在医疗诊断中的前沿应用,包括神经网络、决策树和支持向量机等方法,及其在医学影像、疾病预测和基因数据分析中的具体应用。文章还讨论了Python在构建机器学习模型中的作用,面临的挑战及应对策略,并展望了未来的发展趋势。
152 1
|
3月前
|
数据挖掘
ChatGPT在常用的数据分析方法中的应用(分组分析)
ChatGPT在常用的数据分析方法中的应用(分组分析)
75 1
|
3月前
|
数据挖掘 数据处理
ChatGPT在常用的数据分析方法中的应用(交叉分析)
ChatGPT在常用的数据分析方法中的应用(交叉分析)
61 1
|
3月前
|
数据挖掘
ChatGPT在常用的数据分析方法中的应用(对比分析)
ChatGPT在常用的数据分析方法中的应用(对比分析)
66 0
|
4月前
|
SQL 数据采集 数据可视化
数据分析的方法
数据分析的方法
121 3
|
8月前
|
数据可视化 数据挖掘 C++
数据分析综合案例讲解,一文搞懂Numpy,pandas,matplotlib,seaborn技巧方法
数据分析综合案例讲解,一文搞懂Numpy,pandas,matplotlib,seaborn技巧方法
173 2
|
5月前
|
数据采集 数据可视化 数据挖掘
数据分析大神养成记:Python+Pandas+Matplotlib助你飞跃!
在数字化时代,数据分析至关重要,而Python凭借其强大的数据处理能力和丰富的库支持,已成为该领域的首选工具。Python作为基石,提供简洁语法和全面功能,适用于从数据预处理到高级分析的各种任务。Pandas库则像是神兵利器,其DataFrame结构让表格型数据的处理变得简单高效,支持数据的增删改查及复杂变换。配合Matplotlib这一数据可视化的魔法棒,能以直观图表展现数据分析结果。掌握这三大神器,你也能成为数据分析领域的高手!
96 2

热门文章

最新文章