性能优化技巧 - 集群维表

简介: 事实表和维表进行关联计算时,需要对维表进行频繁的随机访问,因此维表要尽量放在内存中,才能提高关联计算的性能。如果维表较大,单机内存放不下,就应该考虑用集群方式,将维表分段读入多台机器的内存。下面举例说明集群维表的用法。

事实表和维表进行关联计算时,需要对维表进行频繁的随机访问,因此维表要尽量放在内存中,才能提高关联计算的性能。如果维表较大,单机内存放不下,就应该考虑用集群方式,将维表分段读入多台机器的内存。下面举例说明集群维表的用法。

假设有2个计算节点,分别为127.0.0.1:8281、127.0.0.1:8282。执行如下脚本,可将产品表加载到节点机内存中:
1
A2:语句fork可在多个节点机上并行执行任务,其中[1,20000000]是第1台节点机的入口参数。

B2:各节点按入口参数分别查询产品表。其中1号节点取出编号在1-20000000之间的产品。需要注意的是:各节点数据不能有重合,需按维表主键排序,需用key函数建立物理键。

B3:函数env用来在节点机设置全局变量,各节点机变量名相同,。

接下来实现业务算法:
2
A2:按名字product在各节点机寻找全局变量,返回集群维表。注意集群维表是个远程引用,对应的数据在各节点机。

A3:从数据库取出订单事实表。事实表通常数据量较大,需要用游标返回。事实表的来源不限于数据库,任意游标都可以。

A4:对事实表和集群维表进行关联计算。除了cs.switch()函数,也可以用cs.join()函数进行关联计算。

A5:对关联结果进一步计算,这里以分组汇总为例。

 

上述例子中,集群维表来自于数据源,底层数据结构为序表,但序表无压缩,占用空间较大。如果以SPL组表为数据源,则内存中的数据结构为内表,而内表有压缩,占用空间较小。

假设维表已分成2份,各自存为组表,名字都叫product.ctx,分别放置在两个节点机的0数据区上,则加载数据的脚本如下:
3
A1:在各节点机的0数据区,寻找名为product.ctx的组表,定义为分布组表。

A2:将分布组表加载到各节点机内存,形成集群维表。

A3:在汇总机定义全局变量product,指向集群维表。

实现业务算法的脚本如下:
4
A2:直接用全局变量名product引用集群维表,并参与关联计算。

相关文章
|
iOS开发 Python
mac:python安装路径
了解python的安装路径,有利于处对python安装的管理。比如删除多余的python,可以在这些路径中查询处理。
2075 0
|
Java 区块链
Java工程师入门区块链的7个开源项目
如果你是一个对区块链感兴趣的Java工程师,那么除了阅读书籍或博客之外,更好的学习方法是亲自动手,深入了解以下7个最流行的Java区块链项目。 1、Corda Corda可能是Java开发人员进入区块链世界的最自然的出发点。
7007 0
|
人工智能 机器人 API
搞定!微信接入DeepSeek打造聊天机器人,1行代码就行!
程序员晚枫分享了一个有趣的Python项目,将DeepSeek大模型接入微信,实现自动聊天。通过PyOfficeRobot库,仅需1行代码即可完成接入,打造AI聊天机器人。该项目基于Windows API操作微信,目前仅支持Windows系统。用户需填写好友名称和API Key,轻松体验AI对话。此外,PyOfficeRobot还支持其他大模型如阿里通义、智谱等。欢迎尝试并参与改进开源项目。
2391 81
搞定!微信接入DeepSeek打造聊天机器人,1行代码就行!
|
存储 NoSQL 数据库
知识图谱之图数据库如何选型:知识图谱存储与图数据库总结、主流图数据库对比(JanusGraph、HugeGraph、Neo4j、Dgraph、NebulaGraph、Tugrapg)
知识图谱之图数据库如何选型:知识图谱存储与图数据库总结、主流图数据库对比(JanusGraph、HugeGraph、Neo4j、Dgraph、NebulaGraph、Tugrapg)
知识图谱之图数据库如何选型:知识图谱存储与图数据库总结、主流图数据库对比(JanusGraph、HugeGraph、Neo4j、Dgraph、NebulaGraph、Tugrapg)
|
数据采集 JavaScript Java
一款分布式爬虫管理平台,支持多种语言和框架
项目介绍 Crawlab —— 一个基于 Golang 的分布式爬虫管理平台,支持Python、NodeJS、Go、Java、PHP 等多种编程语言以及多种爬虫框架。 主要功能:
|
机器学习/深度学习 算法框架/工具 网络架构
深度学习中的正则化技术及其对模型性能的影响
本文深入探讨了深度学习领域中正则化技术的重要性,通过分析L1、L2以及Dropout等常见正则化方法,揭示了它们如何帮助防止过拟合,提升模型的泛化能力。文章还讨论了正则化在不同类型的神经网络中的应用,并指出了选择合适正则化策略的关键因素。通过实例和代码片段,本文旨在为读者提供关于如何在实际问题中有效应用正则化技术的深刻见解。
|
调度
【LVGL快速入门】LVGL开源框架入门教程之框架移植(四)
【LVGL快速入门】LVGL开源框架入门教程之框架移植(四)
1215 3
|
SQL 安全 网络安全
网络安全与信息安全:关于网络安全漏洞、加密技术、安全意识等方面的知识分享
【9月更文挑战第14天】在数字化时代,网络安全和信息安全已成为我们生活中不可或缺的一部分。本文将探讨网络安全漏洞、加密技术和安全意识等方面的内容,以帮助读者更好地了解如何保护自己的网络安全和信息安全。我们将从网络安全漏洞的定义和类型开始,介绍一些常见的网络安全漏洞及其危害。然后,我们将讨论加密技术的重要性以及如何使用它来保护数据的安全性。最后,我们将强调安全意识的重要性,并提供一些实用的建议来提高个人和组织的网络安全水平。
|
语音技术 Python
FunASR升级热词定制化问题之使用FunASR工具包进行ASR推理,如何操作
FunASR升级热词定制化问题之使用FunASR工具包进行ASR推理,如何操作
1046 1
|
物联网 网络架构 智能硬件