《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB MySQL版解析与实践(上)——三、产品相关概念(上)

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
RDSClaw,2核4GB
RDS AI 助手,专业版
简介: 《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB MySQL版解析与实践(上)——三、产品相关概念(上)

1. 数据库对象及操作

 

数据库对象的体系结构可以从用户视角和系统视角查看,用户视角类似使用MySQL一样,可以创建多个数据库,在每个数据库下面创建多个数据表,而在系统视角一个用户实例对应一个集群,而集群对应的是物理的数据库,该数据库为分布式的大规模并行MPP架构,数据库会分片到不同的节点上,而每个分片对应着物理表,通过Partition实现分区,分片是一级分区,分区是二级分区。

 

image.png

 

数据库对象的体系结构有以下概念:

 

用户集群:一个用户实例就是一个集群、用户集群资源独享

物理库:一个用户集群系统默认初始化一个物理库

数据库:逻辑数据库,最多256个表名空间和权限隔离

表:普通表又称分布式表,需要指定分布键维度表又称广播表,每个节点冗余一份

分片:表被分布键拆分后的子表,又称分片Shard)。

分区分片Shard可以再按某个字段划分为分区分片列通常是时间字段,有生命周期管理功能

 

1) 表:分区数据清除机制

 

数据清理机制:表元数据记录表的生命周期设置数,下面示例设LIFECYCLE 90,通过对分区的排序,超出生命周期数的分区将被清理掉,如图所示:

image.png

 

2) 数据建模SQL开发规范

 

编写和优化SQL时,需要充分考虑其分布式特性,开发规范如下:

 

SQL编写原则为追求简单一般情况下,数据库性能会随SQL复杂度而下降。例如,单表查询冗余设计优于表关联查询

SQL优化核心方法是减少I/O尽可能少的进行列扫描,返回最小数据量,减少I/O同时也减少内存开销

分布式计算,本地计算&并行计算大数据计算情况下,本地计算时充分利用分布式多计算资源的能力,避免数据跨节点

高QPS,分区裁剪业务系统要求高QPS、毫秒级RT时,表和SQL必须设计为分区裁剪模式。

 

a) 去掉不必要的列

 

返回的列的数量直接影响性能,在编写SQL时要确认业务需要返回的列,不要直接使用星号*进行查询,如:

 

错误SQL

 

select * from tab1 where c1>100 and c1<1000;

 

 

正确SQL

 

select col1,col2 from table_name where C1>100 andc1<1000;

 

b) 索引和扫描

 

当SQL包含多个查询条件时,优先选择高筛选条件,其他条件可以通过扫描实现在SQL命令中通过条件c1=3可快速查询到少量记录假设10000,单独使用time>'2010-01-0100:00:00'时返回的记录数又非常大,如:

 

原始SQL

 

select c1,c2 from tab1 where c1=3 and time >='2010-01-01 00:00:00';

 

建议SQL

 

/*no-index=itab1.time*/

selectc1,c2 from tab1 where c1=3 and time>='2010-01-01 00:00:00';

 

2. 权限与数据安全

 

1) 账号类型

 

阿里云账号

 作用范围AnalyticDB for MySQL集群

 可进行的操作:阿里云账号用于创建和管理集群,例如登录阿里云产品控制台、设置白名单、创建数据库账号、申请外网地址、按量付费转包年包月、设置可维护时间段、扩容集群、恢复新集群以及删除集群等。

 

RAM子账号

 作用范围,AnalyticDB for MySQL集群

 可进行的操作:阿里云账号授予RAM子账号一定的权限后,RAM子账号也可以在权限范围内创建和管理集群例如登录阿里云产品控制台、设置白名单、创建数据库账号、申请外网地址、按量付费转包年包月、设置可维护时间段、扩容集群、恢复新集群以及删除集群等。

 

数据库账号

 作用范围数据库

 可进行的操作:数据库账号在权限范围内用于对数据库进行操作,例如创建/删除数据库、连接数据库、创建/删除表、创建/删除视图等。分为普通账号和高权限账号。

 

服务账号

 作用范围AnalyticDB for MySQL集群

 可进行的操作:需要技术支持时授权AnalyticDB for MySQL集群的服务账号,技术支持人员才可以通过服务账号提供技术支持服务。

 

2) 用户

 

用户账号和认证

 账号格式:ALIYUN$user_account@aliyun.com

 认证需要使用AccessKey

 

用户类型

 OWNER:数据库拥有者,开通云原生数据仓库服务,并创建数据

 用户:被授权的数据库用户,由OWNER添加,无需开通云原生数据仓库服务

 

RAM子账号

 支持RAM阿里云访问控制子账号登录和使用云原生数据仓库

 主账号可建多个子账号,通过授予授权策略,使子账号在一定条件下可以访问云原生数据仓库

 子账号访问云原生数据仓库的MySQL协议端时需要使用其的AccessKey ID/Secret作为用户名和密码。

 

3) 权限模型

 

AnalyticDB for MySQL集群支持如下粒度的权限控制:集群、数据库、表、列、行级基于视图,如下图

 

image.png

 

4) SQL审计

 

SQL审计功能可以实时记录数据库DML和DDL操作信息,并提供数据库操作信息的检索功能,提高云原生数据仓库AnalyticDB MySQL版的安全性。

 

SQL审计日志:记录对数据库执行的所有操作。通过审计日志记录,用户可以对数据库进行故障分析、行为分析、安全审计等操作。

搜索:可以按照数据库、客户端IP、执行耗时、执行状态等进行多维度检索,并支持导出搜索结果。

 

3. 智能索引

 

ADB为表的每个字段智能构建索引,目前支持五种类型:字符串类的Invert索引(倒排索引)、bitmap索引、数值类的KDTree索引、JSON索引、向量索引。

 

不同类型的索引可以实现列级索引多种条件(交、并、差)任意组合,查询时无需建组合索引,通过Index CBO 智能动态筛选索引下推,通过谓词计算层进行流式渐进多路归并输出。

image.png

 

倒排索引

分区表的所有列适用Bitmap索引的列除外都建了倒排索引,key为排序的列值,value为对应的RowlD list,所以对于任何列进行FILTERWHERE key=value或者JOIN查询都非常高效。

 

Bitmap索引

对于值重复率高的列,建立Bitmap索引。

 

KDTree索引

为了加速范围查询,对于类型为数字的列同时建立了KDTree索引。

 

行列混存的块索引

块索引即块的元数据信息。

image.png

 

分区元数据:分区总行数,单个block中的列行数等信息。

列元数据:列值类型、整列的MAX/MIN值,NULL值数目,直方图信息等,便于加速查询。

列Block元数据:该列的MAX/MIN/SUM总条目数(COUNT)等信息,便于加速查询。

 

说明

复杂类型数据json,vector存储采用统一大小的块组织存储,按顺序存,采用稀疏索引查询。

 

更多精彩内容,欢迎观看:

《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB MySQL版解析与实践(上)——三、产品相关概念(下):https://developer.aliyun.com/article/1223283?groupCode=certification

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
存储 分布式计算 大数据
大数据揭秘:从数据湖到数据仓库的全面解析
大数据揭秘:从数据湖到数据仓库的全面解析
422 19
|
SQL 存储 JSON
实时数仓 Hologres 产品介绍:一体化实时湖仓平台
本次方案的主题是实时数仓 Hologres 产品介绍:一体化实时湖仓平台,介绍了 Hologres 湖仓存储一体,多模式计算一体、分析服务一体和 Data+AI 一体四方面一体化场景,并对其运维监控方面及客户案例进行一定讲解。 1. Hologres :面向未来的一体化实时湖仓 2. 运维监控 3. 客户案例 4. 总结
886 14
|
存储 人工智能 Cloud Native
NAS深度解析:面向云原生应用的文件存储
本文深入解析了面向云原生应用的文件存储NAS,由阿里云专家分享。内容涵盖Cloud Native与AI浪潮下的技术创新,包括高性能、弹性伸缩、成本优化及数据安全等方面。针对云原生应用的特点,NAS在Serverless生态中不断演进,提供多种产品规格以满足不同需求,如极速型NAS、归档存储等,确保用户在高并发场景下获得稳定低延时的存储体验。同时,通过优化挂载参数和容器访问策略,提升整体性能与可用性。
661 11
|
存储 Cloud Native 块存储
EBS深度解析:云原生时代企业级块存储
企业上云的策略,从 Cloud-Hosting 转向 Serverless 架构。块存储作为企业应用上云的核心存储产品,将通过 Serverless 化来加速新的计算范式全面落地。在本话题中,我们将会介绍阿里云块存储企业级能力的创新,深入解析背后的技术细节,分享对未来趋势的判断。
1075 3
|
Kubernetes Cloud Native 云计算
云原生技术深度解析:重塑企业IT架构的未来####
本文深入探讨了云原生技术的核心理念、关键技术组件及其对企业IT架构转型的深远影响。通过剖析Kubernetes、微服务、容器化等核心技术,本文揭示了云原生如何提升应用的灵活性、可扩展性和可维护性,助力企业在数字化转型中保持领先地位。 ####
|
运维 Kubernetes Cloud Native
Kubernetes云原生架构深度解析与实践指南####
本文深入探讨了Kubernetes作为领先的云原生应用编排平台,其设计理念、核心组件及高级特性。通过剖析Kubernetes的工作原理,结合具体案例分析,为读者呈现如何在实际项目中高效部署、管理和扩展容器化应用的策略与技巧。文章还涵盖了服务发现、负载均衡、配置管理、自动化伸缩等关键议题,旨在帮助开发者和运维人员掌握利用Kubernetes构建健壮、可伸缩的云原生生态系统的能力。 ####
|
Kubernetes Cloud Native 调度
云原生批量任务编排引擎Argo Workflows发布3.6,一文解析关键新特性
Argo Workflows是CNCF毕业项目,最受欢迎的云原生工作流引擎,专为Kubernetes上编排批量任务而设计,本文主要对最新发布的Argo Workflows 3.6版本的关键新特性做一个深入的解析。
|
监控 数据挖掘 OLAP
深入解析:AnalyticDB中的高级查询优化与性能调优
【10月更文挑战第22天】 AnalyticDB(ADB)是阿里云推出的一款实时OLAP数据库服务,它能够处理大规模的数据分析任务,提供亚秒级的查询响应时间。对于已经熟悉AnalyticDB基本操作的用户来说,如何通过查询优化和性能调优来提高数据处理效率,是进一步提升系统性能的关键。本文将从个人的角度出发,结合实际经验,深入探讨AnalyticDB中的高级查询优化与性能调优技巧。
774 4
|
数据管理 大数据 OLAP
AnalyticDB核心概念详解:表、索引与分区
【10月更文挑战第25天】在大数据时代,高效的数据库管理和分析工具变得尤为重要。阿里云的AnalyticDB(ADB)是一款完全托管的实时数据仓库服务,能够支持PB级数据的实时查询和分析。作为一名数据工程师,我有幸在多个项目中使用过AnalyticDB,并积累了丰富的实践经验。本文将从我个人的角度出发,详细介绍AnalyticDB的核心概念,包括表结构设计、索引类型选择和分区策略,帮助读者更有效地组织和管理数据。
632 3
|
监控 Cloud Native 持续交付
云原生技术深度解析:重塑现代应用开发与部署范式####
本文深入探讨了云原生技术的核心概念、关键技术组件及其在现代软件开发中的重要性。通过剖析容器化、微服务架构、持续集成/持续部署(CI/CD)等关键技术,本文旨在揭示云原生技术如何促进应用的敏捷性、可扩展性和高可用性,进而推动企业数字化转型进程。不同于传统摘要仅概述内容要点,本部分将融入具体案例分析,直观展示云原生技术在实际应用中的显著成效与挑战应对策略,为读者提供更加丰富、立体的理解视角。 ####

推荐镜像

更多
  • DNS
  • 下一篇
    开通oss服务