《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB MySQL版解析与实践(上)——三、产品相关概念(上)

本文涉及的产品
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDS AI 助手,专业版
简介: 《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB MySQL版解析与实践(上)——三、产品相关概念(上)

1. 数据库对象及操作

 

数据库对象的体系结构可以从用户视角和系统视角查看,用户视角类似使用MySQL一样,可以创建多个数据库,在每个数据库下面创建多个数据表,而在系统视角一个用户实例对应一个集群,而集群对应的是物理的数据库,该数据库为分布式的大规模并行MPP架构,数据库会分片到不同的节点上,而每个分片对应着物理表,通过Partition实现分区,分片是一级分区,分区是二级分区。

 

image.png

 

数据库对象的体系结构有以下概念:

 

用户集群:一个用户实例就是一个集群、用户集群资源独享

物理库:一个用户集群系统默认初始化一个物理库

数据库:逻辑数据库,最多256个表名空间和权限隔离

表:普通表又称分布式表,需要指定分布键维度表又称广播表,每个节点冗余一份

分片:表被分布键拆分后的子表,又称分片Shard)。

分区分片Shard可以再按某个字段划分为分区分片列通常是时间字段,有生命周期管理功能

 

1) 表:分区数据清除机制

 

数据清理机制:表元数据记录表的生命周期设置数,下面示例设LIFECYCLE 90,通过对分区的排序,超出生命周期数的分区将被清理掉,如图所示:

image.png

 

2) 数据建模SQL开发规范

 

编写和优化SQL时,需要充分考虑其分布式特性,开发规范如下:

 

SQL编写原则为追求简单一般情况下,数据库性能会随SQL复杂度而下降。例如,单表查询冗余设计优于表关联查询

SQL优化核心方法是减少I/O尽可能少的进行列扫描,返回最小数据量,减少I/O同时也减少内存开销

分布式计算,本地计算&并行计算大数据计算情况下,本地计算时充分利用分布式多计算资源的能力,避免数据跨节点

高QPS,分区裁剪业务系统要求高QPS、毫秒级RT时,表和SQL必须设计为分区裁剪模式。

 

a) 去掉不必要的列

 

返回的列的数量直接影响性能,在编写SQL时要确认业务需要返回的列,不要直接使用星号*进行查询,如:

 

错误SQL

 

select * from tab1 where c1>100 and c1<1000;

 

 

正确SQL

 

select col1,col2 from table_name where C1>100 andc1<1000;

 

b) 索引和扫描

 

当SQL包含多个查询条件时,优先选择高筛选条件,其他条件可以通过扫描实现在SQL命令中通过条件c1=3可快速查询到少量记录假设10000,单独使用time>'2010-01-0100:00:00'时返回的记录数又非常大,如:

 

原始SQL

 

select c1,c2 from tab1 where c1=3 and time >='2010-01-01 00:00:00';

 

建议SQL

 

/*no-index=itab1.time*/

selectc1,c2 from tab1 where c1=3 and time>='2010-01-01 00:00:00';

 

2. 权限与数据安全

 

1) 账号类型

 

阿里云账号

 作用范围AnalyticDB for MySQL集群

 可进行的操作:阿里云账号用于创建和管理集群,例如登录阿里云产品控制台、设置白名单、创建数据库账号、申请外网地址、按量付费转包年包月、设置可维护时间段、扩容集群、恢复新集群以及删除集群等。

 

RAM子账号

 作用范围,AnalyticDB for MySQL集群

 可进行的操作:阿里云账号授予RAM子账号一定的权限后,RAM子账号也可以在权限范围内创建和管理集群例如登录阿里云产品控制台、设置白名单、创建数据库账号、申请外网地址、按量付费转包年包月、设置可维护时间段、扩容集群、恢复新集群以及删除集群等。

 

数据库账号

 作用范围数据库

 可进行的操作:数据库账号在权限范围内用于对数据库进行操作,例如创建/删除数据库、连接数据库、创建/删除表、创建/删除视图等。分为普通账号和高权限账号。

 

服务账号

 作用范围AnalyticDB for MySQL集群

 可进行的操作:需要技术支持时授权AnalyticDB for MySQL集群的服务账号,技术支持人员才可以通过服务账号提供技术支持服务。

 

2) 用户

 

用户账号和认证

 账号格式:ALIYUN$user_account@aliyun.com

 认证需要使用AccessKey

 

用户类型

 OWNER:数据库拥有者,开通云原生数据仓库服务,并创建数据

 用户:被授权的数据库用户,由OWNER添加,无需开通云原生数据仓库服务

 

RAM子账号

 支持RAM阿里云访问控制子账号登录和使用云原生数据仓库

 主账号可建多个子账号,通过授予授权策略,使子账号在一定条件下可以访问云原生数据仓库

 子账号访问云原生数据仓库的MySQL协议端时需要使用其的AccessKey ID/Secret作为用户名和密码。

 

3) 权限模型

 

AnalyticDB for MySQL集群支持如下粒度的权限控制:集群、数据库、表、列、行级基于视图,如下图

 

image.png

 

4) SQL审计

 

SQL审计功能可以实时记录数据库DML和DDL操作信息,并提供数据库操作信息的检索功能,提高云原生数据仓库AnalyticDB MySQL版的安全性。

 

SQL审计日志:记录对数据库执行的所有操作。通过审计日志记录,用户可以对数据库进行故障分析、行为分析、安全审计等操作。

搜索:可以按照数据库、客户端IP、执行耗时、执行状态等进行多维度检索,并支持导出搜索结果。

 

3. 智能索引

 

ADB为表的每个字段智能构建索引,目前支持五种类型:字符串类的Invert索引(倒排索引)、bitmap索引、数值类的KDTree索引、JSON索引、向量索引。

 

不同类型的索引可以实现列级索引多种条件(交、并、差)任意组合,查询时无需建组合索引,通过Index CBO 智能动态筛选索引下推,通过谓词计算层进行流式渐进多路归并输出。

image.png

 

倒排索引

分区表的所有列适用Bitmap索引的列除外都建了倒排索引,key为排序的列值,value为对应的RowlD list,所以对于任何列进行FILTERWHERE key=value或者JOIN查询都非常高效。

 

Bitmap索引

对于值重复率高的列,建立Bitmap索引。

 

KDTree索引

为了加速范围查询,对于类型为数字的列同时建立了KDTree索引。

 

行列混存的块索引

块索引即块的元数据信息。

image.png

 

分区元数据:分区总行数,单个block中的列行数等信息。

列元数据:列值类型、整列的MAX/MIN值,NULL值数目,直方图信息等,便于加速查询。

列Block元数据:该列的MAX/MIN/SUM总条目数(COUNT)等信息,便于加速查询。

 

说明

复杂类型数据json,vector存储采用统一大小的块组织存储,按顺序存,采用稀疏索引查询。

 

更多精彩内容,欢迎观看:

《阿里云认证的解析与实战-数据仓库ACP认证》——云原生数据仓库AnalyticDB MySQL版解析与实践(上)——三、产品相关概念(下):https://developer.aliyun.com/article/1223283?groupCode=certification

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
存储 SQL 数据采集
441 0
|
6月前
|
存储 SQL 监控
数据中台架构解析:湖仓一体的实战设计
在数据量激增的数字化时代,企业面临数据分散、使用效率低等问题。数据中台作为统一管理与应用数据的核心平台,结合湖仓一体架构,打通数据壁垒,实现高效流转与分析。本文详解湖仓一体的设计与落地实践,助力企业构建统一、灵活的数据底座,驱动业务决策与创新。
|
8月前
|
SQL 分布式计算 大数据
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
本文深入介绍 Hive 与大数据融合构建强大数据仓库的实战指南。涵盖 Hive 简介、优势、安装配置、数据处理、性能优化及安全管理等内容,并通过互联网广告和物流行业案例分析,展示其实际应用。具有专业性、可操作性和参考价值。
大数据新视界 --大数据大厂之Hive与大数据融合:构建强大数据仓库实战指南
|
10月前
|
人工智能 API 开发者
HarmonyOS Next~鸿蒙应用框架开发实战:Ability Kit与Accessibility Kit深度解析
本书深入解析HarmonyOS应用框架开发,聚焦Ability Kit与Accessibility Kit两大核心组件。Ability Kit通过FA/PA双引擎架构实现跨设备协同,支持分布式能力开发;Accessibility Kit提供无障碍服务构建方案,优化用户体验。内容涵盖设计理念、实践案例、调试优化及未来演进方向,助力开发者打造高效、包容的分布式应用,体现HarmonyOS生态价值。
665 27
|
10月前
|
数据采集 机器学习/深度学习 存储
可穿戴设备如何重塑医疗健康:技术解析与应用实战
可穿戴设备如何重塑医疗健康:技术解析与应用实战
411 4
|
10月前
|
存储 JSON 数据格式
ElasticSearch基础概念解析
以上就是ElasticSearch的基础概念。理解了这些概念,你就可以更好地使用ElasticSearch,像使用超级放大镜一样,在数据海洋中找到你需要的珍珠。
311 71
|
10月前
|
机器学习/深度学习 人工智能 Java
Java机器学习实战:基于DJL框架的手写数字识别全解析
在人工智能蓬勃发展的今天,Python凭借丰富的生态库(如TensorFlow、PyTorch)成为AI开发的首选语言。但Java作为企业级应用的基石,其在生产环境部署、性能优化和工程化方面的优势不容忽视。DJL(Deep Java Library)的出现完美填补了Java在深度学习领域的空白,它提供了一套统一的API,允许开发者无缝对接主流深度学习框架,将AI模型高效部署到Java生态中。本文将通过手写数字识别的完整流程,深入解析DJL框架的核心机制与应用实践。
660 3
|
10月前
|
缓存 监控 搜索推荐
【实战解析】smallredbook.item_get_video API:小红书视频数据获取与电商应用指南
本文介绍小红书官方API——`smallredbook.item_get_video`的功能与使用方法。该接口可获取笔记视频详情,包括无水印直链、封面图、时长、文本描述、标签及互动数据等,并支持电商场景分析。调用需提供`key`、`secret`和`num_iid`参数,返回字段涵盖视频链接、标题、标签及用户信息等。同时,文章提供了电商实战技巧,如竞品监控与个性化推荐,并列出合规注意事项及替代方案对比。最后解答了常见问题,如笔记ID获取与视频链接时效性等。
|
10月前
|
数据采集 JSON 数据可视化
JSON数据解析实战:从嵌套结构到结构化表格
在信息爆炸的时代,从杂乱数据中提取精准知识图谱是数据侦探的挑战。本文以Google Scholar为例,解析嵌套JSON数据,提取文献信息并转换为结构化表格,通过Graphviz制作技术关系图谱,揭示文献间的隐秘联系。代码涵盖代理IP、请求头设置、JSON解析及可视化,提供完整实战案例。
649 4
JSON数据解析实战:从嵌套结构到结构化表格
|
11月前
|
数据可视化 测试技术 API
GraphQL开发工具选型指南:Apipost高效调试与文档生成实战解析
本文深入解析了GraphQL开发工具Apipost在高效调试与文档生成方面的优势,对比同类工具Apifox,突出其可视化界面、实时调试及自动化文档生成等特性。Apipost通过智能代码补全、错误提示等功能简化复杂Query编写,支持一键生成标准化文档,显著提升开发效率和团队协作效果,尤其适合中大型团队应对复杂业务场景。

推荐镜像

更多
  • DNS