数据库查询分析处理过程是这样的:首先,通过 SQL 语句或者大数据系统的 Dataframe API 将查询任务提交上来,之后经过 Simba Parser 进行处理,此时会 有各种各样的执行方式,并生成 Catalog 和逻辑执行计划;之后对于逻辑执行计划进 行优化,并生成物理执行计划;之后在借助系统的统计信息,如索引管理、内存管理 来生成一个优化后的物理执行计划,再执行并生成最后结果或者 RDD。
简单而言,数据库系统的架构就是持久化存储的数据按照 Data Page 的形式进 行存储,这些数据块在查询访问的时候会被带到内存里面。系统中有内存池,每个内 存池可以装载一个 Page,此时的问题就是内存池的大小是有限的,如果数据存储非 常大,需要进行优化。此外,还涉及到优化数据访问的问题,一般通过索引解决,主 要是 Hash 索引和树形索引。
资源来源于《给ITer的技术前沿课》
https://developer.aliyun.com/topic/download?id=136
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。