干货:解码OneData,阿里的数仓之路。
据IDC报告,预计到2020年全球数据总量将超过40ZB(相当于4万亿GB),这一数据量是2013年的10倍。正在“爆炸式”增长的数据的潜在巨大价值正在被发掘,它有可能成为商业世界的“新能源”,变革我们的生产,影响我们生活。当我们面对如此庞大的数据之时,如果我们不能有序、有结构的进行分类组织
列式存储 vs 行式存储:它们之间的本质区别在哪里?
论文三位作者系统系统解答了列式存储与行式存储的区别,通过实验告诉我们,列式存储是因为其内部架构而具有更好的性能,而不是理所当然的理由——更少的 I/O。不仅仅限于内部架构,查询引擎层的各种优化也同样是列式存储性能提升的关键。
数仓建设中最常用模型--Kimball维度建模详解
数仓建模首推书籍《数据仓库工具箱:维度建模权威指南》,此书是基于作者 60 多年的实际业务环境而总结的经验及教训,为读者提供正式的维度设计和开发技术。面向数仓和BI设计人员,书中涉及到的内容非常广泛,围绕一系列的商业场景或案例研究进行组织。