开发者学堂课程【2020版大数据实战项目之DMP广告系统(第一阶段):Kudu入门_对比_列式和行式】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/676/detail/11752
Kudu入门_对比_列式和行式
列式存储和行式存储
行式和列式存储是不同的存储方式。其大致如下
1、行式存储
行式适合于比较精确的查询比较方便。行式存储会认为列式存储是不划算的,就可能一次只取出一小部分。那些没有取出来的就是对性能的提升。行式一般用作于 OLTP,例如我的订单,那不仅要看到订单,还要看到收货地址,付款信息,派送信息等,所以 OLTP 一般是倾向于获取整行所有列的信息。
2、列式存储
列式存储比较适合用于 OLAP 型,因为 OLAP 比较强调于查询和扫描性。如果是列式存储用不到中间那一列,可以不加载那一列,直接加载第一列或者第三列,那总体上数据量会少于三分之一,明显是非常大的性能提升。列式存储就有非常重要的假设,一次把一列的数据整出来,那么假设你要使用到这一列的大部分数据,如果按列存,就可以按列进行取舍,按行取舍不了那么多。例如当分析销售额的时候,那可能只对销售额这一列感兴趣,所以按照列存储,只需获取需要的列,这样能减少数据的读取量。