开发者学堂课程【2020版大数据实战项目之DMP广告系统(第一阶段):kudu入门 _应用场景_kudu】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/676/detail/11750
kudu入门 _应用场景_kudu
方案四:Kudu
首先对前面的内容做一个总结,应用难点在于
(1)保存实时流数据,逐条插入
(2)在此基础之上,要进行批量扫描
而kudu可以保存实时流数据,逐条插入,并且在此基础之上,要进行批量扫描。kudu可以弥补 HDFS 和 Hbase 的不足,它是介于 HDFS 和 Hbase 之间的存储引擎。
Kudu 必须要满足以下两点要求:
1.能够让 Spark Streaming 的数据能够以一小批或者一条一条的方式来进行插入
2.还要提供近似于 Hbase 随机插入性。即在随机读写性能上,媲美 Hbase。Hbase 逐条插入性能非常高,因此 kudu要具备此性能。
3.kudu 在扫描性能即大规模数据分析性能,媲美 HDFS 上的 Parquet。
因此 Kudu 特别适合随机读写,在随机扫描上也很好,但没有 Parquet 性能高。完美的解决方案是不存在的,但有多种选择。Kudu 虽然没有 Parquet 高性能,但能媲美 hbase 插入性能,kudu 具有全面能力。