开发者学堂课程【2020版大数据实战项目之DMP广告系统(第一阶段):Kudu入门_应用场景_项目介绍】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/676/detail/11746
Kudu入门_应用场景_项目介绍
内容介绍:
一、Kudu 阶段的四大部分内容
二、Kudu 的应用场景
一、Kudu 阶段的四大部分内容
1、什么是 kudu
(1)kudu 的应用场景
①设计项目
②选取方案。很多种方案,已迭代的方式选择。
(2)kudu 当中的对比
2、Kudu 的原理
3、kudu 的安装和管理
4、操作 kudu
二、Kudu 的应用场景
1、设计一个项目
现代大数据的应用场景
例如现在要做一个类似物联网的项目,可能是对某个工厂的 生产数据进行分析。工业大数据可以这么理解:
假设有一个工厂,工厂里面有特别多的机器,大概有几百条,有一个数据中心,然后把机器设备的数据放到数据中心。
(1)项目特点:
①数据量大
机器会不断生产,在生产的过程中会源源不断的产生一些数据,这些数据基本上都是事件的形式,放到数据中心来。有一个非常重大的挑战,就是这些设备可能很多,其所产生的事件记录可能也很大,所以需要对设备进行数据收集和分析的话,需要使用一些大数据组件和功能。(机器会不断生产,在生产的过程中会源源不断的产生一些数据,这些数据基本上都是事件的形式,放到数据中心来。)
设备把数据收集出来放到平台当中,然后数据应用就会到平台上进行数据查询。
(2)流式处理
因为数据是事件,事件是一个一个来的,并且如果快速查看结果的话,必须使用流计算来处理这些数据。比如我们希望通过数据中心来查看当前工厂机器的运行状态,就得尽可能最快的获取,就必须进行流式处理。
(3)数据需要存储
最终需要对数据进行统计和分析,所以数据要先有一个地方存,后再通过可视化平台去分析和处理 。
2、对存储层的要求
数据存储的关键问题就是对存储的要求,比如说现在有一个访问模式,这样的一个流计算系统,需要对数据进行处理
(1)和流数据进行配合要能够及时的看到最近的数据,判断系统是否有异
(2)要能够扫描历史数据,从而改进设备和流程
对数据存储层就有可能进行如下的操作
(1)逐行插入,因为数据是一行一行来的,要想及时看到,就需要来一行插入一行
(2)低延迟随机读取,如果想分析某台设备的信息,就需要在数据集中随机读取某一个设备的事件记录(批量读取为来一天的数据,随机读取就是具体查取某一台机器比如001的数据。)
(3)快速分析和扫描,数据分析师需要快速的得到结论,执行一行 SOL 等上十天是不行的。
在项目中对存储层要求是随机插入,低延迟随机读,以及能批量读和分析。随机插入是 mysql oltp 比较擅长。低延迟随机读也是 OLTP 中常用的手段,查某一部分数据,有一些判断。批量读和分析是 hdfs 中的方式,把文件 hdfs 中,hdfs 是分片的,所以读取性能非常高。