Kudu入门_应用场景_项目介绍|学习笔记

简介: 快速学习Kudu入门_应用场景_项目介绍

开发者学堂课程【2020版大数据实战项目之DMP广告系统(第一阶段)Kudu入门_应用场景_项目介绍】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/676/detail/11746


Kudu入门_应用场景_项目介绍


内容介绍:

一、Kudu 阶段的四大部分内容

二、Kudu 的应用场景


一、Kudu 阶段的四大部分内容

1、什么是 kudu

(1)kudu 的应用场景

①设计项目

②选取方案。很多种方案,已迭代的方式选择。

(2)kudu 当中的对比

2、Kudu 的原理

3、kudu 的安装和管理

4、操作 kudu

image.png


二、Kudu 的应用场景

1、设计一个项目

现代大数据的应用场景

例如现在要做一个类似物联网的项目,可能是对某个工厂的 生产数据进行分析。工业大数据可以这么理解:

假设有一个工厂,工厂里面有特别多的机器,大概有几百条,有一个数据中心,然后把机器设备的数据放到数据中心。

(1)项目特点:

①数据量大

机器会不断生产,在生产的过程中会源源不断的产生一些数据,这些数据基本上都是事件的形式,放到数据中心来。有一个非常重大的挑战,就是这些设备可能很多,其所产生的事件记录可能也很大,所以需要对设备进行数据收集和分析的话,需要使用一些大数据组件和功能。(机器会不断生产,在生产的过程中会源源不断的产生一些数据,这些数据基本上都是事件的形式,放到数据中心来。)

设备把数据收集出来放到平台当中,然后数据应用就会到平台上进行数据查询。

image.png

(2)流式处理

因为数据是事件,事件是一个一个来的,并且如果快速查看结果的话,必须使用流计算来处理这些数据。比如我们希望通过数据中心来查看当前工厂机器的运行状态,就得尽可能最快的获取,就必须进行流式处理。

(3)数据需要存储

最终需要对数据进行统计和分析,所以数据要先有一个地方存,后再通过可视化平台去分析和处理 。

image.png

2、对存储层的要求

数据存储的关键问题就是对存储的要求,比如说现在有一个访问模式,这样的一个流计算系统,需要对数据进行处理

(1)和流数据进行配合要能够及时的看到最近的数据,判断系统是否有异

(2)要能够扫描历史数据,从而改进设备和流程

对数据存储层就有可能进行如下的操作

(1)逐行插入,因为数据是一行一行来的,要想及时看到,就需要来一行插入一行

(2)低延迟随机读取,如果想分析某台设备的信息,就需要在数据集中随机读取某一个设备的事件记录(批量读取为来一天的数据,随机读取就是具体查取某一台机器比如001的数据。)

(3)快速分析和扫描,数据分析师需要快速的得到结论,执行一行 SOL 等上十天是不行的。

在项目中对存储层要求是随机插入,低延迟随机读,以及能批量读和分析。随机插入是 mysql oltp 比较擅长。低延迟随机读也是 OLTP 中常用的手段,查某一部分数据,有一些判断。批量读和分析是 hdfs 中的方式,把文件 hdfs 中,hdfs 是分片的,所以读取性能非常高。

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
Java 应用服务中间件 持续交付
SpringBoot采用Java配置类的方式配置Nacos,动态注册微服务IP
本文是采用Java配置类的方式配置微服务的Nacos服务注册,并动态的配置spring.cloud.discovery.ip属性以打到微服务内网穿透注册至Nacos注册中心。
5658 0
SpringBoot采用Java配置类的方式配置Nacos,动态注册微服务IP
|
监控 文件存储 Docker
实现NAS远程下载,Docker部署qBittorrent、Transmission、贝锐花生壳
与电脑不同,NAS通常7x24小时运行,便于下载资源,解决BT/PT下载需长时间在线的问题。因此,qBittorrent、Transmission等下载管理工具成为NAS用户的必备应用。通过Docker,用户可在多种NAS设备上快速安装这些工具,并通过局域网IP地址+端口访问。然而,缺乏公网IPv4地址导致远程访问困难,贝锐花生壳提供了解决方案,允许无公网IP情况下通过固定域名远程访问NAS中的下载工具,简化了部署过程,使用户能随时随地控制家中的下载任务。
1344 33
实现NAS远程下载,Docker部署qBittorrent、Transmission、贝锐花生壳
|
PyTorch 算法框架/工具
Pytorch学习笔记(五):nn.AdaptiveAvgPool2d()函数详解
PyTorch中的`nn.AdaptiveAvgPool2d()`函数用于实现自适应平均池化,能够将输入特征图调整到指定的输出尺寸,而不需要手动计算池化核大小和步长。
1327 1
Pytorch学习笔记(五):nn.AdaptiveAvgPool2d()函数详解
|
7月前
|
Java 数据库连接 数据库
Java 相关知识点总结含基础语法进阶技巧及面试重点知识
本文全面总结了Java核心知识点,涵盖基础语法、面向对象、集合框架、并发编程、网络编程及主流框架如Spring生态、MyBatis等,结合JVM原理与性能优化技巧,并通过一个学生信息管理系统的实战案例,帮助你快速掌握Java开发技能,适合Java学习与面试准备。
356 2
Java 相关知识点总结含基础语法进阶技巧及面试重点知识
|
存储 安全 区块链
未来网络架构:从中心化到去中心化的演进
【10月更文挑战第20天】 在数字时代,网络架构是支撑信息社会的基石。本文将探讨网络架构如何从传统的中心化模式逐步演变为更加灵活、高效的去中心化模式。我们将分析这一转变背后的技术驱动力,包括区块链、分布式账本技术和点对点(P2P)网络,以及这些技术如何共同作用于网络的未来形态。文章还将讨论去中心化网络架构面临的挑战和潜在的解决方案,为读者提供一个关于网络未来发展的宏观视角。
687 12
|
7月前
|
存储 JSON API
文本存储免费API接口教程
接口盒子提供免费文本存储服务,支持1000条记录,每条最多5000字符,适用于公告、日志、配置等场景,支持修改与读取。
254 0
|
监控 安全 数据挖掘
项目管理模型盘点:22个模型工具助你高效管理
从情境领导力到复杂性管理,5分钟了解22个项目管理模型。
616 0
项目管理模型盘点:22个模型工具助你高效管理
|
SQL Java 数据库连接
成功解决:was not registered for synchronization because synchronization is not active
这篇文章是关于解决Mybatis在同步过程中出现"was not registered for synchronization because synchronization is not active"错误的技术博客。
成功解决:was not registered for synchronization because synchronization is not active
|
开发框架 前端开发 JavaScript
使用FastReport报表动态更新人员签名图片
使用FastReport报表动态更新人员签名图片
|
分布式计算 运维 算法
DII—算法服务利器
随着集团内各种离线处理、实时反馈、在线学习和分析系统的发展壮大,为算法同学使用数据提供了更多的手段和玩法,能够从数据中挖掘出更多的宝藏。但是仅仅产出数据是不够的,他们需要将数据结合算法在线服务的方式应用到业务中去,才能真正产生价值。从搜索事业部的现状来看,算法的作用方式主要有两种,一种是嵌入引擎内.
11993 2

热门文章

最新文章