Kudu入门_应用场景_项目介绍|学习笔记

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习Kudu入门_应用场景_项目介绍

开发者学堂课程【2020版大数据实战项目之DMP广告系统(第一阶段)Kudu入门_应用场景_项目介绍】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/676/detail/11746


Kudu入门_应用场景_项目介绍


内容介绍:

一、Kudu 阶段的四大部分内容

二、Kudu 的应用场景


一、Kudu 阶段的四大部分内容

1、什么是 kudu

(1)kudu 的应用场景

①设计项目

②选取方案。很多种方案,已迭代的方式选择。

(2)kudu 当中的对比

2、Kudu 的原理

3、kudu 的安装和管理

4、操作 kudu

image.png


二、Kudu 的应用场景

1、设计一个项目

现代大数据的应用场景

例如现在要做一个类似物联网的项目,可能是对某个工厂的 生产数据进行分析。工业大数据可以这么理解:

假设有一个工厂,工厂里面有特别多的机器,大概有几百条,有一个数据中心,然后把机器设备的数据放到数据中心。

(1)项目特点:

①数据量大

机器会不断生产,在生产的过程中会源源不断的产生一些数据,这些数据基本上都是事件的形式,放到数据中心来。有一个非常重大的挑战,就是这些设备可能很多,其所产生的事件记录可能也很大,所以需要对设备进行数据收集和分析的话,需要使用一些大数据组件和功能。(机器会不断生产,在生产的过程中会源源不断的产生一些数据,这些数据基本上都是事件的形式,放到数据中心来。)

设备把数据收集出来放到平台当中,然后数据应用就会到平台上进行数据查询。

image.png

(2)流式处理

因为数据是事件,事件是一个一个来的,并且如果快速查看结果的话,必须使用流计算来处理这些数据。比如我们希望通过数据中心来查看当前工厂机器的运行状态,就得尽可能最快的获取,就必须进行流式处理。

(3)数据需要存储

最终需要对数据进行统计和分析,所以数据要先有一个地方存,后再通过可视化平台去分析和处理 。

image.png

2、对存储层的要求

数据存储的关键问题就是对存储的要求,比如说现在有一个访问模式,这样的一个流计算系统,需要对数据进行处理

(1)和流数据进行配合要能够及时的看到最近的数据,判断系统是否有异

(2)要能够扫描历史数据,从而改进设备和流程

对数据存储层就有可能进行如下的操作

(1)逐行插入,因为数据是一行一行来的,要想及时看到,就需要来一行插入一行

(2)低延迟随机读取,如果想分析某台设备的信息,就需要在数据集中随机读取某一个设备的事件记录(批量读取为来一天的数据,随机读取就是具体查取某一台机器比如001的数据。)

(3)快速分析和扫描,数据分析师需要快速的得到结论,执行一行 SOL 等上十天是不行的。

在项目中对存储层要求是随机插入,低延迟随机读,以及能批量读和分析。随机插入是 mysql oltp 比较擅长。低延迟随机读也是 OLTP 中常用的手段,查某一部分数据,有一些判断。批量读和分析是 hdfs 中的方式,把文件 hdfs 中,hdfs 是分片的,所以读取性能非常高。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
NoSQL BI 数据处理
【超实用攻略】MongoDB 聚合框架:从入门到精通,带你解锁数据处理新姿势!
【8月更文挑战第24天】MongoDB是一款以其灵活性和高性能闻名的NoSQL数据库。其强大的聚合框架采用管道式处理,允许用户定义多个数据处理阶段如过滤、分组等。本文通过示例数据库`orders`和`products`,演示如何利用聚合框架计算各产品的总销售额。示例代码展示了使用`$lookup`连接两集合、`$unwind`打平数组及`$group`按产品ID分组并计算总销售额的过程。这突显了聚合框架处理复杂查询的强大能力,是进行数据分析和报表生成的理想选择。
33 3
|
消息中间件 分布式计算 搜索推荐
【KafkaStream】微服务学习笔记十一:流式计算概述&KafkaStream入门
【KafkaStream】微服务学习笔记十一:流式计算概述&KafkaStream入门
434 0
【KafkaStream】微服务学习笔记十一:流式计算概述&KafkaStream入门
|
NoSQL 架构师 数据建模
干货教程 | MongoDB 熟练到精通(一):模型设计基础知识详解
本文为《MongoDB 熟练到精通》系列文章第一弹。该系列内容主要面向开发者,介绍在系统上线之前需要关注的事项,包括如何进行最关键的文档模型设计、读写事务操作,介绍数据安全和事务性等诸多高级参数和特性的含义及使用方式,以及开发者最佳实践。在最基本的数据库增删改查之余,我们更希望通过这部分的学习,让大家有足够的底气把简历上的“熟练使用 MongoDB 进行开发”,改为“精通使用 MongoDB 开发”。下面就让我们一起开启今日份的学习吧。
|
SQL 消息中间件 存储
Kudu入门_应用场景_方案一|学习笔记
快速学习Kudu入门_应用场景_方案一
103 0
Kudu入门_应用场景_方案一|学习笔记
|
SQL 存储 大数据
kudu入门_应用场景_方案二|学习笔记
快速学习kudu入门_应用场景_方案二
100 0
kudu入门_应用场景_方案二|学习笔记
|
存储 分布式计算 数据挖掘
kudu入门_应用场景_方案三|学习笔记
快速学习kudu入门_应用场景_方案三
112 0
kudu入门_应用场景_方案三|学习笔记
|
存储 数据挖掘 分布式数据库
kudu入门 _应用场景_kudu|学习笔记
快速学习kudu入门 _应用场景_kudu
109 0
kudu入门 _应用场景_kudu|学习笔记
|
存储 SQL 分布式计算
Kudu原理_总体设计|学习笔记
快速学习Kudu原理_总体设计
104 0
Kudu原理_总体设计|学习笔记
|
存储 固态存储 关系型数据库
kudu入门_对比|学习笔记
快速学习kudu入门_对比
112 0
|
存储 分布式计算 Java
HBase基本知识和应用场景
HBase基本知识和应用场景
426 0
HBase基本知识和应用场景