Kudu入门_应用场景_项目介绍|学习笔记-阿里云开发者社区

Kudu入门_应用场景_项目介绍|学习笔记

2022-11-23 129

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

云原生大数据计算服务 MaxCompute，5000CU*H 100GB 3个月

云原生大数据计算服务MaxCompute，500CU*H 100GB 3个月

简介： 快速学习Kudu入门_应用场景_项目介绍

开发者学堂课程【2020版大数据实战项目之DMP广告系统（第一阶段）：Kudu入门_应用场景_项目介绍】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/676/detail/11746

Kudu入门_应用场景_项目介绍

内容介绍：

一、Kudu 阶段的四大部分内容

二、Kudu 的应用场景

一、Kudu 阶段的四大部分内容

1、什么是 kudu

（1）kudu 的应用场景

①设计项目

②选取方案。很多种方案，已迭代的方式选择。

（2）kudu 当中的对比

2、Kudu 的原理

3、kudu 的安装和管理

4、操作 kudu

二、Kudu 的应用场景

1、设计一个项目

现代大数据的应用场景

例如现在要做一个类似物联网的项目，可能是对某个工厂的生产数据进行分析。工业大数据可以这么理解：

假设有一个工厂，工厂里面有特别多的机器，大概有几百条，有一个数据中心，然后把机器设备的数据放到数据中心。

（1）项目特点：

①数据量大

机器会不断生产，在生产的过程中会源源不断的产生一些数据，这些数据基本上都是事件的形式，放到数据中心来。有一个非常重大的挑战，就是这些设备可能很多，其所产生的事件记录可能也很大，所以需要对设备进行数据收集和分析的话，需要使用一些大数据组件和功能。（机器会不断生产，在生产的过程中会源源不断的产生一些数据，这些数据基本上都是事件的形式，放到数据中心来。）

设备把数据收集出来放到平台当中，然后数据应用就会到平台上进行数据查询。

（2）流式处理

因为数据是事件，事件是一个一个来的，并且如果快速查看结果的话，必须使用流计算来处理这些数据。比如我们希望通过数据中心来查看当前工厂机器的运行状态，就得尽可能最快的获取，就必须进行流式处理。

（3）数据需要存储

最终需要对数据进行统计和分析，所以数据要先有一个地方存，后再通过可视化平台去分析和处理。

2、对存储层的要求

数据存储的关键问题就是对存储的要求，比如说现在有一个访问模式，这样的一个流计算系统，需要对数据进行处理

（1）和流数据进行配合要能够及时的看到最近的数据，判断系统是否有异

（2）要能够扫描历史数据，从而改进设备和流程

对数据存储层就有可能进行如下的操作

（1）逐行插入，因为数据是一行一行来的，要想及时看到，就需要来一行插入一行

（2）低延迟随机读取，如果想分析某台设备的信息，就需要在数据集中随机读取某一个设备的事件记录（批量读取为来一天的数据，随机读取就是具体查取某一台机器比如001的数据。）

（3）快速分析和扫描，数据分析师需要快速的得到结论，执行一行 SOL 等上十天是不行的。

在项目中对存储层要求是随机插入，低延迟随机读，以及能批量读和分析。随机插入是 mysql oltp 比较擅长。低延迟随机读也是 OLTP 中常用的手段，查某一部分数据，有一些判断。批量读和分析是 hdfs 中的方式，把文件 hdfs 中，hdfs 是分片的，所以读取性能非常高。

相关实践学习

基于MaxCompute的热门话题分析

本实验围绕社交用户发布的文章做了详尽的分析，通过分析能得到用户群体年龄分布，性别分布，地理位置分布，以及热门话题的热度。

SaaS 模式云数据仓库必修课

本课程由阿里云开发者社区和阿里云大数据团队共同出品，是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法，从场景到实践，体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库，助力开发者学习了解先进的技术栈，并能在实际业务中敏捷的进行大数据分析，赋能企业业务。通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景，可应用MaxCompute实现数仓搭建，快速进行大数据分析。适合大数据工程师、大数据分析师大量数据需要处理、存储和管理，需要搭建数据仓库？学它！没有足够人员和经验来运维大数据平台，不想自建IDC买机器，需要免运维的大数据平台？会SQL就等于会大数据？学它！想知道大数据用得对不对，想用更少的钱得到持续演进的数仓能力？获得极致弹性的计算资源和更好的性能，以及持续保护数据安全的生产环境？学它！想要获得灵活的分析能力，快速洞察数据规律特征？想要兼得数据湖的灵活性与数据仓库的成长性？学它！出品人：阿里云大数据产品及研发团队专家产品 MaxCompute 官网 https://www.aliyun.com/product/odps