大数据近实时数据投递 Maxcompute 最佳实践 | 学习笔记

本文涉及的产品
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 快速学习大数据近实时数据投递 Maxcompute 最佳实践

开发者学堂课程【SaaS  模式云数据仓库系列课程 —— 2021数仓必修课大数据近实时数据投递  Maxcompute  最佳实践】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/55/detail/1059


大数据近实时数据投递  Maxcompute  最佳实践


内容简介:

一、场景描述

二、适用场景

三、部署架构

四、开源大数据基础架构

五、大数据分析平台

六、飞天大数据计算服务


一.场景描述

离线大数据数据仓库建设背景下,使用  MaxCompute  构建云上近实时数仓。

打通云下数据  上云链路,解决数据复杂类型支持和动态分区问题,满足高级数据处理需求。


二.适用场景

1.离线大数据:

近实时,非在线实时数据仓库,能容忍数据一定的延时。

比如在线教育、  电商、游戏等行业按小时级、天、周级别提供的运营报表。

2、对应用无侵入:

不修改现有的应用逻辑,直接从数据汇集环节切入。

开源大数据架构向云端高性能、高弹性、高安全、免运维大数据平台迁移,进一步对接  机器学习、推荐引擎、数据可视化分析、移动数据分析等大数据产品。

行业标签:互联网、新零售、教育、游戏、通用

‘品标签:ECS、RAM、DataHub. E-MapReduce DataWork,Maxcomputer等


三.部署架构

①地域  AEMR  集群部署  Kafka,模拟线下环境。

②地域  B  部署  DataHub、 MaxCompute、 DataWorks  服务实例,为云上环境。

地域A(模拟IDC)

地域B(模拟云上)

所有的数据是通过服务器,投递到EM上的集群,也可通过日志的数据,数据库类型的数据,不同的数据源。

数据的生产阶段

数据链路

数据生产,数据汇聚,数据上云,数用户自定义的一个转换处理据投递,UDTF  数据处理以及周期入仓,应用服务器或者  APP,投递到  Kafka 集群的  top里面,做一个数据汇聚,通过  logstash  的工具把数据从线下的  Kafka  集群拉取到datahub  里面去,在  datahub  里面我们去配置  Maxcomputer   同步,首先同步到临时表里面去,模拟了各种复杂结构,在  Maxcomputer这一层做一个复杂转换,先写一个  Maxcomputer  里面的一个临时表,有一个  UDTF  的处理,

computer  一个周期调度,把临时表里面的数据按照周期的调用,完成一个数据的入仓,最下面是  dataworks  是一个一站式的数据开发平台,能够提供一些可视化的界面,方便大家后续的处理。


四、开源大数据基础架构

1.数据源 结构化数据:

mySQL  半结构化数据:  noSQL  或者配置/日志文件  

非结构化数据:视频/音频文件发的

2.数据接入

3.数据处理

4.数据应用


五、大数据分析平台(开源)

①产品形态

一体化智能实时离线大数据分析平台。

支持实时/离线/在线/机器学习学习等多维度数据分析应用

EMR + Flink+ Presto/Impala(+ DataWorks)   (公共云/专有云)

数据采集

数据计算存储

数据应用

EMR+ Spark + DeltaLake (+ DataWorks)  (公共云)

②应用场景

Flink/Spark

Portal

实时数据计算

实时数据与离线历史数据联合计算分析

EMR-Kafka

批处理与流式处理协同计算

分布式数据分发

高吞吐与低延迟的需求并存场景

DataV

Holores/Presto/

③客户画像与痛点

CLA分料

Impala

有大数据离线与实时双重需求且有大数据

实时数据分析

定制开发能力的互联网游戏/电商/广告类客户

倾向以开源hadoop生态来对接各种开源

技术的科技类公司(互联网/金融)

④业务价值优势

深度开源体系优化的大数据平台

批流一体,高吞吐,低延迟,流式  SQL  计算

对接领先开源技术。

支持计算与存储分离,jindofs  引擎支持开源hdfs读写性能加速

大数据+机器学习AI平台(飞天大数据套件,离线  AI  )

方案介绍

借助大数据分布式计算能力的离线机器学习AI平台方案,支持  GPU  分布式深度学习测试,

产品形态

MaxCompute + PAl+ DataWorks  (公共云/专  

应用场景

互联网:

智能推荐,机器翻译,  OCR  文字识别,  NLP  语义解析。

传统行业:

车辆网,视频监控识别,无人机巡检  金融行业:基于分布式计算的风控、营销、推  荐算法开发。

客户画像与痛点

有数据挖掘或机器学习团队,缺乏自建机  器学习平台能力。

熟悉单机机器学习算法开发,寻求分布式机  器学习计算引擎与成熟分布式机器学习算  法的互联网/金融行业客户。

业务价值优势

200+自研分布式机器学习算法,经过阿里生态内部业务海量数据验证。

快:大数据+机器学习一体化架构,可视化  建模方式,机器学习实验可以开箱即用。  

省:以大数据平台为基础,充分利用已购  资源,无需复杂的数据转换、数据转移过  程,省人力,省时间,省费用。


六、MaxCompute  :飞天大数据计算服务

Serverless设计一开箱即用、免部署、免运维

. 高性能/低成本一比现有开源方案降低成本到1/3

.阿里巴巴最佳实践-企业级/金融级服务能力,原生支持高安全性和数据容灾理能力。

.阿里云核心产品,数万公共云客户,专有云300套部署各行业,NPS  客户满意度排名7

开箱即用,在线服务

五分钟即可开通大数据平台

1.五分钟开通

2.无需平台维护

3.一站式大数据服务

高效能低成本

持续高效低成本的大数据引擎

1.成本最低

2.速度最快

3.按需扩展

安全可靠

多用户数据安全保障机制

1.项目级别安全

2.跨租户访问控制

3.久经考验

支持多种分布式计算模型

满足不同场景下的技术需求

1.SQL

2.Map reduce  

3.图计算

生态融合

支持多种数据源,生态工具和标准

1.数据上云

2.社区兼容

3.生态连接

ataWorks:飞天大数据开发平台

数据综合治理

1.数据资产

2.数据质量

3.数据安全

4.数据分析

5.智能监控

6.数据分享

智能云上插件化集成开发环境  XStudio

智能数据开发

1.交互式查询

2.图计算分析

3.数据服务

4.应用开发

5.离线开发

6.实时开发

7.机器学习

统一任务调度

1.跨引擎混合调度

2.跨地域混合调度

3.跨云混合调度

4.流批统一调度

5.调度流程逻辑控制

统一元数据中心

1.异构数据源管理

2.元数据采集与构建

3.元数据仓库

4.元数据服务

全域数据集成

1.批量同步

2.增量同步

3.实时同步

4.数据转换

5.10T端采集

RealtimeCompute

GraphComoute

Interacive Analytic

计算存储引擎

1.阿里大数据计算服务

2.开源大数据计算平台

3.实时计复

4.图计算引

5.交互式分析引掌

方案适配难度

.本最佳实践包含  Step by Step  文档及  sample code  说明,可由文档使用者自行完成。

.本最佳实践适合数据仓库管理员或架构师作为混合云云上数据仓库构建PoC验证使用,也可做为实际  大数据架构的基础参考。

.使用该最佳实践需要熟悉开源大数据相关组件、工具,如  ERM、Kafka、Logstash等;熟悉云端大数  据产品  MaxCompute、 DataWorks、DataHub  的产品概念及操作,难度略高。

Step by Step

①EMR-Kafka  集群部署。

②业务数据投递至  Kafka。

③>Kafka  数据通过  Logstash  拉取至云数据总

地域A(模拟 IDC)

线  DataHub。

④投递至 DataHub  的数据同步至

MaxCompute。

ECS

⑤使用  DataWorks  部署 UDTF  完成复杂数据  结构转换并周期调度。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
28天前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
7天前
|
数据采集 监控 数据管理
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第26天】随着信息技术的发展,数据成为企业核心资源。本文探讨大数据平台的搭建与数据质量管理,包括选择合适架构、数据处理与分析能力、数据质量标准与监控机制、数据清洗与校验及元数据管理,为企业数据治理提供参考。
38 1
|
25天前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
77 1
|
29天前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
46 3
|
2天前
|
存储 大数据 定位技术
大数据 数据索引技术
【10月更文挑战第26天】
10 3
|
2天前
|
存储 大数据 OLAP
大数据数据分区技术
【10月更文挑战第26天】
11 2
|
4天前
|
消息中间件 分布式计算 大数据
数据为王:大数据处理与分析技术在企业决策中的力量
【10月更文挑战第29天】在信息爆炸的时代,大数据处理与分析技术为企业提供了前所未有的洞察力和决策支持。本文探讨了大数据技术在企业决策中的重要性和实际应用,包括数据的力量、实时分析、数据驱动的决策以及数据安全与隐私保护。通过这些技术,企业能够从海量数据中提取有价值的信息,预测市场趋势,优化业务流程,从而在竞争中占据优势。
29 1
|
6天前
|
数据采集 分布式计算 大数据
数据治理之道:大数据平台的搭建与数据质量管理
【10月更文挑战第27天】在数字化时代,数据治理对于确保数据资产的保值增值至关重要。本文探讨了大数据平台的搭建和数据质量管理的重要性及实践方法。大数据平台应包括数据存储、处理、分析和展示等功能,常用工具如Hadoop、Apache Spark和Flink。数据质量管理则涉及数据的准确性、一致性和完整性,通过建立数据质量评估和监控体系,确保数据分析结果的可靠性。企业应设立数据治理委员会,投资相关工具和技术,提升数据治理的效率和效果。
29 2
|
9天前
|
存储 安全 大数据
大数据隐私保护:用户数据的安全之道
【10月更文挑战第31天】在大数据时代,数据的价值日益凸显,但用户隐私保护问题也愈发严峻。本文探讨了大数据隐私保护的重要性、面临的挑战及有效解决方案,旨在为企业和社会提供用户数据安全的指导。通过加强透明度、采用加密技术、实施数据最小化原则、加强访问控制、采用隐私保护技术和提升用户意识,共同推动大数据隐私保护的发展。
|
13天前
|
SQL 存储 大数据
大数据中数据提取
【10月更文挑战第19天】
34 2