浅谈大数据平台架构

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:
                           什么是大数据平台

有三个疑问:

1.使用Cloudera或Hortonworks之类的Hadoop发行版本公司的提供的Hadoop套件,配置些参数,找几台服务器部署起来就算是一套大数据平台吗?

2.数据开发人员平时的工作是不是写些MR或者SQL任务,使用原生的命令行提交任务就可以了吗?

3.平台开发人员日常的工作是不是处理下集群的故障,给业务方扫盲,纠正各种框架组件使用姿势呢?

大数据平台个人理解:

是基于开源或自研组件的基础上创造更多的附件价值,提供给用户一个
完整的大数据业务解决方案,而不仅仅是做一个集群的维护者

                            大数据平台的价值
                            

1.数据开发角度
一.降低数据开发门槛
二.提升数据开发人员效率

2.运维角度
一.降低运维门槛
二.提升运维效率

3.公司角度
一.数据统一管理(OneData理念),降低成本

                           大数据平台架构选型

                         

_

离线计算:

1.Spark+SparkSQL
2.MR(Hadoop)+HiveSQL

离线数据同步:

1.DataX(Alibaba,开源支持单机版本)

  1. FlinkX(Dtstack,开源支持单机,standalone,yarn 模式)
  2. Sqoop(只能做Hadoop和关系型数据库之间的数据同步)
  3. Kettle

实时计算:

1.Flink
2.SparkStreaming

  1. Storm
  2. JStorm(Alibaba)
  3. StreamCQL(华为)

实时数据同步:

1.Flume

  1. Logstash(Elastic)
  2. JLogstash(Dtstack)

多维分析(即席查询):

1.Kylin

  1. SparkSQL+CarbonData
  2. Impala+Kudu 或Parquet

机器学习:

1.Spark MLib

  1. Flink MLib
  2. XGBoost

深度学习:

1.TensorFlow

  1. Caffe
  2. Keras
  3. Keras

资源管理器:

1.Yarn

  1. Mesos
  2. Kubernetes+Docker

集群管理:

1.Cloudera
2.星环

  1. Hortonworks
  2. Ambari
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3月前
|
存储 搜索推荐 数据建模
阿里巴巴大数据实践之数据建模:构建企业级数据湖
阿里巴巴通过构建高效的数据湖和实施先进的数据建模策略,实现了数据驱动的业务增长。这些实践不仅提升了内部运营效率,也为客户提供了更好的服务体验。随着数据量的不断增长和技术的不断创新,阿里巴巴将持续优化其数据建模方法,以适应未来的变化和发展。
|
Cloud Native 关系型数据库 MySQL
下一代企业级云原生实时数仓的创新和实践(一)
下一代企业级云原生实时数仓的创新和实践(一)
289 1
|
消息中间件 缓存 Prometheus
大数据平台小结
大数据平台小结
178 0
|
存储 SQL 分布式计算
一文读懂云原生一体化数仓
阿里云云原生一体化数仓产品技术深度解读。
一文读懂云原生一体化数仓
|
存储 SQL 分布式计算
阿里云云原生一体化数仓 — 湖仓一体新能力解读
本文主要介绍如何通过湖仓一体,打通 MaxCompute 与 Hadoop、DLF/OSS 数据湖,以及 Hologres、MySQL 等数据平台,并通过 DataWorks 做统一数据开发和治理。
2934 1
阿里云云原生一体化数仓 — 湖仓一体新能力解读
|
存储 分布式计算 DataWorks
阿里云云原生一体化数仓 — 数据治理新能力解读
本文介绍大数据开发治理平台DataWorks在数据治理领域的最新产品进展,包括基于事前、事中、事后的全链路理念构建的核心产品功能和数据治理量化评估机制解读,以及围绕降本增效的成本治理最佳实践。
3289 0
阿里云云原生一体化数仓 — 数据治理新能力解读
|
存储 SQL JSON
阿里云云原生一体化数仓 — 分析服务一体化新能力解读
本文主要介绍如何通过Hologres在分析和服务场景下的新功能,包括资源隔离,数据湖(Delta、Hudi)的支持、JSON优化支持等。
1074 0
阿里云云原生一体化数仓 — 分析服务一体化新能力解读
|
分布式计算 DataWorks Cloud Native
云原生一体化数仓的核心
云原生一体化数仓的核心
144 0
|
分布式计算 DataWorks Cloud Native
云原生一体化数仓是什么
云原生一体化数仓是什么
164 0