浅谈大数据平台架构

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:
                           什么是大数据平台

有三个疑问:

1.使用Cloudera或Hortonworks之类的Hadoop发行版本公司的提供的Hadoop套件,配置些参数,找几台服务器部署起来就算是一套大数据平台吗?

2.数据开发人员平时的工作是不是写些MR或者SQL任务,使用原生的命令行提交任务就可以了吗?

3.平台开发人员日常的工作是不是处理下集群的故障,给业务方扫盲,纠正各种框架组件使用姿势呢?

大数据平台个人理解:

是基于开源或自研组件的基础上创造更多的附件价值,提供给用户一个
完整的大数据业务解决方案,而不仅仅是做一个集群的维护者

                            大数据平台的价值
                            

1.数据开发角度
一.降低数据开发门槛
二.提升数据开发人员效率

2.运维角度
一.降低运维门槛
二.提升运维效率

3.公司角度
一.数据统一管理(OneData理念),降低成本

                           大数据平台架构选型

                         

_

离线计算:

1.Spark+SparkSQL
2.MR(Hadoop)+HiveSQL

离线数据同步:

1.DataX(Alibaba,开源支持单机版本)

  1. FlinkX(Dtstack,开源支持单机,standalone,yarn 模式)
  2. Sqoop(只能做Hadoop和关系型数据库之间的数据同步)
  3. Kettle

实时计算:

1.Flink
2.SparkStreaming

  1. Storm
  2. JStorm(Alibaba)
  3. StreamCQL(华为)

实时数据同步:

1.Flume

  1. Logstash(Elastic)
  2. JLogstash(Dtstack)

多维分析(即席查询):

1.Kylin

  1. SparkSQL+CarbonData
  2. Impala+Kudu 或Parquet

机器学习:

1.Spark MLib

  1. Flink MLib
  2. XGBoost

深度学习:

1.TensorFlow

  1. Caffe
  2. Keras
  3. Keras

资源管理器:

1.Yarn

  1. Mesos
  2. Kubernetes+Docker

集群管理:

1.Cloudera
2.星环

  1. Hortonworks
  2. Ambari
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
机器学习/深度学习 存储 人工智能
从大数据平台CDP的架构看大数据的发展趋势 2
从大数据平台CDP的架构看大数据的发展趋势
|
存储 弹性计算 大数据
从大数据平台CDP的架构看大数据的发展趋势 1
从大数据平台CDP的架构看大数据的发展趋势
|
消息中间件 缓存 Prometheus
大数据平台小结
大数据平台小结
198 0
|
存储 SQL 分布式计算
一文读懂云原生一体化数仓
阿里云云原生一体化数仓产品技术深度解读。
一文读懂云原生一体化数仓
|
存储 SQL 分布式计算
阿里云云原生一体化数仓 — 湖仓一体新能力解读
本文主要介绍如何通过湖仓一体,打通 MaxCompute 与 Hadoop、DLF/OSS 数据湖,以及 Hologres、MySQL 等数据平台,并通过 DataWorks 做统一数据开发和治理。
3064 1
阿里云云原生一体化数仓 — 湖仓一体新能力解读
|
分布式计算 DataWorks Cloud Native
云原生一体化数仓的核心
云原生一体化数仓的核心
157 0
|
分布式计算 DataWorks Cloud Native
云原生一体化数仓是什么
云原生一体化数仓是什么
180 0
|
机器学习/深度学习 存储 分布式计算
离线实时一体化数仓与湖仓一体—云原生大数据平台的持续演进
阿里云智能研究员 林伟 :阿里巴巴从湖到仓的演进给我们带来了湖仓一体的思考,使得湖的灵活性、数据种类丰富与仓的可成长性和企业级管理得到有机融合,这是阿里巴巴最佳实践的宝贵资产,是大数据的新一代架构。
3625 0
离线实时一体化数仓与湖仓一体—云原生大数据平台的持续演进
|
存储 JSON 分布式计算
如何快速搭建云原生企业级数据湖架构及实践分享
众所周知,数据湖技术在大数据领域炙手可热,随着在云上的广泛部署和应用,其业务价值逐渐获得业界共识。如何快搭建数据湖架构被越来越多的企业探讨。本文主要分享快速搭建云原生企业级数据湖架构及实践分享。
如何快速搭建云原生企业级数据湖架构及实践分享