浅谈大数据平台架构

本文涉及的产品
实时计算 Flink 版,1000CU*H 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介:
                           什么是大数据平台

有三个疑问:

1.使用Cloudera或Hortonworks之类的Hadoop发行版本公司的提供的Hadoop套件,配置些参数,找几台服务器部署起来就算是一套大数据平台吗?

2.数据开发人员平时的工作是不是写些MR或者SQL任务,使用原生的命令行提交任务就可以了吗?

3.平台开发人员日常的工作是不是处理下集群的故障,给业务方扫盲,纠正各种框架组件使用姿势呢?

大数据平台个人理解:

是基于开源或自研组件的基础上创造更多的附件价值,提供给用户一个
完整的大数据业务解决方案,而不仅仅是做一个集群的维护者

                            大数据平台的价值
                            

1.数据开发角度
一.降低数据开发门槛
二.提升数据开发人员效率

2.运维角度
一.降低运维门槛
二.提升运维效率

3.公司角度
一.数据统一管理(OneData理念),降低成本

                           大数据平台架构选型

                         

_

离线计算:

1.Spark+SparkSQL
2.MR(Hadoop)+HiveSQL

离线数据同步:

1.DataX(Alibaba,开源支持单机版本)

  1. FlinkX(Dtstack,开源支持单机,standalone,yarn 模式)
  2. Sqoop(只能做Hadoop和关系型数据库之间的数据同步)
  3. Kettle

实时计算:

1.Flink
2.SparkStreaming

  1. Storm
  2. JStorm(Alibaba)
  3. StreamCQL(华为)

实时数据同步:

1.Flume

  1. Logstash(Elastic)
  2. JLogstash(Dtstack)

多维分析(即席查询):

1.Kylin

  1. SparkSQL+CarbonData
  2. Impala+Kudu 或Parquet

机器学习:

1.Spark MLib

  1. Flink MLib
  2. XGBoost

深度学习:

1.TensorFlow

  1. Caffe
  2. Keras
  3. Keras

资源管理器:

1.Yarn

  1. Mesos
  2. Kubernetes+Docker

集群管理:

1.Cloudera
2.星环

  1. Hortonworks
  2. Ambari
相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
目录
相关文章
|
网络协议 开发工具 对象存储
OSS正式支持IPv6公测
6月20日阿里云宣布全面支持IPv6, 随后阿里云开放对象存储OSS也逐步开始向用户公测,本周主要介绍如何在OSS上测试IPv6。
3732 0
|
7月前
|
运维 监控 应用服务中间件
|
10月前
|
存储 安全 算法
陪玩系统功能 陪玩平台 陪玩系统用户体验 陪玩系统安全性 陪玩系统开发
陪玩系统旨在为用户寻找合适的陪玩者,提供注册登录、资料展示、搜索匹配、预约支付、实时沟通及评价反馈等功能。平台拥有丰富的陪玩资源,便捷的预约流程,安全的支付环境和良好的用户体验。系统通过优化算法、提升沟通效率、丰富服务内容和建立社区互动来提升用户体验。安全性方面,系统采用数据加密、防火墙、支付安全和实名认证等措施。开发过程包括需求分析、系统设计、前后端开发、测试优化和上线推广。
864 2
|
SQL 数据采集 DataWorks
DataWorks重磅推出Serverless资源组,实现低成本灵活付费和动态平滑扩缩容
DataWorks资源组2.0上线,提供低成本、动态扩缩容的数据计算资源服务。
55622 13
DataWorks重磅推出Serverless资源组,实现低成本灵活付费和动态平滑扩缩容
|
存储 数据可视化 大数据
大数据平台架构设计与实施
【7月更文挑战第3天】本文探讨了大数据平台的关键技术,包括数据采集(如Kafka、Flume)、存储(HDFS、HBase、Cassandra)、处理(Hadoop、Spark)、分析挖掘及可视化工具。架构设计涉及数据收集、存储、处理、分析和应用层,强调各层次的协同与扩展性。实施步骤涵盖需求分析、技术选型、架构设计、系统部署、数据迁移、应用开发测试及上线运维,旨在为企业决策提供强有力的数据支持。
|
Kubernetes 监控 测试技术
k8s学习--OpenKruise详细解释以及原地升级及全链路灰度发布方案
k8s学习--OpenKruise详细解释以及原地升级及全链路灰度发布方案
434 0
|
算法框架/工具 机器学习/深度学习 Python
Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版(一)(3)
Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版(一)
254 0
Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版(一)(3)
|
Web App开发 弹性计算 Kubernetes
云原生系列 【基于CCE Kubernetes编排实战】
## 基于CCE Kubernetes编排实战 #### 本实验用于指导学员基于CCE完成Kubernetes实验操作。主要包含Kubernetes控制器Deployment、DaemonSet编排操作。 操作前提:预置环境与登录华为云收起 ①预置环境 实验开始之前,为什么需要先预置实验环境? 注意:开始实验之前请点击手册上方"预置实验环境"按钮。 预置实验环境约等待【1分钟】后预置成功。环境预置成功会生成以分配的华为云账号命名的Vpc、安全组。 (2)登录华为云进入【实验操作桌面】,打开Chrome浏览器,首次可自动登录并进入华为云 控制台页面。 如后续关闭浏览器重新登陆或自动
447 1
|
JavaScript 前端开发 iOS开发
【macOS 系列】如何在mac下安装nvm实现多版本nodejs
【macOS 系列】如何在mac下安装nvm实现多版本nodejs
751 0
|
SQL 存储 数据采集
一图看懂企业大数据平台核心架构,值得参考!
一图看懂企业大数据平台核心架构,值得参考!
1126 0
一图看懂企业大数据平台核心架构,值得参考!