假如大数据组件中的动物都变成神奇宝贝,那会变成什么样?(大数据的组件动漫化)

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
服务治理 MSE Sentinel/OpenSergo,Agent数量 不受限
简介: 假如大数据组件中的动物都变成神奇宝贝,那会变成什么样?(大数据的组件动漫化)

假如大数据组件中的动物都变成神奇宝贝,那会变成什么样?

第一个神奇宝贝 Hadoop

Hadoop

Hadoop 是采用了 Map Reduce 的一种分布式的计算框架,它是根据 GFS去开发了 HDFS 分布式文件系统,还有根据 Big

Table 开发了 HBase数据存储系统。可以了解到的是,Hadoop 的开源特性成为了分布式计算系统事实上的国际标准。

Hadoop又分为两个模块,分别是HDFS和MapReduce

HDFS

它是由Google File System而来,全称是Hadoop Distributed File

System,是Hadoop的分布式文件系统,有许多机器组成的,可以存储大型数据文件。

它是由NameNode和DataNode组成,NameNode可以配置成HA(高可用),避免单点故障。一般用Zookeeper来处理。两个NameNode是同步的。

MapReduce

主要由Google Reduce而来,它简化了大型数据的处理,是一个并行的,分布式处理的编程模型。

hadoop2.0它是基于YARN框架构建的。YARN的全称是Yet-Another-Resource-Negotiator。Yarn可以运用在S3|Spark等上。

第二个神奇宝贝 Hive

Hive

它是Hadoop的数据仓库(DW),它可以用类似SQL的语言HSQL来操作数据,很是方便,主要用来联机分析处理OLAP(On-Line Analytical Processing),进行数据汇总|查询|分析。

第三个神奇宝贝 Hbase

第四个神奇宝贝的管理员 Zookeeper

Zookeeper

它是一个分布式服务框架,是Apache Hadoop 的一个子项目,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,如:统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。

上面的解释有点抽象,简单来说zookeeper=文件系统+监听通知机制。

第五个昆虫 Kafka

Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。 对于像Hadoop一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。

第六个灌木 Flume

apache Flume 是一个从可以收集例如日志,事件等数据资源,并将这些数量庞大的数据从各项数据资源中集中起来存储的工具/服务,或者数集中机制。flume具有高可用,分布式,配置工具,其设计的原理也是基于将数据流,如日志数据从各种网站服务器上汇集起来存储到HDFS,HBase等集中存储器中。

第七个神奇宝贝 Impala

Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据。已有的Hive系统虽然也提供了SQL语义,但由于Hive底层执行使用的是MapReduce引擎,仍然是一个批处理过程,难以满足查询的交互性。相比之下,Impala的最大特点也是最大卖点就是它的快速。

第八个怪蜀黍 哈利波特与Azkaban


Azkaban是一套简单的任务调度服务,整体包括三部分webserver、dbserver、executorserver。

是linkin的开源项目,开发语言为Java。

Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。

Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。

第九个神奇宝贝Sqoop

Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。

第十个神奇宝贝Hue

HUE(Hadoop User Experience)是一个与Hadoop生态系统紧密结合的Web UI应用程序,可以通过Hue来查看管理HDFS上的文件、通过Hue从界面编写sql语句对Hive进行查询,并使用图表直观的展示查询结果、可以与Oozie集成,用于创建和监控工作流程等等。

第十一个神奇宝贝 Spark

Apache Spark是一个开源集群运算框架,相对于Hadoop的MapReduce会在运行完工作后将中介数据存放到磁盘中,Spark使用了存储器内运算技术,能在数据尚未写入硬盘时即在存储器内分析运算

第十二个神奇宝贝 Flink

Apache Flink是由Apache软件基金会开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。Flink以数据并行和流水线方式执行任意流数据程序,Flink的流水线运行时系统可以执行批处理和流处理程序。此外,Flink的运行时本身也支持迭代算法的执行。

第十三个神奇宝贝 Kudu

第十四个神奇宝贝 SurperSet

第十五个神奇宝贝 Mysql Oracle


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
5月前
|
JavaScript 大数据 Python
原生大数据|elasticSearch|低版本kibana组件的汉化
原生大数据|elasticSearch|低版本kibana组件的汉化
29 0
|
5月前
|
监控 物联网 大数据
助力工业物联网,工业大数据之服务域:AirFlow的架构组件【三十二】
助力工业物联网,工业大数据之服务域:AirFlow的架构组件【三十二】
49 0
|
5月前
|
大数据 Java 分布式数据库
使用记忆法打造你的大数据组件的默认端口号记忆宫殿
使用记忆法打造你的大数据组件的默认端口号记忆宫殿
30 0
|
5月前
|
大数据
大数据组件的默认端口号思维导图
大数据组件的默认端口号思维导图
25 0
|
5月前
|
SQL 分布式计算 Hadoop
假如大数据组件中的动物都变成神奇宝贝,那会变成什么样?
假如大数据组件中的动物都变成神奇宝贝,那会变成什么样?
29 1
|
5月前
|
Ubuntu 大数据 Linux
【大数据组件】一篇文章让你快速入门Docker
【大数据组件】一篇文章让你快速入门Docker
40 0
|
7月前
|
SQL 分布式计算 大数据
分享一个大数据应用因为和大数据集群服务端组件的版本冲突引起的问题
分享一个大数据应用因为和大数据集群服务端组件的版本冲突引起的问题
|
7月前
|
SQL 大数据 API
大数据组件-Flink环境搭建
大数据组件-Flink环境搭建
118 0
|
7月前
|
Oracle 大数据 关系型数据库
大数据组件-Flume集群环境的启动与验证
大数据组件-Flume集群环境的启动与验证
94 0
|
1天前
|
分布式计算 DataWorks 关系型数据库
DataWorks产品使用合集之在DataWorks中,MaxCompute创建外部表,MaxCompute和DataWorks的数据一直保持一致如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
9 0
DataWorks产品使用合集之在DataWorks中,MaxCompute创建外部表,MaxCompute和DataWorks的数据一直保持一致如何解决

热门文章

最新文章