使用Relational Cache加速EMR Spark数据分析
Relational Cache的强大功能赋予了Spark更多的可能,通过Relational Cache,用户可以提前将任意关系型数据(Table/View/Dataset)cache到任意Spark支持的DataSource中,并支持灵活的cache数据组织方式,基于此,Relational Cache可以在诸多应用场景中帮助用户加速Spark数据分析。
hadoop整体结构图及服务组件详解
hadoop服务组件简单解释
1、core 分布式系统和通用IO组件和接口(序列化、java远程调用等等服务)
2、avro 支持跨语言过程调用,持久数据存储的数据序列化系统
3、MapReduce 构建在廉价的pc机器上分布式数据处理模型和运行环境
4、hdfs 构建廉价的pc机器上分布式文件系统
5、pig 处理海量数据集的数据流语
Hive介绍与核心知识点
Hive
Hive简介
Facebook为了解决海量日志数据的分析而开发了Hive,后来开源给了Apache软件基金会。
官网定义:
The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL.
Hive是一种用类SQL语句来协助读写、管理那些存储在分布式存储系统上大数据集的数据仓库软件。
一文读懂Apache Flink发展史
本文整理自开源大数据专场中阿里巴巴高级技术专家杨克特(鲁尼)先生的精彩演讲,主要讲解了Apache Flink过去和现在的发展情况,同时分享了对Apache Flink未来发展方向的理解。