hadoop整体结构图及服务组件详解
hadoop服务组件简单解释
1、core 分布式系统和通用IO组件和接口(序列化、java远程调用等等服务)
2、avro 支持跨语言过程调用,持久数据存储的数据序列化系统
3、MapReduce 构建在廉价的pc机器上分布式数据处理模型和运行环境
4、hdfs 构建廉价的pc机器上分布式文件系统
5、pig 处理海量数据集的数据流语
Hive执行sql,报内存溢出
应用场景
搭建了hadoop伪分布式集群,并且在其上搭建了hive环境,但是在执行HQL语句的时候,老是报内存溢出,很麻烦,只需要简单设置,就可以解决该问题。
Hive介绍与核心知识点
Hive
Hive简介
Facebook为了解决海量日志数据的分析而开发了Hive,后来开源给了Apache软件基金会。
官网定义:
The Apache Hive ™ data warehouse software facilitates reading, writing, and managing large datasets residing in distributed storage using SQL.
Hive是一种用类SQL语句来协助读写、管理那些存储在分布式存储系统上大数据集的数据仓库软件。
一文读懂Apache Flink发展史
本文整理自开源大数据专场中阿里巴巴高级技术专家杨克特(鲁尼)先生的精彩演讲,主要讲解了Apache Flink过去和现在的发展情况,同时分享了对Apache Flink未来发展方向的理解。