HDFS Federation简介
背景
熟悉大数据的人应该都知道,HDFS 是一个分布式文件系统,它是基于谷歌的 GFS 思路实现的开源系统,它的设计目的就是提供一个高度容错性和高吞吐量的海量数据存储解决方案。在经典的 HDFS 架构中有2个 NameNode 和多个 DataNode 的,如下:
从上面可以看出 HDFS 的架构其实大致可以分为两层:
Namespace:由目录,文件和数据块组成,支持常见的文件系统操作,例如创建,删除,修改和列出文件和目录。
Hive数据压缩笔记
Hive数据压缩
本文介绍Hadoop系统中Hive数据压缩方案的比较结果及具体压缩方法。
在Ubuntu 13.04下的安装eclipse
来源:http://www.cnblogs.com/lanxuezaipiao/p/3325628.html
一、eclipse安装过程
首先确保在安装eclipse之前已经安装好Java虚拟机
1.
hdfs之快照的学习
HDFS快照是文件系统的只读的实时的拷贝,可以是文件系统的一部分或者整个文件系统。快照的一些通用场景是数据备份,对用户错误的保护和灾难恢复。HDFS的快照实现是高效的:
快照的创建时瞬间完成的,排除查找inode的时间,需要花费O(1),即常数时间。
分布式与集群的联系与区别
集群是一组协同工作的服务实体,用以提供比单一服务实体更具扩展性与可用性的服务平台。在客户端看来,一个集群就象是一个服务实体,但事实上集群由一组服务实体组成。与单一服务实体相比较,集群提供了以下两个关键特性:先说区别:一句话:分布式是并联工作的,集群是串联工作的。