大数据存储平台调优之Hadoop优化
大数据存储平台调优之Hadoop优化
在搭建完集群、完成Linux系统配置(优化)后以及建好HDFS上的目录后,我们接下来需要对Hadoop集群做一些优化的工作。我们从两个方面来说:一是HDFS存储方面,一是计算方面
1、 HDFS方面:
1> 存储格式的选择
对于分析类型的业务来说,最好的存储格式自然是列存储,因为数据量巨大,只扫关心的数据列无疑具有很大优势。
[jjzhu学hadoop]之hadoop2.7.3源码编译eclipse项目
编译环境
必须的安装包
安装jdk
安装mvn
配置本地仓库路径
更换阿里云maven镜像强烈推荐更换
Native libraries
ProtocolBuffer 250
可选的安装包
Snappy compression
Bzip2
Jansson C Library for JSON
Linux FUSE
编译eclipse plugin
切换到
E-Mapreduce如何处理RDS的数据
目前网站的一些业务数据存在了数据库中,这些数据往往需要做进一步的分析,如:需要跟一些日志数据关联分析,或者需要进行一些如机器学习的分析。在阿里云上,目前E-Mapreduce可以满足这类进一步分析的需求。
Spark集群管理器介绍
Spark可以运行在各种集群管理器上,并通过集群管理器访问集群中的其他机器。
Spark主要有三种集群管理器,如果只是想让spark运行起来,可以采用spark自带的独立集群管理器,采用独立部署的模式;如果是想让Spark部署在其他集群上,各应用共享集群的话,可以采取两