阿里封神谈hadoop生态学习之路
在大数据时代,要想个性化实现业务的需求,还是得操纵各类的大数据软件,如:hadoop、hive、spark等。笔者(阿里封神)混迹Hadoop圈子多年,经历了云梯1、ODPS等项目,目前base在E-Mapreduce。在这,笔者尽可能梳理下hadoop的学习之路。
Cloudera Manager简介
Hadoop家族
整个Hadoop家族由以下几个子项目组成:
Hadoop Common:
Hadoop体系最底层的一个模块,为Hadoop各子项目提供各 种工具,如:配置文件和日志操作等。
HDFS:
是Hadoop应用程序中主要的分布式储存系统, HDFS集群包含了一个NameNo
XGBOOST原理解析
1.引言最近,因为一些原因,自己需要做一个小范围的XGBoost的实现层面的分享,于是干脆就整理了一下相关的资料,串接出了这份report,也算跟这里的问题相关,算是从一个更偏算法实现的角度,提供一份参考资料吧。
Hive 调优总结
一、查看执行计划explain extended hql;可以看到扫描数据的hdfs路径二、hive表优化分区(不同文件夹):动态分区开启:set hive.exec.dynamic.partition=true;set hive.exec.dynamic.partition.mode=nonstrict;
默认值:strict 描述:strict是避免全分区字段是动态的,必须
阿里云一键部署 Hadoop 分布式集群
Hadoop是一个能够让用户轻松架构和使用的开源分布式计算框架,以一种可靠、高效、可伸缩的方式进行数据处理。通过ROS资源编排服务可以在阿里云上一键部署Hadoop集群。