HIVE优化浅谈
HIVE优化浅谈
作者:邓力,entobit技术总监,八年大数据从业经历,由一代HADOOP入坑,深耕云计算应用领域,由从事亚马逊EMR和阿里云EMR应用开发逐步转入大数据架构领域,对大数据生态及框架应用有深刻理解。
Spark RDDRelation
package main.asiainfo.coc.sparksql
import org.apache.spark.sql.SQLContext
import org.apache.spark.
大数据列式存储 Parquet 和 ORC 简介
目前,使用比较广泛的列式存储主要是 Apache Parquet 和 Apache ORC,Parquet 由谷歌的 Dremel 发展而来,由Twitter 贡献给社区,ORC 则是由 Hive 的 RC File 发展而来,从Hive项目中独立出来,二者目前都是比较活跃的列式存储项目。
Ambari和ClouderaManager对比
好程序员大数据培训分享之Ambari和ClouderaManager对比,1 、什么是CDH,Ambari?
Apache Ambari是一种基于Web的工具,支持Apache Hadoop集群的供应、管理和监控。