Hadoop

首页 标签 Hadoop
# Hadoop #
关注
11263内容
EMR使用OSS还是云盘HDFS存储的选择讨论
使用EMR如何选择数据存储方案,这里分别列举各种场景下两种方案的优缺点,各位可以根据实际情况,选择最合适自己业务的一种方式。
Spark 2.4.0编程指南--Spark SQL UDF和UDAF
## 技能标签 - 了解UDF 用户定义函数(User-defined functions, UDFs) - 了解UDAF (user-defined aggregate function), 用户定义的聚合函数 - UDF示例(统计行数据字符长度) - UDF示例(统计行数据字符转大写) ...
E-Mapreduce如何处理RDS的数据
目前网站的一些业务数据存在了数据库中,这些数据往往需要做进一步的分析,如:需要跟一些日志数据关联分析,或者需要进行一些如机器学习的分析。在阿里云上,目前E-Mapreduce可以满足这类进一步分析的需求。
Spark修炼之道(进阶篇)——Spark入门到精通:第四节 Spark编程模型(一)
作者:周志湖 网名:摇摆少年梦 微信号:zhouzhihubeyond 本节主要内容 Spark重要概念 弹性分布式数据集(RDD)基础 1. Spark重要概念 本节部分内容源自官方文档:http://spark.apache.org/docs/latest/cluster-overview.html (1)Spark运行模式 目前最为常用的S
Hadoop-2.8.0集群搭建、hadoop源码编译和安装、host配置、ssh免密登录、hadoop配置文件中的参数配置参数总结、hadoop集群测试,安装过程中的常见错误
25. 集群搭建 25.1 HADOOP集群搭建 25.1.1集群简介 HADOOP集群具体来说包含两个集群:HDFS集群和YARN集群,两者逻辑上分离,但物理上常在一起 HDFS集群: 负责海量数据的存储,集群中的角色主要有NameNode / DataNode YARN集群: 负责海量数据运算时的资源调度,集群中的角色主要有 ResourceManager /NodeManag
【Hadoop Summit Tokyo 2016】LLAP:Hive上的次秒级分析查询
本讲义出自Yuta Imai在Hadoop Summit Tokyo 2016上的演讲,主要分享了为什么选择LLAP,并对于LLAP的相关概念进行了分享,在演讲中还介绍了Hive 2 与LLAP的架构概览,并对于MR、Tez与Tez+LLAP的三种方式进行了比较,并分享了为什么LLAP能够让查询变得更快。
免费试用