[jjzhu学hadoop]之hadoop2.7.3源码编译eclipse项目
编译环境
必须的安装包
安装jdk
安装mvn
配置本地仓库路径
更换阿里云maven镜像强烈推荐更换
Native libraries
ProtocolBuffer 250
可选的安装包
Snappy compression
Bzip2
Jansson C Library for JSON
Linux FUSE
编译eclipse plugin
切换到
Spark 2.4.0编程指南--Spark SQL UDF和UDAF
## 技能标签
- 了解UDF 用户定义函数(User-defined functions, UDFs)
- 了解UDAF (user-defined aggregate function), 用户定义的聚合函数
- UDF示例(统计行数据字符长度)
- UDF示例(统计行数据字符转大写)
...
E-Mapreduce如何处理RDS的数据
目前网站的一些业务数据存在了数据库中,这些数据往往需要做进一步的分析,如:需要跟一些日志数据关联分析,或者需要进行一些如机器学习的分析。在阿里云上,目前E-Mapreduce可以满足这类进一步分析的需求。
Spark修炼之道(进阶篇)——Spark入门到精通:第四节 Spark编程模型(一)
作者:周志湖
网名:摇摆少年梦
微信号:zhouzhihubeyond
本节主要内容
Spark重要概念
弹性分布式数据集(RDD)基础
1. Spark重要概念
本节部分内容源自官方文档:http://spark.apache.org/docs/latest/cluster-overview.html
(1)Spark运行模式
目前最为常用的S