Spark随谈(一)—— 总体架构
Spark是一个小巧玲珑的项目,由Berkeley大学的Matei为主的小团队所开发。使用的语言是Scala,项目的core部分的代码只有63个Scala文件,充分体现了精简之美。
Spark之依赖
(1)Map Reduce模型
作为一个分布式计算框架,Spark采用了MapReduce
Spark修炼之道(进阶篇)——Spark入门到精通:第五节 Spark编程模型(二)
作者:周志湖
网名:摇摆少年梦
微信号:zhouzhihubeyond
本文主要内容
RDD 常用Transformation函数
1. RDD 常用Transformation函数
(1)union
union将两个RDD数据集元素合并,类似两个集合的并集
union函数参数:
/**
* Return the union of this RDD
Spark内置图像数据源初探 | 6月27号云栖夜读
今天的首篇文章,讲述了:作者:林武康,花名知瑕, 阿里巴巴计算平台事业部EMR团队的高级开发工程师,Apache HUE Contributor, 参与了多个开源项目的研发工作,对于分布式系统设计应用有较丰富的经验,目前主要专注于EMR数据开发相关的产品的研发工作。
HBase实操 | 使用Spark通过BulkLoad快速导入数据到HBase
HBase社区直播本期分享专家:明惠(网名:过往记忆)-阿里云数据架构师
视频地址:
https://yq.aliyun.com/live/590?spm=a2c4e.11155435.0.0.460177969kCLxf
PPT地址:
https://yq.aliyun.com/download/3033
PS:欢迎关注HBase+Spark团队号 https://yq.aliyun.com/teams/382 博客,问答,直播,各类HBase资料,线下meetup都会发布到这里。