《Spark大数据分析:核心概念、技术及实践》导读-阿里云开发者社区

开发者社区> 大数据> 正文

《Spark大数据分析:核心概念、技术及实践》导读

简介:

Contents  目  录
译者序
前言
致谢
第1章 大数据技术一览
1.1 Hadoop
1.1.1 HDFS
1.1.2 MapReduce
1.1.3 Hive
1.2 数据序列化
1.2.1 Avro
1.2.2 Thrift
1.2.3 Protocol Buffers
1.2.4 SequenceFile
1.3 列存储
1.3.1 RCFile
1.3.2 ORC
1.3.3 Parquet
1.4 消息系统
1.4.1 Kafka
1.4.2 ZeroMQ
1.5 NoSQL
1.5.1 Cassandra
1.5.2 HBase
1.6 分布式SQL查询引擎
1.6.1 Impala
1.6.2 Presto
1.6.3 Apache Drill
1.7 总结15
第2章 Scala编程
2.1 函数式编程
2.1.1 函数
2.1.2 不可变数据结构
2.1.3 一切皆表达式
2.2 Scala基础
2.2.1 起步
2.2.2 基础类型
2.2.3 变量
2.2.4 函数
2.2.5 类
2.2.6 单例
2.2.7 样本类
2.2.8 模式匹配
2.2.9 操作符
2.2.10 特质
2.2.11 元组
2.2.12 Option类型
2.2.13 集合
2.3 一个单独的Scala应用程序
2.4 总结
第3章 Spark Core
3.1 概述
3.1.1 主要特点
3.1.2 理想的应用程序
3.2 总体架构
3.2.1 worker
3.2.2 集群管理员
3.2.3 驱动程序
3.2.4 执行者
3.2.5 任务
3.3 应用运行
3.3.1 术语
3.3.2 应用运行过程
3.4 数据源
3.5 API
3.5.1 SparkContext
3.5.2 RDD
3.5.3 创建RDD
3.5.4 RDD操作
3.5.5 保存RDD
3.6 惰性操作
3.7 缓存
3.7.1 RDD的缓存方法
3.7.2 RDD缓存是可容错的
3.7.3 缓存内存管理
3.8 Spark作业
3.9 共享变量
3.9.1 广播变量
3.9.2 累加器
3.10 总结

版权声明:本文首发在云栖社区,遵循云栖社区版权声明:本文内容由互联网用户自发贡献,版权归用户作者所有,云栖社区不为本文内容承担相关法律责任。云栖社区已升级为阿里云开发者社区。如果您发现本文中有涉嫌抄袭的内容,欢迎发送邮件至:developer2020@service.aliyun.com 进行举报,并提供相关证据,一经查实,阿里云开发者社区将协助删除涉嫌侵权内容。

分享:
大数据
使用钉钉扫一扫加入圈子
+ 订阅

大数据计算实践乐园,近距离学习前沿技术

其他文章