SparkSQL自适应执行
阿里云EMR-3.13.0版本的SparkSQL支持自适应执行功能,用来解决Reduce个数的动态调整/数据倾斜/执行计划的动态优化问题。
常见的七种Hadoop和Spark项目案例
大数据中比较火爆的Hadoop、Spark和Storm,最常见的七种项目你们是否已经了解到位了呢,下面一起了解一下吧
一、数据整合
称之为“企业级数据中心”或“数据湖”,这个想法是你有不同的数据源,你想对它们进行数据分析。
[译]利用贝叶斯推理做硬件故障率的准实时预测
你可能已经不知不觉中在数据科学项中用上了贝叶斯相关技术!如果你还没用上,这个技术可以增强你的数据分析能力。本文会展示这项技术在现实世界中的应用案例:通过传感器收集的流式数据预测硬件故障率。
Spark 2.4.0编程指南--Spark SQL UDF和UDAF
## 技能标签
- 了解UDF 用户定义函数(User-defined functions, UDFs)
- 了解UDAF (user-defined aggregate function), 用户定义的聚合函数
- UDF示例(统计行数据字符长度)
- UDF示例(统计行数据字符转大写)
...
Spark修炼之道(进阶篇)——Spark入门到精通:第四节 Spark编程模型(一)
作者:周志湖
网名:摇摆少年梦
微信号:zhouzhihubeyond
本节主要内容
Spark重要概念
弹性分布式数据集(RDD)基础
1. Spark重要概念
本节部分内容源自官方文档:http://spark.apache.org/docs/latest/cluster-overview.html
(1)Spark运行模式
目前最为常用的S
Spark集群管理器介绍
Spark可以运行在各种集群管理器上,并通过集群管理器访问集群中的其他机器。
Spark主要有三种集群管理器,如果只是想让spark运行起来,可以采用spark自带的独立集群管理器,采用独立部署的模式;如果是想让Spark部署在其他集群上,各应用共享集群的话,可以采取两