Spark

首页 标签 Spark
# Spark #
关注
9132内容
分布式快照算法: Chandy-Lamport
Spark 的 Structured Streaming 的 Continuous Processing Mode 的容错处理使用了分布式快照(Distributed Snapshot)算法 Chandy-Lamport 算法,那么分布式快照算法可以用来解决什么问题呢?
Spark in action on Kubernetes - Playground搭建与架构浅析
前言Spark是非常流行的大数据处理引擎,数据科学家们使用Spark以及相关生态的大数据套件完成了大量又丰富场景的数据分析与挖掘。Spark目前已经逐渐成为了业界在数据处理领域的行业标准。但是Spark本身的设计更偏向使用静态的资源管理,虽然Spark也支持了类似Yarn等动态的资源管理器,但是这些资源管理并不是面向动态的云基础设施而设计的,在速度、成本、效率等领域缺乏解决方案。
| |
来自: 云原生
Spark in action on Kubernetes - Spark Operator的原理解析
在上篇文章中,向大家介绍了如何使用Spark Operator在kubernetes集群上面提交一个计算作业。今天我们会继续使用上篇文章中搭建的Playgroud进行调试与解析,帮助大家更深入的理解Spark Operator的工作原理。
基于MaxCompute构建Noxmobi全球化精准营销系统
摘要:大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的TB/PB级数据仓库解决方案。MaxCompute向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。
Spark修炼之道(基础篇)——Linux大数据开发基础:第一节、Linux介绍、安装及使用初步
本节主要内容 Linux简史 Linux系统整体介绍 Ubuntu Linux安装 Linux使用初步 1. Linux简史 要讲述大名鼎鼎的Linux,必然要先从UNIX系统谈起,下面这幅图给出了Unix系统的进化图: 图片来源:http://baike.baidu.com/link?url=QfoqWtWGs-BjpnfEy_AUk7Bm3XHuf6JbN92H
记录CDH Spark2的spark2-submit的一个No such file or directory问题
运行: 在测试的CDH Spark2, 运行spark streaming, 命令如下: 点击(此处)折叠或打开 spark2-submit \ --class com.
Spark集群搭建
Spark是一个基于内存的计算框架,本文主要是介绍Spark的独立部署。
将一个电子表格迁移到MySQL和Spark2.0.1上
在这篇简短的指导中,笔者将会简短地回顾一种方法并且用我喜欢的数据集来演示。这不是一个ML库也不是一个Kaggle竞赛的数据集,仅仅是积累了数十年笔者跟踪塑料模型集合产生的数据,如此这般一定会适合传统的标准。
免费试用