Spark

首页 标签 Spark
# Spark #
关注
9106内容
【Spark Summit EU 2016】Spark Steaming + 动态配置+动态分配构建弹性流计算
本讲义出自Shaun Klopfenstein和Neelesh Shastry在Spark Summit EU上的演讲,主要介绍了为了面对当前大数据分析的业务需求和SaaS需求,使用Spark Steaming的优势所在,以及为了应对Spark+Kafka所带来的挑战,所设计出的Marketo框架。
7月24日晚Spark社区直播:【Apache Spark 基于 Apache Arrow 的列式存储优化】
Apache Arrow 是一个基于内存的列式存储标准,旨在解决数据交换和传输过程中,序列化和反序列化带来的开销。目前,Apache Spark 社区的一些重要优化都在围绕 Apache Arrow 展开,本次分享会介绍 Apache Arrow 并分析通过 Arrow 将给 Spark 带来哪些特性。
Spark修炼之道(高级篇)——Spark源码阅读:第十节 Standalone运行模式解析
Spark Standalone采用的是Master/Slave架构,主要涉及到的类包括: 类:org.apache.spark.deploy.master.Master 说明:负责整个集群的资源调度及Application的管理。 消息类型: 接收Worker发送的消息 1. RegisterWorker 2. ExecutorStateChanged 3. Work
无编码利用协同算法实现个性化推荐
根据昨天的URL上报数据生成ALS模型。之后将模型加载到流式计算中,对实时URL的访问用户进行内容推荐。整个流程只需要你写写SQL(做解析),弄弄配置就搞定。
云桌面远程办公
员工通过公网直接登录到云桌面实例(有公网访问权限)进行远程办公,云桌面客户端具有一定加密和安全传输能力。
HDFS设计思路,HDFS使用,查看集群状态,HDFS,HDFS上传文件,HDFS下载文件,yarn web管理界面信息查看,运行一个mapreduce程序,mapreduce的demo
26 集群使用初步 HDFS的设计思路 l 设计思想   分而治之:将大文件、大批量文件,分布式存放在大量服务器上,以便于采取分而治之的方式对海量数据进行运算分析;   l 在大数据系统中作用: 为各类分布式运算框架(如:mapreduce,spark,tez,……)提供数据存储服务   l 重点概念:文件切块,副本存放,元数据 26.1 HDFS使用 1、查看集群状态 命令:   h
使用Spark SQL 构建流式处理程序
StreamingPro目前已经涵盖流式/批处理,以及交互查询三个领域,实现配置和SQL化
免费试用