X-Pack Spark用户手册

简介: 概述 Spark是大数据平台的通用计算平台,应用非常广泛。本文主要介绍Spark相关的知识,主要包括:了解Spark,使用Spark,使用Spark过程中遇到的问题FAQ等,谨帮助用户快速的掌握Spark以及如何使用Spark。

概述

X-Pack Spark是大数据平台的通用计算平台,应用非常广泛。本文主要介绍Spark相关的知识,主要包括:了解Spark,使用Spark,使用Spark过程中遇到的问题FAQ等,谨帮助用户快速的掌握Spark以及如何使用Spark。
X-Pack Spar兼容开源Spark,本文介绍的内素材以X-Pack Spark为背景。

大纲

基础篇

  1. Spark的入门介绍

    1. 如何使用X-Pack Spark的YarnUI、SparkUI、Spark日志、任务运行状况的分析.
    2. Spark 通用的性能配置方法:内存(executor-memory)和CPU(executor-cores)的配置
    3. Spark本地连接hbase集群做调试.
  2. Spark SQL语法介绍
  3. Spark Streaming介绍
  4. Structured Streaming介绍
  5. Spark DataSource外部数据源介绍

进阶篇(高级功能)

X-Pack Spark使用[FAQ]

FAQ明细请参考:X-Pack Spark使用FAQ

X-Pack Spark之性能优化

  1. Spark Streaming 常见优化。

案例实战

  1. 广告点击数实时统计:Spark StructuredStreaming + Redis Streams
  2. SparkSQL在有赞的实践
  3. HBase+Spark游戏大数据的实践
  4. X-Pack Spark对接阿里云日志服务LogHub
  5. RDS&POLARDB归档到X-Pack Spark计算最佳实践

注意,本篇文章可以转载,但必须保留原文地址,以及上面各小结原文地址。

钉钉交流
image

相关文章
|
弹性计算 分布式计算 NoSQL
X-Pack Spark服务具有以下几个特点:
X-Pack Spark服务具有以下几个特点:
114 0
|
分布式计算 DataWorks 网络安全
|
关系型数据库 分布式数据库 分布式计算
最佳实践 | RDS & POLARDB归档到X-Pack Spark计算
部分RDS和POLARDB For MySQL的用户曾遇到如下场景:当一张表的数据达到几千万时,你查询一次所花的时间会变多。 这时候采取水平分表的策略,水平拆分是将同一个表的数据进行分块保存到不同的数据库中,这些数据库中的表结构完全相同。 本文将介绍如何把这些水平分表的表归档到X-Pack Spark数仓,做统一的大数据计算。
6679 0
|
SQL 存储 分布式计算
X-Pack Spark 访问OSS
简介 对象存储服务(Object Storage Service,OSS)是一种海量、安全、低成本、高可靠的云存储服务,适合存放任意类型的文件。容量和处理能力弹性扩展,多种存储类型供选择,全面优化存储成本。
1104 0
|
关系型数据库 分布式数据库 PolarDB
RDS&POLARDB归档到X-Pack Spark计算最佳实践
业务背景 对于RDS&POLARDB FOR MYSQL 有些用户场景会遇到,当一张的数据达到几千万时,你查询一次所花的时间会变多。这时候会采取水平分表的策略,水平拆分是将同一个表的数据进行分块保存到不同的数据库中,这些数据库中的表结构完全相同。
2176 0
|
分布式计算 监控 Spark
X-Pack Spark 监控指标详解
概述 本文主要介绍X-Pack Spark集群监控指标的查看方法。Spark集群对接了Ganglia和云监控。下面分别介绍两者的使用方法。 Ganglia Ganglia是一个分布式监控系统。 Ganglia 入口 打开Spark集群依次进入:数据库连接>UI访问>详细监控UI>Ganglia。
1448 0
|
分布式计算 分布式数据库 Spark
X-Pack Spark使用[FAQ]
概述 本文主要列出在使用X-Pack Spark的FAQ。 Spark Connectors 主要列举Spark 对接其它数据源遇到的问题 Spark on HBase Spark on HBase Connector:如何在Spark侧设置HBase参数。
2253 0
X-Pack Spark对接阿里云日志服务LogHub
概述 X-Pack Spark分析引擎是基于Spark提供的复杂分析、流式处理、机器学习的能力。Spark分析引擎可以对接阿里云的多种数据源,例如:云HBase数据库、MongoDB、Phoenix等,同时也支持对接阿里云日志服务LogHub。
1735 0
如何使用X-Pack Spark的YarnUI、SparkUI、Spark日志、任务运行状况的分析
概述 X-Pack Spark目前是通过Yarn管理资源,在提交Spark 任务后我们经常需要知道任务的运行状况,例如在哪里看日志、怎么查看每个Executor的运行状态、每个task的运行状态,性能瓶颈点在哪里等信息。
3438 0
|
分布式计算 测试技术 分布式数据库
X-Pack Spark归档POLARDB数据做分析
简介 POLARDB数据库是阿里云自研的下一代关系型云数据库,100%兼容MySQL,性能最高是MySQL的6倍,但是随着数据量不断增大,面临着单条SQL无法分析出结果的现状。X-Pack Spark为数据库提供分析引擎,旨在打造数据库闭环,借助X-Pack Spark可以将POLARDB数据归档至列式存储Parquet文件,一条SQL完成复杂数据分析,并将分析结果回流到业务库提供查询。
9036 0