X-Pack Spark用户手册

简介: 概述 Spark是大数据平台的通用计算平台,应用非常广泛。本文主要介绍Spark相关的知识,主要包括:了解Spark,使用Spark,使用Spark过程中遇到的问题FAQ等,谨帮助用户快速的掌握Spark以及如何使用Spark。

概述

X-Pack Spark是大数据平台的通用计算平台,应用非常广泛。本文主要介绍Spark相关的知识,主要包括:了解Spark,使用Spark,使用Spark过程中遇到的问题FAQ等,谨帮助用户快速的掌握Spark以及如何使用Spark。
X-Pack Spar兼容开源Spark,本文介绍的内素材以X-Pack Spark为背景。

大纲

基础篇

  1. Spark的入门介绍

    1. 如何使用X-Pack Spark的YarnUI、SparkUI、Spark日志、任务运行状况的分析.
    2. Spark 通用的性能配置方法:内存(executor-memory)和CPU(executor-cores)的配置
    3. Spark本地连接hbase集群做调试.
  2. Spark SQL语法介绍
  3. Spark Streaming介绍
  4. Structured Streaming介绍
  5. Spark DataSource外部数据源介绍

进阶篇(高级功能)

X-Pack Spark使用[FAQ]

FAQ明细请参考:X-Pack Spark使用FAQ

X-Pack Spark之性能优化

  1. Spark Streaming 常见优化。

案例实战

  1. 广告点击数实时统计:Spark StructuredStreaming + Redis Streams
  2. SparkSQL在有赞的实践
  3. HBase+Spark游戏大数据的实践
  4. X-Pack Spark对接阿里云日志服务LogHub
  5. RDS&POLARDB归档到X-Pack Spark计算最佳实践

注意,本篇文章可以转载,但必须保留原文地址,以及上面各小结原文地址。

钉钉交流
image

相关文章
|
弹性计算 分布式计算 NoSQL
X-Pack Spark服务具有以下几个特点:
X-Pack Spark服务具有以下几个特点:
166 0
|
分布式计算 测试技术 分布式数据库
X-Pack Spark归档POLARDB数据做分析
简介 POLARDB数据库是阿里云自研的下一代关系型云数据库,100%兼容MySQL,性能最高是MySQL的6倍,但是随着数据量不断增大,面临着单条SQL无法分析出结果的现状。X-Pack Spark为数据库提供分析引擎,旨在打造数据库闭环,借助X-Pack Spark可以将POLARDB数据归档至列式存储Parquet文件,一条SQL完成复杂数据分析,并将分析结果回流到业务库提供查询。
9151 0
|
分布式计算 DataWorks 网络安全
|
关系型数据库 分布式数据库 分布式计算
最佳实践 | RDS & POLARDB归档到X-Pack Spark计算
部分RDS和POLARDB For MySQL的用户曾遇到如下场景:当一张表的数据达到几千万时,你查询一次所花的时间会变多。 这时候采取水平分表的策略,水平拆分是将同一个表的数据进行分块保存到不同的数据库中,这些数据库中的表结构完全相同。 本文将介绍如何把这些水平分表的表归档到X-Pack Spark数仓,做统一的大数据计算。
6739 0
|
SQL 存储 分布式计算
X-Pack Spark 访问OSS
简介 对象存储服务(Object Storage Service,OSS)是一种海量、安全、低成本、高可靠的云存储服务,适合存放任意类型的文件。容量和处理能力弹性扩展,多种存储类型供选择,全面优化存储成本。
1153 0
|
关系型数据库 分布式数据库 PolarDB
RDS&POLARDB归档到X-Pack Spark计算最佳实践
业务背景 对于RDS&POLARDB FOR MYSQL 有些用户场景会遇到,当一张的数据达到几千万时,你查询一次所花的时间会变多。这时候会采取水平分表的策略,水平拆分是将同一个表的数据进行分块保存到不同的数据库中,这些数据库中的表结构完全相同。
2239 0
|
分布式计算 监控 Spark
X-Pack Spark 监控指标详解
概述 本文主要介绍X-Pack Spark集群监控指标的查看方法。Spark集群对接了Ganglia和云监控。下面分别介绍两者的使用方法。 Ganglia Ganglia是一个分布式监控系统。 Ganglia 入口 打开Spark集群依次进入:数据库连接>UI访问>详细监控UI>Ganglia。
1526 0
|
分布式计算 分布式数据库 Spark
X-Pack Spark使用[FAQ]
概述 本文主要列出在使用X-Pack Spark的FAQ。 Spark Connectors 主要列举Spark 对接其它数据源遇到的问题 Spark on HBase Spark on HBase Connector:如何在Spark侧设置HBase参数。
2349 0
如何使用X-Pack Spark的YarnUI、SparkUI、Spark日志、任务运行状况的分析
概述 X-Pack Spark目前是通过Yarn管理资源,在提交Spark 任务后我们经常需要知道任务的运行状况,例如在哪里看日志、怎么查看每个Executor的运行状态、每个task的运行状态,性能瓶颈点在哪里等信息。
3739 0
|
1月前
|
分布式计算 大数据 Apache
ClickHouse与大数据生态集成:Spark & Flink 实战
【10月更文挑战第26天】在当今这个数据爆炸的时代,能够高效地处理和分析海量数据成为了企业和组织提升竞争力的关键。作为一款高性能的列式数据库系统,ClickHouse 在大数据分析领域展现出了卓越的能力。然而,为了充分利用ClickHouse的优势,将其与现有的大数据处理框架(如Apache Spark和Apache Flink)进行集成变得尤为重要。本文将从我个人的角度出发,探讨如何通过这些技术的结合,实现对大规模数据的实时处理和分析。
141 2
ClickHouse与大数据生态集成:Spark & Flink 实战