备案控制台

开发者社区云计算文章正文

X-Pack Spark用户手册

2019-06-18 3420

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 概述 Spark是大数据平台的通用计算平台，应用非常广泛。本文主要介绍Spark相关的知识，主要包括：了解Spark，使用Spark，使用Spark过程中遇到的问题FAQ等，谨帮助用户快速的掌握Spark以及如何使用Spark。

概述

X-Pack Spark是大数据平台的通用计算平台，应用非常广泛。本文主要介绍Spark相关的知识，主要包括：了解Spark，使用Spark，使用Spark过程中遇到的问题FAQ等，谨帮助用户快速的掌握Spark以及如何使用Spark。
X-Pack Spar兼容开源Spark，本文介绍的内素材以X-Pack Spark为背景。

大纲

基础篇

进阶篇（高级功能）

X-Pack Spark使用[FAQ]

FAQ明细请参考：X-Pack Spark使用FAQ

X-Pack Spark之性能优化

Spark Streaming 常见优化。

案例实战

注意，本篇文章可以转载，但必须保留原文地址，以及上面各小结原文地址。

钉钉交流

关键词：

apache spark x-pack

云hbase+spark

目录

相关文章

vohelon

|

弹性计算分布式计算 NoSQL

X-Pack Spark服务具有以下几个特点：

X-Pack Spark服务具有以下几个特点：

vohelon

224 0 0

巴客

|

分布式计算测试技术分布式数据库

X-Pack Spark归档POLARDB数据做分析

简介 POLARDB数据库是阿里云自研的下一代关系型云数据库，100%兼容MySQL，性能最高是MySQL的6倍，但是随着数据量不断增大，面临着单条SQL无法分析出结果的现状。X-Pack Spark为数据库提供分析引擎，旨在打造数据库闭环，借助X-Pack Spark可以将POLARDB数据归档至列式存储Parquet文件，一条SQL完成复杂数据分析，并将分析结果回流到业务库提供查询。

巴客

9263 0 1

云hbase+spark

|

分布式计算 DataWorks 网络安全

Dataworks同步数据到X-pack Spark

云hbase+spark

1294 0 0

Roin123

|

关系型数据库分布式数据库分布式计算

最佳实践 | RDS & POLARDB归档到X-Pack Spark计算

部分RDS和POLARDB For MySQL的用户曾遇到如下场景：当一张表的数据达到几千万时，你查询一次所花的时间会变多。这时候采取水平分表的策略，水平拆分是将同一个表的数据进行分块保存到不同的数据库中，这些数据库中的表结构完全相同。本文将介绍如何把这些水平分表的表归档到X-Pack Spark数仓，做统一的大数据计算。

Roin123

6815 0 0

云hbase+spark

|

SQL 存储分布式计算

X-Pack Spark 访问OSS

简介对象存储服务（Object Storage Service，OSS）是一种海量、安全、低成本、高可靠的云存储服务，适合存放任意类型的文件。容量和处理能力弹性扩展，多种存储类型供选择，全面优化存储成本。

云hbase+spark

1254 0 0

沐远

|

关系型数据库分布式数据库 PolarDB

RDS&POLARDB归档到X-Pack Spark计算最佳实践

业务背景对于RDS&POLARDB FOR MYSQL 有些用户场景会遇到，当一张的数据达到几千万时，你查询一次所花的时间会变多。这时候会采取水平分表的策略，水平拆分是将同一个表的数据进行分块保存到不同的数据库中，这些数据库中的表结构完全相同。

沐远

2322 0 0

云hbase+spark

|

分布式计算监控 Spark

X-Pack Spark 监控指标详解

概述本文主要介绍X-Pack Spark集群监控指标的查看方法。Spark集群对接了Ganglia和云监控。下面分别介绍两者的使用方法。 Ganglia Ganglia是一个分布式监控系统。 Ganglia 入口打开Spark集群依次进入：数据库连接>UI访问>详细监控UI>Ganglia。

云hbase+spark

1605 0 0

云hbase+spark

|

分布式计算分布式数据库 Spark

X-Pack Spark使用[FAQ]

概述本文主要列出在使用X-Pack Spark的FAQ。 Spark Connectors 主要列举Spark 对接其它数据源遇到的问题 Spark on HBase Spark on HBase Connector：如何在Spark侧设置HBase参数。

云hbase+spark

2506 0 0

云hbase+spark

如何使用X-Pack Spark的YarnUI、SparkUI、Spark日志、任务运行状况的分析

概述 X-Pack Spark目前是通过Yarn管理资源，在提交Spark 任务后我们经常需要知道任务的运行状况，例如在哪里看日志、怎么查看每个Executor的运行状态、每个task的运行状态，性能瓶颈点在哪里等信息。

云hbase+spark

4003 0 0

大熊计算机

|

4月前

|

人工智能分布式计算大数据

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

本文探讨了大数据场景下降维的核心问题与解决方案，重点分析了“维度灾难”对模型性能的影响及特征冗余的陷阱。通过数学证明与实际案例，揭示高维空间中样本稀疏性问题，并提出基于Spark的分布式降维技术选型与优化策略。文章详细展示了PCA在亿级用户画像中的应用，包括数据准备、核心实现与效果评估，同时深入探讨了协方差矩阵计算与特征值分解的并行优化方法。此外，还介绍了动态维度调整、非线性特征处理及降维与其他AI技术的协同效应，为生产环境提供了最佳实践指南。最终总结出降维的本质与工程实践原则，展望未来发展方向。

大熊计算机

220 0 0

热门文章

最新文章

Linux环境下 java程序提交spark任务到Yarn报错

Kubeflow-Spark-Operator-架构学习指南

Hadoop大数据平台实战(05)：深入Spark Cluster集群模式YARN vs Mesos vs Standalone vs K8s

开源大数据技术专场（上午）:Spark、HBase、JStorm应用与实践

Spark源码分析之Spark Shell（上）

DAG（有向无环图）在Spark中的应用

Spark stage提交

spark-2.2.0-bin-hadoop2.6和spark-1.6.1-bin-hadoop2.6发行包自带案例全面详解（java、python、r和scala）之Basic包下的JavaPageRank.java（图文详解）

[Spark][Python][RDD][DataFrame]从 RDD 构造 DataFrame 例子

小书翻译完成，分享啦--《用Python操作大数据[MapReduceHadoop和Spark]》

大数据≠大样本：基于Spark的特征降维实战（提升10倍训练效率）

3 秒音频也能克隆？拆解 Spark-TTS 架构的极致小样本学习

从InfluxDB到StarRocks：Grab实现Spark监控平台10倍性能提升

立马耀：通过阿里云 Serverless Spark 和 Milvus 构建高效向量检索系统，驱动个性化推荐业务

鹰角网络：EMR Serverless Spark 在《明日方舟》游戏业务的应用

从“笨重大象”到“敏捷火花”：Hadoop与Spark的大数据技术进化之路

打破资源边界、告别资源浪费：ACK One 多集群Spark和AI作业调度

Dataphin功能Tips系列（48)-如何根据Hive SQL/Spark SQL的任务优先级指定YARN资源队列

Dataphin功能Tips系列（47）-支持通过Spark本地客户端提交Spark Batch任务

如何在IDE中通过Spark操作Hive

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据实时计算框架Spark快速入门

相关电子书

更多

Hybrid Cloud and Apache Spark

Scalable Deep Learning on Spark

Comparison of Spark SQL with Hive

下一篇

阿里云云原生一体化数仓 — 数据治理新能力解读