开发者社区大数据与机器学习文章正文

Spark重要参数详解

2023-07-19 350

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Spark重要参数详解

文章标签：

分布式计算

Spark

关键词：

apache spark参数

楚国玉

嘟嘟嘟嘟嘟嘟

分布式计算 DataWorks Java

DataWorks产品使用合集之如何引用在spark jar中引用密文的空间参数

DataWorks作为一站式的数据开发与治理平台，提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案，帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述，涵盖数据处理的各个环节。

嘟嘟嘟嘟嘟嘟

236 0 0

敏叔V587

分布式计算 Scala Spark

Spark参数解析之MasterArguments

敏叔V587

223 0 0

BIT_666

存储 SQL JSON

Spark - Task 与 Partition 一一对应与参数详解

使用 spark 读取 parquet 文件，共有 M个 parquet 文件，于是启动了 PExecutor x QCores 进行如下 WordCount 代码测试，其中 P x Q = M 即 Core 数目与 parquet 文件数一一对应。

BIT_666

999 0 0

程序员欣宸

分布式计算 Java 大数据

docker下的spark集群，调整参数榨干硬件

调整docker-compose编排的参数，充分发挥硬件信息能运行spark集群

程序员欣宸

484 0 0

袋鼠云

SQL 分布式计算运维

Hive引擎Spark优化配置参数2

上一篇内容讲了资源参数优化，本篇继续说明spark driver以及spark shuffle相关的参数调优。

袋鼠云

1445 0 0

袋鼠云

SQL 缓存分布式计算

Hive引擎Spark优化配置参数1

Hive是大数据领域常用的组件之一，主要是大数据离线数仓的运算，关于Hive的性能调优在日常工作和面试中是经常涉及的的一个点，因此掌握一些Hive调优是必不可少的一项技能。影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。本文主要描述在底层引擎为Spark时，经常会用到的、常见的配置参数。

袋鼠云

2442 0 0

袋鼠云

SQL 分布式计算运维

技本功|Hive优化之Spark执行引擎参数调优（二）

影响Hive效率的主要有数据倾斜、数据冗余、job的IO以及不同底层引擎配置情况和Hive本身参数和HiveSQL的执行等因素。本文主要结合实际业务情况，在使用Spark作为底层引擎时，通过一些常见的配置参数对报错任务进行调整优化，主要包含以下两个方面：

袋鼠云

1581 0 0

不吃西红柿丶

存储缓存资源调度

spark-submit 参数设置

不吃西红柿丶

620 0 0

云hbase+spark

分布式计算分布式数据库数据库

Spark on HBase Connector：如何在Spark侧设置HBase参数

前言 X-Pack Spark可以使用Spark on HBase Connector直接对接HBase数据库，读取HBase数据表数据。有时在读取HBase时需要设置HBase的一些参数调整性能，例如通过设置hbase.client.scanner.caching的大小调整读取HBase数据的性能。

云hbase+spark

2551 0 0

云hbase+spark

SQL 分布式计算数据库

Spark on Phoenix 4.x Connector：如何在Spark侧设置Phoenix参数

前言 X-Pack Spark可以使用Spark on Phoenix 4.x Connector直接对接Phoenix数据库，读取Phoenix数据表数据。有时在读取Phoenix时需要设置Phoenix的一些参数，例如Phoenix为了保障数据库的稳定性，默认开了索引包含，即查询Phoebe表必须要带上索引或者主键字段作为过滤条件。

云hbase+spark

2064 0 0

Spark重要参数详解

大数据与机器学习

热门文章

最新文章

相关课程

相关电子书