备案控制台

开发者社区> 问答> 正文

Spark如何自定义partitioner分区器？

Spark如何自定义partitioner分区器？

展开

收起

茶什i 2019-10-29 11:39:07 2422 0

2 条回答

写回答

取消提交回答

bigbigtree

在hadoop的mapreduce中默认patitioner是HashPartitioner,我们可以自定义Partitioner可以有效防止数据倾斜, 在Spark里面也是一样,在Spark里也是默认的HashPartitioner, 如果自己想自己定义Partitioner继承org.apache.spark里面的Partitioner并且重写它里面的两个方法就行了

2020-03-19 19:52:38

赞同展开评论打赏
珍宝珠

1）spark默认实现了HashPartitioner和RangePartitioner两种分区策略，我们也可以自己扩展分区策略，自定义分区器的时候继承org.apache.spark.Partitioner类，实现类中的三个方法
def numPartitions: Int：这个方法需要返回你想要创建分区的个数；
def getPartition(key: Any): Int：这个函数需要对输入的key做计算，然后返回该key的分区ID，范围一定是0到numPartitions-1；
equals()：这个是Java标准的判断相等的函数，之所以要求用户实现这个函数是因为Spark内部会比较两个RDD的分区是否一样。
2）使用，调用parttionBy方法中传入自定义分区对象
参考：http://blog.csdn.net/high2011/article/details/68491115

2019-10-30 14:51:03

赞同展开评论打赏

问答分类：

分布式计算 Spark

问答标签：

apache spark自定义 apache spark分区 apache spark partitioner apache spark自定义partitioner

问答地址：

开发者社区 > 大数据 > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

使用maxcompute开发ODPS Spark任务，使用spark.sql 无法 rename分区

127

4

0

针对Lindorm数据源分区数量少导致Spark执行效率低的问题，有哪些处理策略？

34

1

0

调整Spark读取ODPS离线表分区大小的方法是什么？

35

1

0

请教一下，如何通过spark删除大数据计算MaxCompute分区数据啊？

80

3

0

spark写kafka，如何让分区分布均衡呢？

334

1

0

删除分区，用 spark 跑官网这种 like 的范围分区报语法错误，怎么高效的清空一张分区表呢？遍

804

1

0

spark中CustomPartitioner如何分区？

298

1

0

spark中RangePartitioner如何分区？

345

1

0

spark中HashPartitioner如何分区？

334

1

0

spark如何分区？

341

1

0

问答排行榜

最热

最新

1 【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥 1819012

2 据说在家办公的程序员是这样写代码的？ 1793129

3 阿里云开放端口权限 690267

4 如何升级配置 536290

5 【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？ 522846

6 【精品问答】python技术1000问(1) 514126

7 Flink Forward Asia 2021 有奖问答 512907

8 OceanBase 使用动画（持续更新） 359373

9 阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本 329801

10 OSS存储服务-客户端工具 321574

11 为体验实验室取一个新名字。 307475

12 企业邮箱发送邮件时，若出现投递失败产生退信，内容提示包含如下： the mta server of * reply:550 failed to meet SPF requirements 或者 the mta server of 163.com — 163mx01.mxmail.netease.com(220.181.14.141) reply:550 MI:SPF mx14,QMCowECpA0qTiftVaeB3Cg—.872S2 1442548128 http://mail.163.com/help 304084

13 Win Server 2003-2016 加密勒索事件必打补丁合集 295329

14 FLASH播放器，在IE浏览器下显示请确定您的域名已完成备案和CNAME绑定 284200

15 安全组详解，新手必看教程 277341

16 写code还是做管理，开发者如何进行职业规划？ 269138

17 惊喜翻倍：免费ECS+免费环境配置~！(ECS免费体验6个月活动3月31日结束) 255880

18 阿里云手机和阿云浏览器连接问题专帖 235687

19 支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】 227652

20 请问阿里云邮箱如何开启SMTP服务啊！ 225864

1 请教：通过按钮打开另外一个表单，并把其中一个值传递给另一个表单的其中一个字段。 137

2 AI宠物更适合当代年轻人的陪伴需求吗？ 619

3 AI客服未来会完全代替人工吗？ 828

4 “云+AI”能够孵化出多少可能？ 813

5 当AI频繁生成虚假信息，我们还能轻信大模型吗？ 610

6 使用免费证书后服务器浏览器访问没有问题，外网访问显示证书不可信，使用同一种浏览器哦 161

7 FFA 2024 大会门票免费送！AI时代下大数据技术未来路在何方？ 1445

8 为什么宜搭的流程流入到钉钉OA审批，钉钉OA审批要收钱啊。。。。 189

9 宜搭UPDATE或UPSERT一次更新数据超过100条怎么办？谢谢各位大大帮帮忙！！！ 162

10 CUDA error: CUDA-capable device(s) is busy 154

11 AI时代，存力or算力哪一个更关键？ 1201

12 求宜搭关联表单的更新方法！！！ 320

13 全网寻找 #六边形战士# 程序员，你的 AI 编码助手身份标签是什么？ 1270

14 老哥们有个需求想请教一下，十分感谢 309

15 关于“通义灵码”而言，这次更新后，他更加人性化，然而我更喜欢fittencode,理由如下 388

16 关于宜搭自定义页面的文本组件循环获取其它表单的子表单数据。 148

17 flink1.20.0 部署后发布报错，是怎么回事，各种配置都配置了 196

18 关于开发者的100件小事，你知道哪些？ 1295

19 AI助力，短剧迎来创新热潮？ 1090

20 "ModelScope默认的下载位置是在哪里？ 517

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第一阶段

409

33

去学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

284

28

去学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

128

19

去学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

152

32

去学习

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

346

9

去学习

大数据实时计算框架Spark快速入门

1023

93

去学习

推荐问答

乘风问答官招募中！机械键盘免费拿

相关电子书

更多

Hybrid Cloud and Apache Spark 立即下载

Scalable Deep Learning on Spark 立即下载

Comparison of Spark SQL with Hive 立即下载