备案控制台

开发者社区> 问答> 正文

使用pyspark进行Spark RDD窗口化

有一个Spark RDD，叫做rdd1。它有(key, value)一对，我有一个列表，其元素是一个tuple(key1,key2)。

我想得到一个rdd2，有行`（（key1，key2），（rdd1中key1的值，rdd1中key2的值））。

有人能帮助我吗？

RDD1集：

key1, value1,
key2, value2,
key3, value3
数组： [(key1,key2),(key2,key3)]

结果：

(key1,key2),value1,value2
(key2,key3),value2,value3
我试过了

spark.parallize(array).map(lambda x:)

展开

收起

社区小助手 2018-12-11 18:10:40 2376 0

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。
用SCALA和mllib滑动 - 两个实现，有点繁琐，但在这里它是：

import org.apache.spark.mllib.rdd.RDDFunctions._
val rdd1 = sc.parallelize(Seq(
```
          ( "key1", "value1"),
          ( "key2", "value2"),
          ( "key3", "value3"),
          ( "key4", "value4"),
          ( "key5", "value5")
      ))
```
val rdd2 = rdd1.sliding(2)
val rdd3 = rdd2.map(x => (x(0), x(1)))
val rdd4 = rdd3.map(x => ((x._1._1, x._2._1),x._1._2, x._2._2))
rdd4.collect
另外，以下这个当然更好......：

val rdd5 = rdd2.map{case Array(x,y) => ((x._1, y._1), x._2, y._2)}
rdd5.collect
在两种情况下都返回：

res70: Array[((String, String), String, String)] = Array(((key1,key2),value1,value2), ((key2,key3),value2,value3), ((key3,key4),value3,value4), ((key4,key5),value4,value5))
我相信满足你的需求，但不是在pyspark。

在Stack Overflow上，您可以找到pyspark没有RDD等效语句的语句，除非您“自己滚动”。您可以在Pyspark中查看如何使用滑动窗口对时间序列数据转换数据。但是，我建议使用pyspark.sql.functions.lead（）和pyspark.sql.functions.lag（）来建议数据帧。
2019-07-17 23:19:58

赞同展开评论打赏

问答分类：

分布式计算 Spark

问答标签：

apache spark rdd apache spark窗口 pyspark apache spark apache spark pyspark

问答地址：

开发者社区 > 大数据 > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

flink里pyspark ,通过 spark-submit 这种方式提交作业，报错依赖缺失咋办？

54

1

0

dataworks调用odps的spark中的pyspark代码报错找不到main函数什么情况啊？

40

1

0

Spark的RDD和DataFrame编程模式如何帮助提升核算效率？

36

1

0

DataWorks中ODPS SPARK节点pyspark使用第三方包

39

1

0

如何在dataworks里面的odps spark节点使用pyspark环境，如何import --

89

2

0

如何在dataworks里面的odps spark节点使用pyspark环境？

122

3

0

为什么 DataWorks ODPS spark pyspark 查询不到表。提示table不存在？

325

1

0

ODPS SPARK节点pyspark使用默认的第三方包报错找不到

254

1

0

spark 执行RDD操作中的Lazy Calculate有什么好处吗？

2367

1

0

spark 执行RDD操作的过程要注意什么吗？

2340

1

0

问答排行榜

最热

最新

1 【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥 1819013

2 据说在家办公的程序员是这样写代码的？ 1793136

3 阿里云开放端口权限 690270

4 如何升级配置 536292

5 【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？ 522847

6 【精品问答】python技术1000问(1) 514126

7 Flink Forward Asia 2021 有奖问答 512907

8 OceanBase 使用动画（持续更新） 359373

9 阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本 329801

10 OSS存储服务-客户端工具 321581

11 为体验实验室取一个新名字。 307477

12 企业邮箱发送邮件时，若出现投递失败产生退信，内容提示包含如下： the mta server of * reply:550 failed to meet SPF requirements 或者 the mta server of 163.com — 163mx01.mxmail.netease.com(220.181.14.141) reply:550 MI:SPF mx14,QMCowECpA0qTiftVaeB3Cg—.872S2 1442548128 http://mail.163.com/help 304089

13 Win Server 2003-2016 加密勒索事件必打补丁合集 295329

14 FLASH播放器，在IE浏览器下显示请确定您的域名已完成备案和CNAME绑定 284203

15 安全组详解，新手必看教程 277341

16 写code还是做管理，开发者如何进行职业规划？ 269138

17 惊喜翻倍：免费ECS+免费环境配置~！(ECS免费体验6个月活动3月31日结束) 255880

18 阿里云手机和阿云浏览器连接问题专帖 235687

19 支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】 227733

20 请问阿里云邮箱如何开启SMTP服务啊！ 225866

1 “AI +脱口秀”，笑点能靠算法去创造吗？ 210

2 请教：通过按钮打开另外一个表单，并把其中一个值传递给另一个表单的其中一个字段。 156

3 AI宠物更适合当代年轻人的陪伴需求吗？ 734

4 AI客服未来会完全代替人工吗？ 906

5 “云+AI”能够孵化出多少可能？ 831

6 当AI频繁生成虚假信息，我们还能轻信大模型吗？ 630

7 使用免费证书后服务器浏览器访问没有问题，外网访问显示证书不可信，使用同一种浏览器哦 183

8 FFA 2024 大会门票免费送！AI时代下大数据技术未来路在何方？ 1518

9 为什么宜搭的流程流入到钉钉OA审批，钉钉OA审批要收钱啊。。。。 213

10 宜搭UPDATE或UPSERT一次更新数据超过100条怎么办？谢谢各位大大帮帮忙！！！ 181

11 通义千问2.5-7B-Instruct已经下载到本地为什么使还需要联网？而且最近下载模型也提示400 107

12 CUDA error: CUDA-capable device(s) is busy 163

13 AI时代，存力or算力哪一个更关键？ 1226

14 求宜搭关联表单的更新方法！！！ 341

15 全网寻找 #六边形战士# 程序员，你的 AI 编码助手身份标签是什么？ 1294

16 老哥们有个需求想请教一下，十分感谢 332

17 关于“通义灵码”而言，这次更新后，他更加人性化，然而我更喜欢fittencode,理由如下 417

18 关于宜搭自定义页面的文本组件循环获取其它表单的子表单数据。 173

19 flink1.20.0 部署后发布报错，是怎么回事，各种配置都配置了 213

20 关于开发者的100件小事，你知道哪些？ 1316

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

285

28

去学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

125

25

去学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第四阶段

129

19

去学习

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第五阶段

153

32

去学习

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第六阶段

204

21

去学习

大数据实时计算框架Spark快速入门

1023

93

去学习

推荐问答

乘风问答官招募中！机械键盘免费拿

相关电子书

更多

Hybrid Cloud and Apache Spark 立即下载

Scalable Deep Learning on Spark 立即下载

Comparison of Spark SQL with Hive 立即下载