文档备案控制台

开发者社区问答正文

Spark Group By Key to（String，Iterable <String>）

我试图按键将urldata分组，其中值为字符串

样本数据：

url_3 url_2
url_3 url_2
url_3 url_1
url_4 url_3
url_4 url_1
预期结果：

(url_3,(url_2,url_1))
(url_4,(url_3,url_1))
1）加载urldata：

Dataset lines = spark.read()

.textFile("C:/Users/91984/workspace/myApp/src/test/resources/in/urldata.txt");

2）使用空格拆分数据集

Encoder> encoder2 =

Encoders.tuple(Encoders.STRING(), Encoders.STRING());

Dataset> tupleRDD = lines.map(f->{

Tuple2<String, String> m = 
    new Tuple2<String, String>(f.split(" ")[0], f.split(" ")[1]);
return m;

},encoder2);
3）使用groupbyKey对密钥上的元组RDD数据库进行分组

KeyValueGroupedDataset> keygrpDS =

tupleRDD.groupByKey(f->f._1, Encoders.STRING());

有人可以解释一下为什么第3步中的groupByKey正在返回 KeyValueGroupedDataset>而不是KeyValueGroupedDataset>为了获得预期结果需要做什么改变。

展开

收起

社区小助手 2018-12-10 16:24:04 2980 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。

这就是它与spark中的数据集一起使用的方式。当您拥有类型的数据集时Dataset，可以通过某个映射函数对其进行分组，该函数接受类型为T的对象并返回类型为K的对象（键）。你得到的是一个KeyValueGroupedDataset可以调用聚合函数的函数。在您的情况下，您可以使用mapGroups向您提供将键K和迭代映射Iterable到您选择的新对象R的函数。如果它有帮助，在你的代码中，T是一个Tuple2和K一个URL。

2019-07-17 23:19:22

赞同展开评论

问答分类：

分布式计算数据库 Spark

问答标签：

apache spark string spark String

问答地址：

开发者社区 > 大数据 > 问答

相关问答

MaxCompute spark SQL查询分区表数据报错java.lang.String c...

172

1

0

各位，我用spark在driver广播一个string，然后在executor端用.value把广播

430

1

0

Apache Spark 2.0：Expression-string到orderBy（）/ sort（）列的降序

2663

1

0

将List [Map <String，String>]转换为spark数据帧

2614

1

0

如何将Spark列的名称作为String？

1947

1

0

什么spark varargs函数countDistinct首先接收一个String / Column？

2175

1

0

MongoDB和Spark：无法将STRING转换为TimestampType

5126

1

0

Java中的String...和String类型有什么区别吗？

1203

1

0

java把string类声明的final类不能有类吗？

2355

1

0

为什么 java 中的 string 不属于基本数据类型？

3002

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

阿里云xyz域名优惠口令？

通义灵码独立应用怎么切换模型？VSCode 版有模型选择，独立版找不到入口。

【求助】在魔搭创空间部署 CoPaw 后，找不到公网访问地址

不停的截断，太难受啦，正在给领导演示，付费能解决问题吗

关于Lingma - 阿里云 AI 编码助手超时

相关文章

初创公司无网管怎么办？低成本运维与防账单爆炸指南

# 从个人开发到企业专属集群，NineData 是怎么做的？

【事务】Spring Framework核心——事务管理：ACID特性、隔离级别、传播行为、@Transactional底层原理、失效场景

阿里云轻量应用服务器和经济型e、通用算力型u1与u2i实例怎么选？性能、适用场景对比与选择指南

【饮料检测】基于计算机视觉实现饮料质量检测、类别和价格识别系统附Matlab代码

还有其他疑问?