假设现在我有400万个文件 1.csv,2.csv,3.csv,......,4000000.csv,我想给每个文件ta添加一列数据,针对每个长度为len的i.csv文件添加一列数据,该列数据由len个i组成,请问我该怎么操作? 我本来是这么操作的
fp_rdd # 所有文件的存储路径
data_rdd = fp_rdd.map(lambda fp: (fp, spark.read.csv(fp)))
add_col_rdd = data_rdd.map(lambda data: data.withColumn('new_col', [fp]*len(data)))
但是第二行就报错了,说是不能嵌套rdd,有人能jiaoj教教我该怎么整吗?先行谢过了
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。