开发者社区> 问答> 正文

pyspark每个小文件添加一列根据文件名生成的数据

假设现在我有400万个文件 1.csv,2.csv,3.csv,......,4000000.csv,我想给每个文件ta添加一列数据,针对每个长度为len的i.csv文件添加一列数据,该列数据由len个i组成,请问我该怎么操作? 我本来是这么操作的

fp_rdd  # 所有文件的存储路径
data_rdd = fp_rdd.map(lambda fp: (fp, spark.read.csv(fp)))
add_col_rdd = data_rdd.map(lambda data: data.withColumn('new_col', [fp]*len(data)))


但是第二行就报错了,说是不能嵌套rdd,有人能jiaoj教教我该怎么整吗?先行谢过了

展开
收起
予欲无语 2019-09-03 15:56:35 599 0
0 条回答
写回答
取消 提交回答
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
Data Wrangling with PySpark fo 立即下载
Spark and S3 立即下载
Spark on Supercomputers: A Tal 立即下载