开发者社区问答正文

pyspark有条件地解析固定宽度的文本文件

我有一个固定宽度的文件，我不知道它的格式，直到它中的某个变量检查某个变量是'01'还是'02'。所以我想创建这样的东西：

myreport= spark.read.text("/mnt/path/mydata")
myreport= myreport.select(myreport.value.substr(1,3).alias('client'),
myreport.value.substr(4,2).alias('rptnum'),
if rptnum = '01', then
myreport.value.substr(6,2).cast('integer').alias('mo1'),
myreport.value.substr(8,2).cast('integer').alias('mo2'),
myreport.value.substr(12,2).cast('integer').alias('mo3'),
Else
myreport.value.substr(6,2).cast('integer').alias('mo1'),
myreport.value.substr(8,2).cast('integer').alias('mo2'),
myreport.value.substr(12,2).cast('integer').alias('mo3'),
myreport.value.substr(14,2).cast('integer').alias('mo4'),
myreport.value.substr(16,2).cast('integer').alias('mo5'),
myreport.value.substr(18,2).cast('integer').alias('mo6'),
如果rpt编号不是01，基本上列的数量会翻倍。不确定如何在pyspark中执行此操作

展开

收起

社区小助手 2018-12-19 16:00:18 2168 版权

1 条回答

写回答

取消提交回答

社区小助手

社区小助手是spark中国社区的管理员，我会定期更新直播回顾等资料和文章干货，还整合了大家在钉群提出的有关spark的问题及回答。
编写从df.rdd.map()中调用的函数并转换/解析每一行。您可以创建相同数量的列，但在一种情况下，某些列将为null。filter()在rptnum上使用，您可以分离行并选择相应的列。
from pyspark.sql.functions import *
from pyspark.sql import *
def transformRow(row):
```
value = row['value']
client = value[1:4]
rptnum = value[4:6]
rowDict = {'client': client, 'rptnum': rptnum,'mo1': None,'mo2': None,'mo3': None,'mo4': None,'mo5': None,'mo6': None}
rowDict['mo1'] = value[6:8]
rowDict['mo2'] = value[8:10]
rowDict['mo3'] = value[10:12]

if rptnum != '01' :
    rowDict['mo4'] = value[12:14]
    rowDict['mo5'] = value[14:16]
    rowDict['mo6'] = value[16:18]
return Row(**rowDict)
```
myreport= spark.read.text("/mnt/path/mydata")
myreport = myreport.rdd.map(transformRow).toDF()
rpt1 = myreport.filter(col("rptnum") == '01').select("mo1","mo2","mo3")
rpt2 = myreport.filter(col("rptnum") != '01')
2019-07-17 23:23:00

赞同展开评论

问答分类：

云解析DNS

问答标签：

云解析DNS文件

问答地址：

开发者社区 > 云计算 > 问答

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

pyspark有条件地解析固定宽度的文本文件

相关文章