开发者社区> 问答> 正文

如何从AWS glue中的动态数据框中删除错误记录?

我有一个包含错误记录的动态数据框。请在下面找到代码。

val rawDataFrame = glueContext.getCatalogSource(database = rawDBName, tableName = rawTBLName).getDynamicFrame();

println(s"RAW_DF-----count: ${rawDataFrame.count} errors: ${rawDataFrame.errorsCount}")

以上打印声明打印如下。

RAW_DF-----count: 168456 errors: 4
我需要创建一个只包含168456条记录的动态数据框,我需要消除4条错误记录。

展开
收起
社区小助手 2018-12-12 13:37:37 1696 0
1 条回答
写回答
取消 提交回答
  • 社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

    错误记录未转换为Spark的DataFrame,因此请尝试将DynamicFrame转换为df并返回:

    val noErrorsDyf = DynamicFrame(rawDataFrame.toDF(), glueContext)

    2019-07-17 23:20:08
    赞同 展开评论 打赏
问答地址:
问答排行榜
最热
最新

相关电子书

更多
《Visual Edge Computing Service视图计算产品发布介绍》PDF 立即下载
PyODPS架构以及DataFrame实现原理 立即下载
ES Cross Cluster Search生产实践 立即下载