如何从AWS glue中的动态数据框中删除错误记录?-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

如何从AWS glue中的动态数据框中删除错误记录?

2018-12-12 13:37:37 1217 1

我有一个包含错误记录的动态数据框。请在下面找到代码。

val rawDataFrame = glueContext.getCatalogSource(database = rawDBName, tableName = rawTBLName).getDynamicFrame();

println(s"RAW_DF-----count: ${rawDataFrame.count} errors: ${rawDataFrame.errorsCount}")

以上打印声明打印如下。

RAW_DF-----count: 168456 errors: 4
我需要创建一个只包含168456条记录的动态数据框,我需要消除4条错误记录。

取消 提交回答
全部回答(1)
  • 社区小助手
    2019-07-17 23:20:08

    错误记录未转换为Spark的DataFrame,因此请尝试将DynamicFrame转换为df并返回:

    val noErrorsDyf = DynamicFrame(rawDataFrame.toDF(), glueContext)

    0 0
+关注
社区小助手
社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。
12
文章
824
问答
问答排行榜
最热
最新
相关电子书
更多
JS零基础入门教程(上册)
立即下载
性能优化方法论
立即下载
手把手学习日志服务SLS,云启实验室实战指南
立即下载