在AWS Glue中附加负载-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

在AWS Glue中附加负载

2018-12-05 14:09:54 1353 1

我需要对S3存储桶执行追加加载。

每天都有新的.gz文件被转储到S3位置,并且粘合爬虫会读取数据并在数据目录中更新它。
Scala AWS Glue作业运行并仅过滤当天的数据。
根据某些规则转换上述过滤数据,并创建分区动态数据帧(即年,月,日)级别。
现在,我需要将此动态数据帧写入S3存储桶,该存储桶具有所有前一天的分区。实际上我只需要在S3存储桶中只写一个分区。目前我正在使用下面的代码将数据写入S3存储桶。

// Write it out in Parquet for ERROR severity

glueContext.getSinkWithFormat(
connectionType = "s3",
options = JsonOptions(Map("path" -> "s3://some s3 bucket location", 
"partitionKeys" -> Seq("partitonyear","partitonmonth","partitonday"))),
 format = "parquet").writeDynamicFrame(DynamicFrame(dynamicDataframeToWrite.toDF().coalesce(maxExecutors), glueContext)) 

我不确定上面的代码是否会执行附加加载。是否有通过AWS胶合库实现相同的方法?

取消 提交回答
全部回答(1)
  • 社区小助手
    2019-07-17 23:18:21

    你的脚本会将新数据文件附加到适当的分区。因此,如果您只处理今天的数据,那么它将在下面创建一个新的数据分区path。例如,如果今天是2018-11-28,它将在s3://some_s3_bucket_location/partitonyear=2018/partitonmonth=11/partitonday=28/文件夹中创建新的数据对象。

    如果您尝试将数据写入现有分区,则Glue将附加新文件,并且不会删除现有对象。但是,如果多次运行作业以处理相同的数据,这可能会导致重复

    0 0
相关问答

79

回答

小白用户ECS使用实践【持续连载中】

qilu 2014-06-18 15:37:00 73746浏览量 回答数 79

10

回答

【精品问答合集】Hbase热门问答

hbase小能手 2019-05-29 14:37:26 123843浏览量 回答数 10

37

回答

干货分享:DBA专家门诊一期:索引与sql优化问题汇总

xiaofanqie 2014-12-25 15:13:38 93336浏览量 回答数 37

119

回答

OSS存储服务-客户端工具

newegg11 2012-05-17 15:37:18 302772浏览量 回答数 119

22

回答

爬虫数据管理【问答合集】

我是管理员 2018-08-10 16:37:41 149016浏览量 回答数 22

23

回答

【云服务器分享】网站访问速度快才是硬道理

dreamdoo 2012-10-15 10:15:02 86591浏览量 回答数 23

13

回答

【云服务器分享】如何节省网站流量

dreamdoo 2012-10-15 10:36:09 81831浏览量 回答数 13

62

回答

磁盘原地扩容功能4月22日正式上线

艳馨 2015-04-21 23:40:33 97259浏览量 回答数 62

23

回答

【精品问答合集】Redis热门问答

李博 bluemind 2019-05-29 16:36:15 131350浏览量 回答数 23

2

回答

区域选择帮助

fanyue88888 2012-12-07 15:54:30 205789浏览量 回答数 2
+关注
社区小助手
社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。
12
文章
824
问答
问答排行榜
最热
最新
相关电子书
更多
JS零基础入门教程(上册)
立即下载
性能优化方法论
立即下载
手把手学习日志服务SLS,云启实验室实战指南
立即下载