开发者社区> 问答> 正文

AWS Glue - 是否使用Crawlers

对于以parquet格式运行来自S3存储桶的数据的作业,有两种方法:

创建一个爬虫来创建一个模式表,用于glueContext.create_dynamic_frame.from_catalog(dbname, tablename)在Glue作业中形成动态框架。

使用直接从S3读取 glueContext.create_dynamic_frame.from_options("s3", {"paths": [full_s3_path] }, format="parquet")

由于我的数据方案不会及时更改,使用Crawler是否有任何优势(性能方面或其他方面)?在这种情况下,为什么我需要一个Crawler?

展开
收起
社区小助手 2018-12-12 10:00:12 3290 0
1 条回答
写回答
取消 提交回答
  • 社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。

    如果您的数据未分区,或者您不想使用谓词 - 下推功能,则无需运行Crawler。

    但是,如果它是分区的,并且您希望能够使用谓词 - 下推部分加载数据,则应在数据目录中注册新分区,而Crawler是最简单的方法之一(尽管有其他选择)

    2019-07-17 23:20:00
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
使用Kubernetes运行MXNet和AutoTVM 立即下载
Migration from Redshift 立即下载
阿里云 Kubernetes+Kubeflow – 加速深度学习实验的利器 立即下载