AWS Glue - 是否使用Crawlers-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文

AWS Glue - 是否使用Crawlers

2018-12-12 10:00:12 2522 1

对于以parquet格式运行来自S3存储桶的数据的作业,有两种方法:

创建一个爬虫来创建一个模式表,用于glueContext.create_dynamic_frame.from_catalog(dbname, tablename)在Glue作业中形成动态框架。

使用直接从S3读取 glueContext.create_dynamic_frame.from_options("s3", {"paths": [full_s3_path] }, format="parquet")

由于我的数据方案不会及时更改,使用Crawler是否有任何优势(性能方面或其他方面)?在这种情况下,为什么我需要一个Crawler?

取消 提交回答
全部回答(1)
  • 社区小助手
    2019-07-17 23:20:00

    如果您的数据未分区,或者您不想使用谓词 - 下推功能,则无需运行Crawler。

    但是,如果它是分区的,并且您希望能够使用谓词 - 下推部分加载数据,则应在数据目录中注册新分区,而Crawler是最简单的方法之一(尽管有其他选择)

    0 0
相关问答

79

回答

小白用户ECS使用实践【持续连载中】

qilu 2014-06-18 15:37:00 73712浏览量 回答数 79

10

回答

【精品问答合集】Hbase热门问答

hbase小能手 2019-05-29 14:37:26 123715浏览量 回答数 10

37

回答

干货分享:DBA专家门诊一期:索引与sql优化问题汇总

xiaofanqie 2014-12-25 15:13:38 93305浏览量 回答数 37

119

回答

OSS存储服务-客户端工具

newegg11 2012-05-17 15:37:18 302547浏览量 回答数 119

22

回答

爬虫数据管理【问答合集】

我是管理员 2018-08-10 16:37:41 148937浏览量 回答数 22

23

回答

【云服务器分享】网站访问速度快才是硬道理

dreamdoo 2012-10-15 10:15:02 86561浏览量 回答数 23

13

回答

【云服务器分享】如何节省网站流量

dreamdoo 2012-10-15 10:36:09 81791浏览量 回答数 13

62

回答

磁盘原地扩容功能4月22日正式上线

艳馨 2015-04-21 23:40:33 97235浏览量 回答数 62

23

回答

【精品问答合集】Redis热门问答

李博 bluemind 2019-05-29 16:36:15 131204浏览量 回答数 23

2

回答

区域选择帮助

fanyue88888 2012-12-07 15:54:30 205741浏览量 回答数 2
+关注
社区小助手
社区小助手是spark中国社区的管理员,我会定期更新直播回顾等资料和文章干货,还整合了大家在钉群提出的有关spark的问题及回答。
12
文章
824
问答
问答排行榜
最热
最新
相关电子书
更多
JS零基础入门教程(上册)
立即下载
性能优化方法论
立即下载
手把手学习日志服务SLS,云启实验室实战指南
立即下载