对于以parquet格式运行来自S3存储桶的数据的作业,有两种方法:
创建一个爬虫来创建一个模式表,用于glueContext.create_dynamic_frame.from_catalog(dbname, tablename)在Glue作业中形成动态框架。
使用直接从S3读取 glueContext.create_dynamic_frame.from_options("s3", {"paths": [full_s3_path] }, format="parquet")
由于我的数据方案不会及时更改,使用Crawler是否有任何优势(性能方面或其他方面)?在这种情况下,为什么我需要一个Crawler?
如果您的数据未分区,或者您不想使用谓词 - 下推功能,则无需运行Crawler。
但是,如果它是分区的,并且您希望能够使用谓词 - 下推部分加载数据,则应在数据目录中注册新分区,而Crawler是最简单的方法之一(尽管有其他选择)
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。