开发者社区> 问答> 正文

S3中的压缩数据需要用于EMR或Redshift上的机器学习

小六码奴 2019-04-23 14:50:23 264

我在S3存储中有压缩格式的巨大CSV文件。我只需要数据中的一部分列用于机器学习目的。如何在不传输整个文件的情况下将这些列提取到EMR然后再提取到Redshift?

我的想法是将所有文件处理成EMR,然后提取子集并将所需的列推送到Redshift。但这需要花费很多时间。如果有优化的方法来处理这些数据,请告诉我。

机器学习/深度学习 存储
分享到
取消 提交回答
全部回答(1)
  • 小六码奴
    2019-07-17 23:34:04

    如果目标是在Redshift中实现表中文件列的子集,那么您拥有的一个选项是Redshift Spectrum,它允许您在S3中的CSV文件上定义“外部表”。

    然后,您可以从外部表中选择相关列,并将它们插入到实际的Redshift表中。

    当Spectrum扫描CSV文件以查询它们时,您将受到初始成本损失,这将根据文件的大小而有所不同,但这可能远远低于启动EMR集群来处理数据。

    0 0
+ 订阅

了解行业+人工智能最先进的技术和实践,参与行业+人工智能实践项目

推荐文章
相似问题