S3中的压缩数据需要用于EMR或Redshift上的机器学习-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

S3中的压缩数据需要用于EMR或Redshift上的机器学习

2019-04-23 14:50:23 1577 1

我在S3存储中有压缩格式的巨大CSV文件。我只需要数据中的一部分列用于机器学习目的。如何在不传输整个文件的情况下将这些列提取到EMR然后再提取到Redshift?

我的想法是将所有文件处理成EMR,然后提取子集并将所需的列推送到Redshift。但这需要花费很多时间。如果有优化的方法来处理这些数据,请告诉我。

取消 提交回答
全部回答(1)
  • 小六码奴
    2019-07-17 23:34:04

    如果目标是在Redshift中实现表中文件列的子集,那么您拥有的一个选项是Redshift Spectrum,它允许您在S3中的CSV文件上定义“外部表”。

    然后,您可以从外部表中选择相关列,并将它们插入到实际的Redshift表中。

    当Spectrum扫描CSV文件以查询它们时,您将受到初始成本损失,这将根据文件的大小而有所不同,但这可能远远低于启动EMR集群来处理数据。

    0 0
相关问答

0

回答

flink1.13.5 mysql-cdc-2.2.0 mysql 5.6 一次同步90w数据后不同

2022-11-13 20:11:08 48浏览量 回答数 0

1

回答

请问自建的sql server能通过dataworks实时同步数据么?

2022-08-29 17:54:12 245浏览量 回答数 1

1

回答

请问下bizdate是代表昨天(t-1)的分区数据吗?如果是今天可以用${date}吗

2022-07-15 13:24:30 195浏览量 回答数 1

1

回答

Quick BI和Power BI在数据处理和建模上有什么区别?

2021-12-12 21:12:26 284浏览量 回答数 1

1

回答

sqoop在导入数据到mysql中,如何不重复导入数据,如果存在数据问题,sqoop如何处理?

2021-12-05 17:12:23 298浏览量 回答数 1

0

回答

Java性能调优,java执行数据库SQL批处理操作,是否会影响java应用系统性能?

2021-11-07 21:32:41 442浏览量 回答数 0

1

回答

零基础创建个人博客的整套流程在哪里学习?

2021-09-29 11:32:43 341浏览量 回答数 1

0

回答

超大规模机器学习在EMR的实践

2018-06-26 23:29:57 1417浏览量 回答数 0

0

回答

Java-SDK的单行数据操作

2017-10-26 09:59:25 2052浏览量 回答数 0

0

回答

如何利用数据传输中的数据订阅SDK同步云上RDS数据到本地灾备MySQL

2016-03-30 17:16:18 5730浏览量 回答数 0
+关注
文章
问答
问答排行榜
最热
最新
相关电子书
更多
零基础实现hadoop 迁移 MaxCompute 之 数据
立即下载
MaxCompute2.0外表对接异构存储源和支持非结构化数据介绍
立即下载
云HBase之时序引擎
立即下载