文档备案控制台

开发者社区问答正文

S3中的压缩数据需要用于EMR或Redshift上的机器学习

我在S3存储中有压缩格式的巨大CSV文件。我只需要数据中的一部分列用于机器学习目的。如何在不传输整个文件的情况下将这些列提取到EMR然后再提取到Redshift？

我的想法是将所有文件处理成EMR，然后提取子集并将所需的列推送到Redshift。但这需要花费很多时间。如果有优化的方法来处理这些数据，请告诉我。

展开

收起

小六码奴 2019-04-23 14:50:23 2136 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

小六码奴

如果目标是在Redshift中实现表中文件列的子集，那么您拥有的一个选项是Redshift Spectrum，它允许您在S3中的CSV文件上定义“外部表”。
然后，您可以从外部表中选择相关列，并将它们插入到实际的Redshift表中。
当Spectrum扫描CSV文件以查询它们时，您将受到初始成本损失，这将根据文件的大小而有所不同，但这可能远远低于启动EMR集群来处理数据。

2019-07-17 23:34:04

赞同展开评论

问答分类：

机器学习/深度学习存储

问答标签：

人工智能平台 PAI数据数据emr 数据人工智能平台 PAI emr人工智能平台 PAI emr机器学习

问答地址：

开发者社区 > 人工智能 > 问答

相关问答

在机器学习PAI中，低版本和高版本相同的数据跑出来收敛曲线不一样且稳定复现，这是什么问题呢？

202

0

0

hologres能映射emr的hive外表吧 hive 表往 holo 写数据有啥好的办法？

216

1

0

在机器学习PAI我们每天写前一天的数据到pt里，然后全量数据同步前30天，是怎么同步的？

175

2

0

机器学习PAI的featurestore里的行为序列为啥有的数据能查到有的数据查不到那？

100

1

0

我如何将一个oss 挂载到emr集群。以便通过hive sql 查询oss 里的日志数据？

169

0

0

机器学习PAI同样的数据训练，在同一批测试数据上进行hitrate 的对比，这个正常吗？

86

1

0

机器学习PAI训练数据的原始 hive表存在emr集群，pai如何才能组装好训练数据进行模型训练呢？

193

1

0

智能标注PAI-itag，标注完导出的数据可以下载到本地吗？

240

1

0

机器学习PAI把writeflush注释掉之后，发现100条数据只写入了3条，怎么回事？

122

1

0

机器学习PAI没办法通过构造http请求来取数据？我们的工程项目是C#开发的，这样就基本用不了了

107

1

0

问答排行榜

最热

最新

【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥

据说在家办公的程序员是这样写代码的？

如何升级配置

【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？

【精品问答】python技术1000问(1)

CoPAW配置后，对话，出现 AGENT_UNKNOWN_ERROR 如何解决

copaw安装后，出现这个情况，在设置模型的过程中出现这个问题，如何解决

Qwen OpenAI-Responses 兼容模式有问题

copaw安装后选择ollma为啥报错不能安装相关模型？

建议通义灵码参考字节的trae ，可以自主选择一些开源的模型

相关文章

阿里云服务器多少钱一年？一般人不知道的特价购买方式，秒杀最低38元1年

ossftp结合FileZilla在公网使用

余数周期闭合与格点守恒计算框架 ——一种离散数值系统的结构化分析方法（陈恩华）

写 PyTorch 总像在写脚本？试试 PyTorch Lightning，把模型训练变成“工程化项目”

2026阿里云优惠活动政策解读：个人、企业及学生全覆盖，云服务器、AI大模型tokens及免费试用指南

相关解决方案

更多

基于数据闪回，快速恢复数据

海量异构数据预处理破局之道

分析 Agent 实现一键 AI 数据洞察

多模态数据信息提取

高效存储和处理多媒体数据

还有其他疑问?