备案控制台

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

DataWorks中maxcomputer 读取外部表速度非常慢，有什么方法可以提升效率么？

DataWorks中maxcomputer 读取外部表（数据在oss gz压缩）速度非常慢，有什么方法可以提升效率么？

展开

收起

真的很搞笑 2023-11-20 07:54:21 126 0

2 条回答

写回答

取消提交回答

sunrr
MaxCompute在处理OSS上的gzip压缩数据时，目前仅支持通过内置extractor读取CSV或TSV格式的数据。如果您发现读取速度较慢，可以考虑以下优化建议：
1. 考虑在MaxCompute项目中创建一个与OSS外部表Schema相同的内部表，然后将OSS上的数据导入MaxCompute项目的内部表中。这样，您可以利用MaxCompute本身针对内部存储设计的高性能优化，从而提高数据处理效率。
2. 确保Mapper的数量足够。如果Mapper数量过少，可能会导致SQL处理变慢。
3. 考虑使用更高效的计算资源，如更高的CPU、内存和网络带宽，以提高处理速度。
4. 如果可能，尝试减少查询的数据量，例如通过增加分区来减少每个查询的输出数据量。
5. 对于频繁查询的数据，可以考虑使用缓存机制来提高查询速度。
2023-11-29 15:37:06

赞同 1 展开评论打赏
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
如果MaxComputer在DataWorks中读取外部表的速度很慢，可以尝试以下方法来提高读取效率：
1. 使用更高效的存储方式：考虑使用OSS存储方式来替代原来的存储方式，比如使用OSS Standard或OSS IA。
2. 优化数据格式：考虑将原始数据转换成更高效的数据格式，例如Parquet、ORC等列式存储格式。
3. 减少文件大小：如果数据文件太大，可以考虑将其拆分成若干个小文件，以提高读取效率。
4. 增加分区数：如果数据集很大，可以考虑使用分区表来提高读取速度。
5. 启用HDFS cache：在MaxComputer中启用HDFS cache可以减少磁盘I/O，提高读取速度。
2023-11-20 13:17:25

赞同展开评论打赏

问答分类：

DataWorks 对象存储大数据开发治理平台 DataWorks 云原生大数据计算服务 MaxCompute

问答标签：

大数据开发治理平台 DataWorks方法大数据开发治理平台 DataWorks maxcomputer 大数据开发治理平台 DataWorks外部表大数据开发治理平台 DataWorks maxcomputer外部表

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

DataWorks中python里面没有类似的方法吗，python代码执行报错？

54

0

0

DataWorks有什么方法可以自动把新增字段的映射加上再同步任务？

38

1

0

DataWorks中python 链接maxcomputer 这个空间的名字从哪里找？

26

1

0

dataworks现在这个任务点击提交后提示系统错误，提交不上去，有什么方法处理吗？

31

0

0

dataworks为啥只能读 maxcomputer 不能读 emr 呢？

60

1

0

DataWorks新建了一个工作空间，有什么批量的方法吗？

37

1

0

DataWorks有啥好的方法能知道版本是多少呢？

33

2

0

DataWorks绑定 emr 初始化网络连接不上，有啥好的方法呢？

32

1

0

dataworks，请问是否有方法在把数据插入lindorm的时候进行类型转换呢？

21

1

0

dataworks写sql的时候是否有方法可以快速插入一张表的所有字段？

35

1

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

热门讨论

热门文章

Maxcompute中如何处理ODPS-0130071:Semantic analysis exce

大数据计算MaxCompute配置参数在开发环境进行调度，参数解析不出来，这是需要额外做什么配置吗？

DataWorks中maxcmpute的底层底层是啥？

DataWorks是什么？

MaxCompute中执行SQL报错ODPS-0130071

Maxcompute中如何处理expect equality expression (i.e., o

大数据计算MaxCompute可以修改字段类型吗？

请教下大数据计算MaxCompute，case when 能否跟开窗函数一起用？

大数据计算MaxCompute ODPS-0010000:System internal这个怎么办？

DataWorks中maxcompute怎么生成日期列表？

展开全部

阿里云开源离线同步工具DataX3.0介绍

大数据环境下该如何优雅地设计数据分层

Python+大数据计算平台，PyODPS架构手把手教你搭建

【转载】时隔一年多，我又用起了 Superset

混合云模式下 MaxCompute + Hadoop 混搭大数据架构实践

如何有效降低大数据平台安全风险

【逐云】阿里“水电煤”背后的人物故事

【直击深圳云栖大会大数据专场】陈鹏宇分享主题—数加：迈向数据智能之路

【转载文章】记录一次MySQL两千万数据的大表优化解决过程，提供三种解决方案

SLS：海量日志数据管理利器

展开全部

相关课程

更多

一站式大数据开发治理平台DataWorks初级课程

1235

11

去学习

DataWorks一站式大数据开发治理平台精品课程

8506

35

去学习

相关电子书

更多

DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载

DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载

基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载

相关实验场景

更多