开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

DataWorks中maxcomputer 读取外部表速度非常慢,有什么方法可以提升效率么?

DataWorks中maxcomputer 读取外部表(数据在oss gz压缩)速度非常慢,有什么方法可以提升效率么?

展开
收起
真的很搞笑 2023-11-20 07:54:21 122 0
2 条回答
写回答
取消 提交回答
  • MaxCompute在处理OSS上的gzip压缩数据时,目前仅支持通过内置extractor读取CSV或TSV格式的数据。如果您发现读取速度较慢,可以考虑以下优化建议:

    1. 考虑在MaxCompute项目中创建一个与OSS外部表Schema相同的内部表,然后将OSS上的数据导入MaxCompute项目的内部表中。这样,您可以利用MaxCompute本身针对内部存储设计的高性能优化,从而提高数据处理效率。
    2. 确保Mapper的数量足够。如果Mapper数量过少,可能会导致SQL处理变慢。
    3. 考虑使用更高效的计算资源,如更高的CPU、内存和网络带宽,以提高处理速度。
    4. 如果可能,尝试减少查询的数据量,例如通过增加分区来减少每个查询的输出数据量。
    5. 对于频繁查询的数据,可以考虑使用缓存机制来提高查询速度。
    2023-11-29 15:37:06
    赞同 1 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    如果MaxComputer在DataWorks中读取外部表的速度很慢,可以尝试以下方法来提高读取效率:

    1. 使用更高效的存储方式:考虑使用OSS存储方式来替代原来的存储方式,比如使用OSS Standard或OSS IA。
    2. 优化数据格式:考虑将原始数据转换成更高效的数据格式,例如Parquet、ORC等列式存储格式。
    3. 减少文件大小:如果数据文件太大,可以考虑将其拆分成若干个小文件,以提高读取效率。
    4. 增加分区数:如果数据集很大,可以考虑使用分区表来提高读取速度。
    5. 启用HDFS cache:在MaxComputer中启用HDFS cache可以减少磁盘I/O,提高读取速度。
    2023-11-20 13:17:25
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关电子书

更多
DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载

相关实验场景

更多