开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

大数据计算MaxCompute效率方面,是通过OSS进行导出和导入好,还是用进行etl传输好?

大数据计算MaxCompute效率方面,是通过OSS进行导出和导入好,还是用dataworks进行etl传输好?

展开
收起
真的很搞笑 2024-04-21 08:14:57 51 0
2 条回答
写回答
取消 提交回答
  • oss导入用到的MaxCompute的计算性能,如果是DataWorks用的是独享数据集成的性能。 取决于你的资源大小。我不确定REGEXP在MaxCompute 能不能用,建议改成rlike
    https://help.aliyun.com/zh/maxcompute/user-guide/maxcompute-regular-expressions?spm=a2c4g.11186623.0.i33 ,此回答整理自钉群“MaxCompute开发者社区2群”

    2024-04-21 21:13:40
    赞同 展开评论 打赏
  • 深耕大数据和人工智能

    大数据计算MaxCompute在效率方面,无论是通过OSS进行导出和导入,还是使用ETL进行传输,都有其各自的优缺点,选择哪种方式取决于具体的应用场景和需求。
    通过OSS进行导出和导入,可以充分利用OSS作为云存储服务的优势,提供高可靠、高吞吐、低延迟的数据存储和访问能力。这种方式适合于大规模数据的备份、迁移和共享。MaxCompute支持使用unload命令将数据导出至OSS,以CSV格式或其他开源格式存储,使得数据可以在不同的计算引擎之间灵活传输。然而,这种方式可能涉及到数据的转换和格式调整,需要一定的开发和维护成本。

    使用ETL进行传输,则可以实现数据的抽取、转换和加载过程,使得数据能够按照特定的业务逻辑进行清洗、整合和转换,以满足不同的分析需求。ETL工具通常提供了丰富的数据处理功能,可以方便地处理复杂的数据转换和清洗任务。此外,ETL工具还可以实现数据的实时同步,确保数据的及时性和准确性。但是,ETL过程可能相对复杂,需要专业的ETL开发人员进行设计和维护。

    因此,在选择使用OSS导出/导入还是ETL传输时,需要根据具体的应用场景和需求进行权衡。如果主要是进行大规模数据的备份、迁移和共享,且对数据的格式和转换要求不高,那么使用OSS可能更为合适。而如果需要进行复杂的数据清洗、整合和转换,且对数据的实时性和准确性要求较高,那么使用ETL可能更为合适。
    总的来说,无论选择哪种方式,都需要综合考虑数据的规模、复杂性、实时性要求以及开发和维护成本等因素,以选择最适合的方案。

    2024-04-21 10:01:51
    赞同 2 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 相关电子书

    更多
    Data+AI时代大数据平台应该如何建设 立即下载
    大数据AI一体化的解读 立即下载
    极氪大数据 Serverless 应用实践 立即下载