开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 正文

大数据计算MaxCompute dataworks离线数据集成,是这样的关系么?

大数据计算MaxCompute dataworks离线数据集成,底层用的是datax的odpsreader,odpsreader底层用的是mc tunnel,是这样的关系么?

展开
收起
真的很搞笑 2023-12-24 15:58:37 99 0
4 条回答
写回答
取消 提交回答
  • 是的。datax的odpsreader 调用的MaxCompute Tunnel接口。 实际还是走的Tunnel 接口 ,此回答整理自钉群“MaxCompute开发者社区2群”

    2023-12-25 08:04:41
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    实际上,DataWorks离线数据集成的底层使用的是DataX的ODPSReader,而不是MC Tunnel。DataX是阿里巴巴开源的一个数据同步工具,用于实现不同数据源之间的数据同步,其中就包括了读取MaxCompute数据的ODPSReader插件。而DataWorks是基于云原生大数据计算服务MaxCompute的数据集成工具,通过可视化方式进行任务工作流的配置、周期性调度执行及元数据管理,保障数据生产及管理的高效稳定。所以,DataWorks离线数据集成和DataX的ODPSReader有密切的关系,但并不直接使用MC Tunnel作为底层工具。

    2023-12-24 18:42:41
    赞同 展开评论 打赏
  • 是的,你的理解大致正确。在大数据计算MaxCompute中,DataWorks是一个数据开发和治理平台,它提供了包括离线数据集成在内的多种功能。

    在进行离线数据集成时,DataWorks可能会使用DataX作为其底层的数据迁移工具。DataX是一个阿里巴巴开源的数据同步工具,支持多种数据源之间的数据迁移。

    DataX的OdpsReader插件是用来从MaxCompute(原名ODPS)读取数据的。在OdpsReader插件的实现中,确实会利用MaxCompute的Tunnel服务来进行数据的高效读取。

    MaxCompute Tunnel是一个用于数据导入导出的服务,它提供了高并发、高吞吐量的数据上传和下载能力,使得用户能够高效地与MaxCompute进行数据交互。

    所以,总结起来,当在DataWorks中进行MaxCompute的离线数据集成时,底层的实现路径可能是:DataWorks -> DataX (使用OdpsReader) -> MaxCompute Tunnel。这样的设计可以充分利用各组件的优势,实现数据迁移的稳定性和效率。

    2023-12-24 18:59:59
    赞同 展开评论 打赏
  • DataWorks是阿里云的大数据平台产品,提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务。

    DataWorks的离线数据集成功能底层使用了DataX的ODPSReader组件。ODPSReader是专门针对MaxCompute(原ODPS,Open Data Processing Service)的数据抽取组件。

    而ODPSReader底层使用了MC Tunnel来进行数据传输。MC Tunnel是阿里云提供的一种数据传输工具,支持大规模数据的稳定传输,常用于大数据场景下的数据传输。

    2023-12-24 17:41:06
    赞同 展开评论 打赏

MaxCompute(原ODPS)是一项面向分析的大数据计算服务,它以Serverless架构提供快速、全托管的在线数据仓库服务,消除传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您经济并高效的分析处理海量数据。

相关产品

  • 云原生大数据计算服务 MaxCompute
  • 相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载