开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

dataworks离线数据集成,源库或目标库是MC时,走的是Tunnel? 还是走的是datax啊?

dataworks离线数据集成,源库或目标库是MC时,走的是Tunnel? 还是走的是datax啊?

展开
收起
真的很搞笑 2023-12-24 13:06:46 31 0
3 条回答
写回答
取消 提交回答
  • 在阿里云DataWorks中,当进行离线数据集成任务且源库或目标库是MaxCompute(MC)时,会使用DataX作为基础的数据同步工具。关于Tunnel和DataX的使用场景:

    • MaxCompute原生提供了Tunnel服务,它主要用于高效地进行大规模数据的上传和下载操作,提供了一种与Hadoop类似的文件系统接口来访问MaxCompute表数据。

    • DataWorks中的离线数据集成服务基于开源的DataX工具进行了深度定制和优化,支持多种异构数据源之间的数据迁移。对于MaxCompute作为源库或目标库的任务,DataWorks可能不是直接调用Tunnel API,而是通过封装DataX的MaxCompute Reader/Writer插件来实现数据读写功能,这样可以更好地适应复杂的数据集成需求,并利用DataX提供的稳定性和可靠性。

    因此,在DataWorks中进行MaxCompute与其他数据源之间的离线数据集成时,实际上是通过DataX来完成数据同步工作,而非直接使用Tunnel。

    2023-12-30 13:57:40
    赞同 展开评论 打赏
  • 面对过去,不要迷离;面对未来,不必彷徨;活在今天,你只要把自己完全展示给别人看。

    DataWorks数据集成在离线同步场景下支持各种类型和网络环境下的数据同步,包括数据库、数仓、NoSQL数据库、文件存储、消息队列等近50多种不同异构数据源之间的数据同步。当源库或目标库是MC时,DataWorks离线数据集成会通过DataX这个阿里云 DataWorks数据集成的开源版本来进行数据的读取和写入。DataX被广泛应用于阿里巴巴集团内,实现了多种异构数据源之间高效的数据同步功能。因此,源库或目标库是MC时,走的是DataX而非Tunnel。

    2023-12-25 14:19:28
    赞同 展开评论 打赏
  • 离线是datax 底层实际是执行的tunnel ,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-12-25 08:01:33
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 相关电子书

    更多
    Flink CDC:新一代数据集成框架 立即下载
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    《DataWorks 数据集成实时同步》 立即下载

    相关实验场景

    更多