MaxCompute用户指南:数据上传下载:工具介绍-问答-阿里云开发者社区-阿里云

开发者社区> 问答> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

MaxCompute用户指南:数据上传下载:工具介绍

2017-10-23 15:26:22 2656 0


MaxCompute 平台的数据上传和下载目前有着丰富的工具(其中大部分已经在 GitHub 上开源,走开源社区的维护方式)可以使用,各自有不同的应用场景,具体分为阿里云数加产品和开源产品两大类,本文将进行简要介绍。

阿里云数加产品



大数据开发套件之数据集成


大数据开发套件之数据集成(即数据同步),是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台,致力于为阿里云上各类异构数据存储系统提供离线全量和实时增量的数据同步、集成、交换服务。
其中数据同步任务支持的数据源类型包括:MaxCompute、RDS(MySQL、SQL Server、PostgreSQL)、Oracle、FTP、ADS(AnalyticDB)、OSS、Memcache、DRDS,详情请参见 数据同步简介,具体使用方法请参见 创建数据同步任务

MaxCompute 客户端


注意:
该项目已经开源,GitHub 项目地址为: https://github.com/aliyun/aliyun-odps-console


DTS


数据传输(Data Transmission)服务 DTS 是阿里云提供的一种支持 RDBMS(关系型数据库)、NoSQL、OLAP 等多种数据源之间数据交互的数据服务。它提供了数据迁移、实时数据订阅及数据实时同步等多种数据传输功能。
DTS 可以支持 RDS、MySQL 实例的数据实时同步到 MaxCompute 表中,暂不支持其他数据源类型。详情请参见 创建 RDS 到 MaxCompute 数据实时同步作业

开源产品



Sqoop


Sqoop基于社区 Sqoop 1.4.6 版本开发,增强了对 MaxCompute 的支持,可以将数据从 MySQL 等关系数据库导入/导出到MaxCompute 表中,也可以从 HDFS/Hive 导入数据到 MaxCompute 表中。详情请参见 MaxCompute Sqoop

注意:
该项目已经开源,GitHub 项目地址为: https://github.com/aliyun/aliyun-maxcompute-data-collectors .


Kettle


Kettle 是一款开源的 ETL 工具,纯 Java 实现,可以在 Windows、Unix 和  Linux 上运行,提供图形化的操作界面,可以通过拖拽控件的方式,方便地定义数据传输的拓扑 。详情请参见 基于 Kettle 的 MaxCompute 插件实现数据上云

注意:
该项目已经开源,GitHub 项目地址为: https://github.com/aliyun/aliyun-maxcompute-data-collectors


Flume


Apache Flume 是一个分布式的、可靠的、可用的系统,可高效地从不同的数据源中收集、聚合和移动海量日志数据到集中式数据存储系统,支持多种 Source 和 Sink 插件。
Apache Flume 的 DataHub Sink 插件可以将日志数据实时上传到 DataHub,并归档到 MaxCompute 表中。详情请参见 flume_plugin

注意:
该项目已经开源,GitHub 项目地址为: https://github.com/aliyun/aliyun-maxcompute-data-collectors


Fluentd


Fluentd是一个开源的软件,用来收集各种源头日志(包括 Application Log、Sys Log 及 AccessLog),允许您选择插件对日志数据进行过滤,并存储到不同的数据处理端(包括MySQL、Oracle、MongoDB、Hadoop、Treasure Data 等)。
Fluentd 的 DataHub 插件可以将日志数据实时上传到 DataHub,并归档到 MaxCompute 表中。详情请参见 Fluentd 插件介绍

LogStash


LogStash是一款开源日志收集处理框架,logstash-output-datahub 插件实现了将数据导入 DataHub的功能。通过简单的配置即可完成数据的采集和传输,结合 MaxCompute/StreamCompute可以轻松构建流式数据从采集到分析的一站式解决方案。
LogStash 的 DataHub 插件可以将日志数据实时上传到 DataHub,并归档到 MaxCompute 表中。具体示例请参见 Logstash + DataHub + MaxCompute/StreamCompute 进行实时数据分析

OGG


OGG 的 DataHub 插件可以支持将 Oracle 数据库的数据实时地以增量方式同步到 DataHub 中,并最终归档到 MaxCompute 表中。详情请参见 基于 OGG DataHub 插件将 Oracle 数据同步上云

注意:
该项目已经开源,GitHub 项目地址为: https://github.com/aliyun/aliyun-maxcompute-data-collectors
取消 提交回答
全部回答(0)
相关问答

1

回答

分库分表同步至 MaxCompute表进行运维时如何增减数据源?

2022-08-17 10:33:41 148浏览量 回答数 1

1

回答

分库分表同步至 MaxCompute表进行运维时如何增减表?

2022-08-17 10:34:05 147浏览量 回答数 1

1

回答

MaxCompute的Hash Clustering表的优点是什么?

2021-12-08 17:41:15 129浏览量 回答数 1

1

回答

MaxCompute当中的Hash Clustering表的优点是什么?

2021-12-08 21:01:25 128浏览量 回答数 1

1

回答

MaxCompute SQL中的Hash Clustering表的优点有哪些?

2021-12-08 10:43:39 110浏览量 回答数 1

1

回答

MaxCompute SQL中Hash Clustering表的限制有哪些?

2021-12-08 10:53:47 122浏览量 回答数 1

1

回答

MaxCompute SQL中查看表的操作语句是什么?

2021-12-08 10:56:55 234浏览量 回答数 1

1

回答

MaxCompute表的生命周期是什么?

2021-12-07 22:43:13 340浏览量 回答数 1

1

回答

如何让FlinkSQL访问到阿里云MaxCompute上的表?

2021-12-02 11:27:20 267浏览量 回答数 1

1

回答

MaxCompute的表有无索引?

2020-07-16 10:10:16 2108浏览量 回答数 1
+关注
行者武松
杀人者,打虎武松也。
17111
文章
2568
问答
问答排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载