MaxCompute 平台的数据上传和下载目前有着丰富的工具(其中大部分已经在 GitHub 上开源,走开源社区的维护方式)可以使用,各自有不同的应用场景,具体分为阿里云数加产品和开源产品两大类,本文将进行简要介绍。
阿里云数加产品
大数据开发套件之数据集成
大数据开发套件之数据集成(即数据同步),是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台,致力于为阿里云上各类异构数据存储系统提供离线全量和实时增量的数据同步、集成、交换服务。
其中数据同步任务支持的数据源类型包括:MaxCompute、RDS(MySQL、SQL Server、PostgreSQL)、Oracle、FTP、ADS(AnalyticDB)、OSS、Memcache、DRDS,详情请参见
数据同步简介,具体使用方法请参见
创建数据同步任务。
MaxCompute 客户端
注意:
该项目已经开源,GitHub 项目地址为:
https://github.com/aliyun/aliyun-odps-console 。
DTS
数据传输(Data Transmission)服务 DTS 是阿里云提供的一种支持 RDBMS(关系型数据库)、NoSQL、OLAP 等多种数据源之间数据交互的数据服务。它提供了数据迁移、实时数据订阅及数据实时同步等多种数据传输功能。
DTS 可以支持 RDS、MySQL 实例的数据实时同步到 MaxCompute 表中,暂不支持其他数据源类型。详情请参见
创建 RDS 到 MaxCompute 数据实时同步作业。
开源产品
Sqoop
Sqoop基于社区 Sqoop 1.4.6 版本开发,增强了对 MaxCompute 的支持,可以将数据从 MySQL 等关系数据库导入/导出到MaxCompute 表中,也可以从 HDFS/Hive 导入数据到 MaxCompute 表中。详情请参见
MaxCompute Sqoop。
注意:
该项目已经开源,GitHub 项目地址为:
https://github.com/aliyun/aliyun-maxcompute-data-collectors .
Kettle
Kettle 是一款开源的 ETL 工具,纯 Java 实现,可以在 Windows、Unix 和 Linux 上运行,提供图形化的操作界面,可以通过拖拽控件的方式,方便地定义数据传输的拓扑 。详情请参见
基于 Kettle 的 MaxCompute 插件实现数据上云。
注意:
该项目已经开源,GitHub 项目地址为:
https://github.com/aliyun/aliyun-maxcompute-data-collectors 。
Flume
Apache Flume 是一个分布式的、可靠的、可用的系统,可高效地从不同的数据源中收集、聚合和移动海量日志数据到集中式数据存储系统,支持多种 Source 和 Sink 插件。
Apache Flume 的 DataHub Sink 插件可以将日志数据实时上传到 DataHub,并归档到 MaxCompute 表中。详情请参见
flume_plugin。
注意:
该项目已经开源,GitHub 项目地址为:
https://github.com/aliyun/aliyun-maxcompute-data-collectors 。
Fluentd
Fluentd是一个开源的软件,用来收集各种源头日志(包括 Application Log、Sys Log 及 AccessLog),允许您选择插件对日志数据进行过滤,并存储到不同的数据处理端(包括MySQL、Oracle、MongoDB、Hadoop、Treasure Data 等)。
Fluentd 的 DataHub 插件可以将日志数据实时上传到 DataHub,并归档到 MaxCompute 表中。详情请参见
Fluentd 插件介绍。
LogStash
LogStash是一款开源日志收集处理框架,logstash-output-datahub 插件实现了将数据导入 DataHub的功能。通过简单的配置即可完成数据的采集和传输,结合 MaxCompute/StreamCompute可以轻松构建流式数据从采集到分析的一站式解决方案。
LogStash 的 DataHub 插件可以将日志数据实时上传到 DataHub,并归档到 MaxCompute 表中。具体示例请参见
Logstash + DataHub + MaxCompute/StreamCompute 进行实时数据分析。
OGG
OGG 的 DataHub 插件可以支持将 Oracle 数据库的数据实时地以增量方式同步到 DataHub 中,并最终归档到 MaxCompute 表中。详情请参见
基于 OGG DataHub 插件将 Oracle 数据同步上云。
注意:
该项目已经开源,GitHub 项目地址为:
https://github.com/aliyun/aliyun-maxcompute-data-collectors 。