MaxCompute(原ODPS)开发入门指南——数据上云篇

简介: 根据《MaxCompute(原ODPS)开发入门指南——计量计费篇》的了解,大家清楚了MaxCompute可以做什么,计费模式如何,想必大家也开通了MaxCompute想进行一次POC,但是大家遇到第一个问题一定是我的数据如何上云?

MaxCompute(原ODPS)开发入门指南——数据上云篇

写在最前面

>>>进入了解更多>>>阿里云数加·MaxCompute大数据计算服务.

根据《MaxCompute(原ODPS)开发入门指南——计量计费篇》的了解,大家清楚了MaxCompute可以做什么,计费模式如何,想必大家也开通了MaxCompute想进行一次POC,但是大家遇到第一个问题一定是我的数据如何上云?

SQL Cost

可通过多种方式数据流入MaxCompute

MaxCompute(原ODPS)提供了多种通道数据可以流入MaxCompute,包括MaxCompute原生的Tunnel,以及阿里云体系内的Log、DataX和数据集成,以及开源生态中的Flume、Logstash和Fluentd。以下为大家一一道来,大家视各自情况进行选择。

① MaxCompute Tunnel命令

直接在MaxCompute客户端中使用Tunnel命令进行数据上传,数据在传输过程中都是加密传输的,适用于一次性批量数据导入。

注意的是每一次上传只支持数据上传到一个表或表的一个分区,有分区的表一定要指定上传的分区。

数据上传命令如下:

tunnel upload log.txt test_project.test_table/p1="b1",p2="b2";

如何配置客户端和使用命令:

  1. 下载并配置客户端
  2. Tunnel 命令导入数据
  3. 更多关于Tunnel upload命令

SQL Cost

② MaxCompute Tunnel SDK

通过 TUNNEL 提供的 SDK 自行编写 Java 工具。

关于如何利用 tunnel SDK 进行上传数据,下面也将通过场景介绍。场景描述:上传数据到 MaxCompute,其中,项目空间为”odps_public_dev”,表名为”tunnel_sample_test”,分区为”pt=20150801,dt=hangzhou”。

详细的Tunnel SDK案例教学

③ LOG(阿里云日志分析产品)

了解更多关于日志分析产品

日志服务(Log Service,简称 Log)是针对日志类数据的一站式服务,在阿里巴巴集团经历大量大数据场景锤炼而成。您无需开发就能快捷完成日志数据采集(Logtail)、消费、投递(LogShipper)以及查询分析(LogSearch)等功能,提升运维、运营效率,建立 DT 时代海量日志处理能力。

SQL Cost

通常情况下,在使用开源的产品时都需要自己写正则来进行日志采集和结构化,通过Log产品可以进行可视化取词来选择自己需要解析的字段值,同时也提供手工方式输入正则表达式,如下图:

SQL Cost

在大家场景中,尝尝需要将日志进行实时采集,然后归档到MaxCompute进行数据分析与挖掘,Log产品覆盖了: Nginx, Apache, Log4J ,Wordpress , Python, NodeJS, 分隔符 (Delimiter, 如 CSV、TSV 等格式)、logstash , ThinkPHP, IIS(Windows 平台,默认格式)/logstash等。>>>常见日志格式

SQL Cost

大部分情况下日志数据在写入LogStore后的0.5~1个小时导入到MaxCompute,具体归档的帮助文档详见:>>>Log数据归档到MaxCompute

点击进入:更多关于Log产品使用指南

④ DTS-数据传输

数据传输(Data Transmission)服务DTS是阿里云提供的一种支持RDBMS(关系型数据库)、NoSQL、OLAP等多种数据源之间数据交互的数据服务。它提供了数据迁移、实时数据订阅及数据实时同步等多种数据传输能力。

  • 创建RDS for Mysql数据实时同步到MaxCompute,实现原理如下:

SQL Cost

如上图所示,整个同步过程分为两步:

  1. 全量初始化, 这个步骤将RDS MySQL中已经存在的全量数据初始化到MaxCompute中。对于同步的每个表,全量初始化的数据都会独立存储在MaxCompute中的全量基线表中,这个表的默认格式为:源表名_base。例如表 t1,那么全量基线表在MaxCompute中存储的表名为:t1_dts_base。这个存储表名前缀可以根据需要变更,您可以在配置任务时,修改表在MaxCompute存储的名称。
  2. 增量数据同步,这个步骤将RDS MySQL产生的增量数据数据实时同步到MaxCompute中。并存储在增量日志表中,每个同步表对应一个增量日志表。增量日志表在MaxCompute中存储的表名的默认格式为:源表名_log。这个存储表名前缀可以根据需要变更,您可以在配置任务时,修改表在MaxCompute存储的名称。

只支持表的同步,不支持其他非表对象如视图的同步。

建议大家可以尝试下使用DTS来做数据的增量同步。具体详细的操作文档详见:创建RDS到MaxCompute数据实时同步作业

⑤ 开源产品:Flume / Logstash / Fluentd

目前开源产品都是提供output插件将数据写入DataHub(目前免费公测中)再数据归档到MaxCompute上。如下图:

SQL Cost

个人觉得这几款开源产品与阿里云自研的Log日志分析产品在日志采集上类似,但是Flume、Logstash、Fluentd需要一定技术能力的同学方可快速上手,需要手动编写日志格式化的正则表达式,在这一点上,让一些新手趋之若鹜。大家可以考虑下Log直接上手。

  • Apache Flume是一个分布式的、可靠的、可用的系统,可用于从不同的数据源中高效地收集、聚合和移动海量日志数据到集中式数据存储系统,支持多种Source和Sink插件。Apache Flume的Datahub Sink插件将日志数据实时上传到Datahub。具体操作详见:通过Flume采集数据至MaxCompute
  • Logstash是一种分布式日志收集框架,非常简洁强大,经常与ElasticSearch,Kibana配置,组成著名的ELK技术栈,非常适合用来做日志数据的分析。 阿里云流计算为了方便用户将更多数据采集进入DataHub,提供了针对Logstash的DataHub Output/Input插件。具体操作详见:通过Logstash采集数据至MaxCompute
  • Fluentd也是大家经常接触到的分布式日志采集系统,该插件是基于Fluentd开发的输出插件,主要是将采集到的数据写入DataHub。该插件遵守Fluentd输出插件开发规范,安装方便,可以很方便地将采集得到的数据写到DataHub。具体操作详见:通过Fluentd采集数据至MaxCompute

SQL Cost

[总结]三款产品都是不错的选择,需要根据个人使用习惯进行选择,我自己也习惯使用Logstash所以也写过一些真是case的文章《构建网站日志实时运营大屏》,从日志采集-->Logstash采集-->DataHub技术栈。

⑥ DataX、数据集成(Data IDE数据采集)

之所以将DataX和Data IDE数据采集放在一起给大家介绍,是因为两者之间密不可分,但是又有着巨大差别。

  • DataX阿里巴巴集团内被广泛使用的离线数据同步工具/平台,目前已经开源DataX。具体使用可以详见:DataX配置及使用,如下图:

SQL Cost

  • Data IDE是基于MaxCompute之上的大数据开发套件,其中数据采集模块完美的支持了DataX的所有数据通道。可以进入详细了解:数据采集模块

SQL Cost

【相同点】:Data IDE数据采集模块是基于DataX平台之前构建的可视化配置+调度系统,支持的数据通道完全一致。【不同点】:DataX需要自己本机或服务器上配置josn文件和自己编写crontab进行调度运维。

建议:大家直接使用 大数据开发套件-数据采集工具,因为大数据开发套件Data IDE提供了一整套的数据仓库工具解决方案,从数据采集到数据加工以及后续的调度运维等。关键是免费!免费!免费!

* 支持的数据通道:
数据源分类 数据源类型 抽取(Reader) 导入(Writer) 支持方式 支持类型
大数据存储 MaxCompute(对应数据源名称是 ODPS) 支持 支持 向导/脚本 阿里云
大数据存储 AnalyticDB(对应数据源名称ADS) 不支持 支持 向导/脚本 阿里云
关系型数据库 MySQL 支持 支持 向导/脚本 阿里云/自建
关系型数据库 SQL Server 支持 支持 向导/脚本 阿里云/自建
关系型数据库 PostgreSQL 支持 支持 向导/脚本 阿里云/自建
关系型数据库 Oracle 支持 支持 向导/脚本 自建
关系型数据库 DRDS 支持 支持 向导/脚本 阿里云
关系型数据库 DB2 支持 支持 脚本 自建
关系型数据库 达梦(对应数据源名称是 dm) 支持 支持 脚本 自建
关系型数据库 RDS for PPAS 支持 支持 脚本 阿里云
MPP HybridDB for MySQL 支持 支持 向导/脚本 阿里云
MPP HybridDB for PostgreSQL 支持 支持 向导/脚本 阿里云
非结构化存储 OSS 支持 支持 向导/脚本 阿里云
非结构化存储 HDFS 支持 支持 脚本 自建
非结构化存储 FTP 支持 支持 向导/脚本 自建
NoSql HBase 支持 支持 脚本 阿里云/自建
NoSql MongoDB 支持 支持 脚本 阿里云/自建
NoSql Memcache 不支持 支持 脚本 阿里云/自建Memcached
NoSql Table Store(对应数据源名称是OTS) 支持 支持 脚本 阿里云
NoSql LogHub 不支持 支持 脚本 阿里云
NoSql OpenSearch 不支持 支持 脚本 阿里云
NoSql Redis 不支持 支持 脚本 阿里云/自建
性能测试 Stream 支持 支持 脚本

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
23小时前
|
SQL 分布式计算 DataWorks
MaxCompute操作报错合集之表增加字段,提示创建表失败:DDL execute error, OdpsException: ODPS-0130071:[1,60] Semantic analysis exception - column,该怎么办?
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
22小时前
|
分布式计算 大数据 关系型数据库
MaxCompute产品使用问题之如何查看数据离线同步每天从MySQL抽取的数据量
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
21小时前
|
机器学习/深度学习 分布式计算 DataWorks
MaxCompute产品使用问题之如何将DataWorks中的Hologres表数据导入到MaxCompute
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
22小时前
|
机器学习/深度学习 分布式计算 大数据
MaxCompute产品使用问题之当使用Tunnel API进行数据操作时,MaxCompute会根据什么进行相应的处理
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
22小时前
|
分布式计算 大数据 Java
MaxCompute产品使用问题之是否可以恢复最近两天生命周期清理的数据
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
22小时前
|
SQL 分布式计算 大数据
MaxCompute操作报错合集之遇到报错"ODPS-0130071:[1,8] Semantic analysis exception - class Ssf for user defined function ansy_xx cannot be loaded from any resources",该怎么办?
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
22小时前
|
SQL 分布式计算 前端开发
MaxCompute操作报错合集之SQL脚本设置参数set odps.mapred.reduce.tasks=18;没有生效,是为什么?
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
22小时前
|
分布式计算 DataWorks 大数据
MaxCompute操作报错合集之报错ODPS-0010000:System internal error - kWorkerOutOfMemory表明什么意思?
MaxCompute是阿里云提供的大规模离线数据处理服务,用于大数据分析、挖掘和报表生成等场景。在使用MaxCompute进行数据处理时,可能会遇到各种操作报错。以下是一些常见的MaxCompute操作报错及其可能的原因与解决措施的合集。
|
1天前
|
分布式计算 DataWorks 大数据
MaxCompute产品使用问题之DataWorks整库全增量同步任务的源库如果新增了表,如何能将这个表快速同步进maxcompute
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
1天前
|
分布式计算 DataWorks Oracle
MaxCompute产品使用问题之dataworks怎么导出所有maxcompute表的表结构
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。

相关产品

  • 云原生大数据计算服务 MaxCompute