小白用户MaxCompute数据同步初体验

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 作为一个运营人员,工作中经常性地需要对大量业务数据进行分析,使用阿里云的MaxCompute可以非常方便的进行海量数据的处理。基于工作的特殊性,日常处理的都是CSV/TXT等碎片化的文件(比如用OSS存储的生产数据),如何将大文本文件写入到MaxCompute(原ODPS)是一件很头疼的事情。

作为一个运营人员,工作中经常性地需要对大量业务数据进行分析,使用阿里云的MaxCompute可以非常方便的进行海量数据的处理。基于工作的特殊性,日常处理的都是CSV/TXT等碎片化的文件(比如用OSS存储的生产数据),如何将大文本文件写入到MaxCompute(原ODPS)是一件很头疼的事情。好在,阿里云大数据开发套件提供了非常强大的数据同步的工具。

 

近期体验了一下阿里云的数据同步工具,发现非常简单易用,同时又十分强大。作为非技术同学,借助文档,基本实现了从OSSODPS以及从OSS到本地自建FTP的数据同步,期间也碰到了许多问题。本文主要介绍自己作为一个小白用户,在使用过程中遇到的问题以及解决办法。


要解决的问题:OSS对象存储文件定时同步到ODPS

应用到的阿里云产品:OSS 数据同步组件 MaxCompute


1. 阿里云的数据同步为向导模式和脚本模式两种方式。向导模式是可视化操作,非常方便,不过有些类型的数据同步不支持。脚本模式通过Json脚本实现,功能更强大。OSS数据同步到ODPS,两种方式是均支持的。分为数据源读取、数据传输、写入目标数据三部分。具体操作,先添加数据源后,按照向导可一步步操作,不在赘述。

2. 数据同步的调度任务,无法自动识别OSS是否有文件增加,因此,如果OSS中的Object是不断增加的,调度任务需要设定为分钟或者小时级别的周期调度。

3. OSS的读取支持形如example*的通配符匹配:

cbc9e9927d40f9338e19a00080e3eab6115ef868

同时,OSS的文件名可以用日期时间命名,这样调度任务可以通过时间参数来读取最新写入的Object

4. 调度任务执行的时候,数据源Object必须已经存在,可以调整时间参数的先后关系,例如:

d9eda4811fa5edbbe5ae26b9227b2687cd8644ee

该例子是延时一小时的。

    5. 阿里云的文档非常详尽,基本可能遇到的问题通过查找文档都可以解决。数据同步文档

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
6月前
|
SQL 分布式计算 DataWorks
可以使用HiveSyncTask任务将HDFS中的数据同步到MaxCompute中
可以使用HiveSyncTask任务将HDFS中的数据同步到MaxCompute中
52 2
|
5月前
|
分布式计算 DataWorks 关系型数据库
MaxCompute支持通过DataWorks数据集成功能将其他数据源数据同步至MaxCompute
MaxCompute支持通过DataWorks数据集成功能将其他数据源数据同步至MaxCompute
37 1
|
编解码 Oracle 关系型数据库
【大数据实时数据同步】GoldenGate实时同步异常:OGG-03533:character ‘c2 a0‘ at offset 0 that is not available报错解决
博主所在单位目前使用Oracle GoldenGate将各个业务生产库汇聚到一起做数仓实时ODS平台,源端库可能涉及Oracle、Mysql、达梦、Guassdb库。 最近遇到了这个错误:`OGG-03533:character 'c2 a0' at offset 0 that is not available。` 导致报错的原因是源端库有业务人员手动用excel往数据库导入数据,源端库字符集:`AMERICAN_AMERICA.AL32UTF8` ,目标库ODS字符集:`AMERICAN_AMERICA.ZHS16GBK`。
【大数据实时数据同步】GoldenGate实时同步异常:OGG-03533:character ‘c2 a0‘ at offset 0 that is not available报错解决
|
消息中间件 分布式计算 Kafka
《MaxCompute技术公开课第四季 之 如何将Kafka数据同步至MaxCompute》电子版地址
MaxCompute技术公开课第四季 之 如何将Kafka数据同步至MaxCompute
75 0
《MaxCompute技术公开课第四季 之 如何将Kafka数据同步至MaxCompute》电子版地址
|
分布式计算 DataWorks 监控
使用DataWorks将PolarDB-X中的数据同步到MaxCompute
MaxCompute是适用于数据分析场景的云数据仓库,适用于大型互联网企业的数据仓库和BI分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。大数据开发治理平台 DataWorks 基于MaxCompute / EMR / MC-Hologres 等大数据计算引擎,为客户提供专业高效、安全可靠的一站式大数据开发与治理平台。本文介绍 PolarDB-X 与 MaxCompute 系统的快速对接方式,方便您对在线业务数据进行大数据分析。
使用DataWorks将PolarDB-X中的数据同步到MaxCompute
|
消息中间件 SQL JSON
Kafka 数据如何同步到 MaxCompute | 学习笔记(二)
快速学习 Kafka 数据如何同步到 MaxCompute
234 0
|
消息中间件 存储 数据采集
日志服务数据如何同步到 MaxCompute |学习笔记
快速学习 日志服务数据如何同步到 MaxCompute
249 0
|
消息中间件 弹性计算 分布式计算
Kafka 数据如何同步到 MaxCompute|学习笔记
快速学习 Kafka 数据如何同步到 MaxCompute
225 0
|
SQL 分布式计算 DataWorks
Hive 数据如何同步至 MaxCompute|学习笔记
快速学习 Hive 数据如何同步至 MaxCompute
265 0
Hive 数据如何同步至 MaxCompute|学习笔记
|
SQL 数据采集 分布式计算
DTS 数据同步集成 MaxCompute 数仓最佳实践|学习笔记
快速学习 DTS 数据同步集成 MaxCompute 数仓最佳实践
465 0

热门文章

最新文章