MaxCompute 异构数据源与非结构化数据处理 | 学习笔记

本文涉及的产品
对象存储 OSS,标准 - 本地冗余存储 20GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
对象存储 OSS,内容安全 1000 次 1年
简介: 快速学习 MaxCompute 异构数据源与非结构化数据处理

开发者学堂课程【SaaS  模式云数据仓库系列课程 —— 2021数仓必修课 MaxCompute  异构数据源与非结构化数据处理】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/55/detail/1048


MaxCompute  异构数据源与非结构化数据处理

 

主要内容:

一、MaxCompute  外部表概述

二、功能和特点介绍

三、常见使用场景

四、代码示例

 


一、MaxCompute  外部表概述

MaxCompute  外部表解决什么问题?

通过建立外部表,可以在  MaxCompute  中关联异构数据(oss  等云存储)中的数据,从而轻松的使用  sSQL  对这些数据进行分析和处理。

 


二、功能和特点介绍

云存储与  MaxCompute SQL  无缝对接

●使用  Hive  兼容的  DDL  语句建立外表

●支持  OSS  和  TableStore

●复用持续优化的高性能  MaxCompute SQL  引擎进行计算

●除数据存储在异构数据源以外,其他操作与内部表无异

●外表  JOIN 外表、外表   JOIN  内部表一实现异构数据关联

支持多种数据格式

● CSV、TSV  等文本格式

● JSON

●压缩文本

●广泛使用的开源格式

●ORC

●Parquet

 

直接访问云存储数据

●不加载数据,没有 ETL  过程

●按数据的原始格式查询数据

●自动并行处理,无需关心分布式处理细节

●计算节点直接访问,避免数据进行额外传输的性能损耗

 

三、常见使用场景

使用场景样例

●高性能的数据导入导出

●追求更高性能计算∶一条简单的  CREATE TABLE AS  语句将外表数据导入到MaxCompute

●TableStore  数据全量备份到  MaxCompute  或者  OSS

●MaxCompute  冷数据备份到  OSS

●数据分析∶ 即席查询  OSS/TableStore  中的数据

●将OSS  文本数据转为   ORC、Parquet  列存储格式提高查询性能和节省存储成本

 


四、代码示例

●非结构化数据处理

代码示例∶存储在  OSS  上的  CSV  数据即席查询

通过外部表  (EXTERNAL TABLE),描述数据的存储位置(OSS)和处理方(CSV)

直接对数据进行读取,抽取出的数据可直接参数与SQL运算,无缝连接

 image.png

即席查询  TableStore  中的数据

image.png 

高级特性∶

使用  Java  扩展支持任意非结构化数据。

 image.png

 

Java SDK  接口∶

以Extractor  为例

image.png 

 

 

非结构化数据处理示例1∶

处理存储在  OSS  上的语音数据

image.png

 

非结构化示例2:图像处理

image.jpeg

 

MaxCompute  外表总结

支持多种异构数据源

●Oss

●TableStore

支持多种数据格式

●CSV、TSV  等文本数据

●ORC、Parquet  等开源格式数据

高自由度的扩展特性

●使用  Java  扩展自定义格式处理任意非结构化数据 

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
4月前
|
Java 大数据 数据处理
Java 大视界 -- 基于 Java 的大数据实时数据处理在工业互联网设备协同制造中的应用与挑战(222)
本文探讨了基于 Java 的大数据实时数据处理在工业互联网设备协同制造中的应用与挑战。文章分析了传统制造模式的局限性,介绍了工业互联网带来的机遇,并结合实际案例展示了 Java 在多源数据采集、实时处理及设备协同优化中的关键技术应用。同时,也深入讨论了数据安全、技术架构等挑战及应对策略。
|
5月前
|
传感器 Java 大数据
Java 大视界 -- 基于 Java 的大数据实时数据处理在车联网车辆协同控制中的应用与挑战(197)
本文深入探讨了基于 Java 的大数据实时数据处理在车联网车辆协同控制中的关键应用与技术挑战。内容涵盖数据采集、传输与实时处理框架,并结合实际案例分析了其在车辆状态监测、交通优化与协同驾驶中的应用效果,展示了 Java 大数据技术在提升交通安全性与效率方面的巨大潜力。
|
6月前
|
人工智能 分布式计算 大数据
构建AI时代的大数据基础设施-MaxCompute多模态数据处理最佳实践
本文介绍了大数据与AI一体化架构的演进及其实现方法,重点探讨了Data+AI开发全生命周期的关键步骤。文章分析了大模型开发中的典型挑战,如数据管理混乱、开发效率低下和运维管理困难,并提出了解决方案。同时,详细描述了MaxCompute在构建AI时代数据基础设施中的作用,包括其强大的计算能力、调度能力和易用性特点。此外,还展示了MaxCompute在多模态数据处理中的应用实践以及具体客户案例,最后提供了体验MaxFrame解决方案的方式。
696 2
|
6月前
|
分布式计算 Java 大数据
Java 大视界 —— 基于 Java 的大数据分布式计算在气象数据处理与天气预报中的应用进展(176)
本文围绕基于 Java 的大数据分布式计算在气象数据处理与天气预报中的应用展开,剖析行业现状与挑战,阐释技术原理,介绍其在数据处理及天气预报中的具体应用,并结合实际案例展示实施效果。
|
消息中间件 分布式计算 关系型数据库
大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL
大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL
258 0
|
9月前
|
消息中间件 大数据 Kafka
掌握大数据时代的心跳:实时数据处理的崛起
掌握大数据时代的心跳:实时数据处理的崛起
320 4
|
11月前
|
存储 大数据 数据挖掘
Pandas高级数据处理:大数据集处理
Pandas 是强大的 Python 数据分析库,但在处理大规模数据集时可能遇到性能瓶颈和内存不足问题。本文介绍常见问题及解决方案,如分块读取、选择性读取列、数据类型优化、避免不必要的副本创建等技巧,并通过代码示例详细解释。同时,针对 `MemoryError`、`SettingWithCopyWarning` 和 `DtypeWarning` 等常见报错提供解决方法,帮助读者更高效地处理大数据集。
484 16
|
机器学习/深度学习 存储 大数据
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系
在大数据时代,高维数据处理成为难题,主成分分析(PCA)作为一种有效的数据降维技术,通过线性变换将数据投影到新的坐标系,保留最大方差信息,实现数据压缩、去噪及可视化。本文详解PCA原理、步骤及其Python实现,探讨其在图像压缩、特征提取等领域的应用,并指出使用时的注意事项,旨在帮助读者掌握这一强大工具。
752 4
|
数据采集 算法 大数据
大数据中噪声数据处理
【10月更文挑战第20天】
2022 2

热门文章

最新文章