MaxCompute 异构数据源与非结构化数据处理 | 学习笔记

本文涉及的产品
对象存储 OSS,20GB 3个月
对象存储 OSS,恶意文件检测 1000次 1年
对象存储 OSS,内容安全 1000次 1年
简介: 快速学习 MaxCompute 异构数据源与非结构化数据处理

开发者学堂课程【SaaS  模式云数据仓库系列课程 —— 2021数仓必修课 MaxCompute  异构数据源与非结构化数据处理】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/55/detail/1048


MaxCompute  异构数据源与非结构化数据处理

 

主要内容:

一、MaxCompute  外部表概述

二、功能和特点介绍

三、常见使用场景

四、代码示例

 


一、MaxCompute  外部表概述

MaxCompute  外部表解决什么问题?

通过建立外部表,可以在  MaxCompute  中关联异构数据(oss  等云存储)中的数据,从而轻松的使用  sSQL  对这些数据进行分析和处理。

 


二、功能和特点介绍

云存储与  MaxCompute SQL  无缝对接

●使用  Hive  兼容的  DDL  语句建立外表

●支持  OSS  和  TableStore

●复用持续优化的高性能  MaxCompute SQL  引擎进行计算

●除数据存储在异构数据源以外,其他操作与内部表无异

●外表  JOIN 外表、外表   JOIN  内部表一实现异构数据关联

支持多种数据格式

● CSV、TSV  等文本格式

● JSON

●压缩文本

●广泛使用的开源格式

●ORC

●Parquet

 

直接访问云存储数据

●不加载数据,没有 ETL  过程

●按数据的原始格式查询数据

●自动并行处理,无需关心分布式处理细节

●计算节点直接访问,避免数据进行额外传输的性能损耗

 

三、常见使用场景

使用场景样例

●高性能的数据导入导出

●追求更高性能计算∶一条简单的  CREATE TABLE AS  语句将外表数据导入到MaxCompute

●TableStore  数据全量备份到  MaxCompute  或者  OSS

●MaxCompute  冷数据备份到  OSS

●数据分析∶ 即席查询  OSS/TableStore  中的数据

●将OSS  文本数据转为   ORC、Parquet  列存储格式提高查询性能和节省存储成本

 


四、代码示例

●非结构化数据处理

代码示例∶存储在  OSS  上的  CSV  数据即席查询

通过外部表  (EXTERNAL TABLE),描述数据的存储位置(OSS)和处理方(CSV)

直接对数据进行读取,抽取出的数据可直接参数与SQL运算,无缝连接

 image.png

即席查询  TableStore  中的数据

image.png 

高级特性∶

使用  Java  扩展支持任意非结构化数据。

 image.png

 

Java SDK  接口∶

以Extractor  为例

image.png 

 

 

非结构化数据处理示例1∶

处理存储在  OSS  上的语音数据

image.png

 

非结构化示例2:图像处理

image.jpeg

 

MaxCompute  外表总结

支持多种异构数据源

●Oss

●TableStore

支持多种数据格式

●CSV、TSV  等文本数据

●ORC、Parquet  等开源格式数据

高自由度的扩展特性

●使用  Java  扩展自定义格式处理任意非结构化数据 

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
26天前
|
存储 大数据 数据处理
PHP 与大数据:构建高效数据处理系统
传统的数据处理系统往往难以应对大规模数据的处理需求,而PHP作为一种常用的服务器端脚本语言,在数据处理方面也有其独特的优势。本文将探讨如何利用PHP构建高效的大数据处理系统,结合实际案例分析其应用场景及优势所在。
15 2
|
4月前
|
SQL 分布式计算 大数据
Python+大数据学习笔记(一)
Python+大数据学习笔记(一)
44 0
|
7月前
|
分布式计算 关系型数据库 分布式数据库
大数据Spark外部数据源
大数据Spark外部数据源
51 0
|
9月前
|
数据采集 SQL 分布式计算
数据处理 、大数据、数据抽取 ETL 工具 DataX 、Kettle、Sqoop
数据处理 、大数据、数据抽取 ETL 工具 DataX 、Kettle、Sqoop
992 0
|
2月前
|
DataWorks 关系型数据库 MySQL
dataworks问题之数据源一直失败如何解决
DataWorks数据集是指在阿里云DataWorks平台内创建、管理的数据集合;本合集将介绍DataWorks数据集的创建和使用方法,以及常见的配置问题和解决方法。
33 2
|
2月前
|
DataWorks 关系型数据库 MySQL
dataworks问题之数据源创建如何解决
DataWorks数据集是指在阿里云DataWorks平台内创建、管理的数据集合;本合集将介绍DataWorks数据集的创建和使用方法,以及常见的配置问题和解决方法。
33 3
|
2月前
|
DataWorks 关系型数据库 大数据
dataworks问题之执行TELNET命令失败如何解决
DataWorks数据集是指在阿里云DataWorks平台内创建、管理的数据集合;本合集将介绍DataWorks数据集的创建和使用方法,以及常见的配置问题和解决方法。
23 2
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute数据问题之创建数据集失败如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
28 2
|
2月前
|
分布式计算 并行计算 大数据
Python多进程在数据处理和大数据分析中的应用
Python多进程在数据处理和大数据分析中的应用
|
7月前
|
SQL JSON 数据处理
大数据Hive JSON数据处理
大数据Hive JSON数据处理
82 0

热门文章

最新文章