MaxCompute Tunnel 技术原理及开发实战|学习笔记

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
简介: 快速学习 MaxCompute Tunnel 技术原理及开发实战

开发者学堂课程【SaaS 模式云数据仓库系列课程 —— 2021 数仓必修课:MaxCompute Tunnel 技术原理及开发实战】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/55/detail/1062


MaxCompute Tunnel 技术原理及开发实战

简介:

1、MaxCompute Tunnel- 技术原理

2、MaxCompute Tunnel -丰富的生态

3、MaxCompute Tunnel -功能简介

4、MaxCompute Tunnel - 基础配置

5、MaxCompute Tunnel - 批量上传

6、MaxCompute Tunnel- 流式上传

7、MaxCompute Tunnel - 批量下载

8、MaxCompute Tunnel- 最佳实践

 

1、MaxCompute Tunnel- 技术原理

l 产品定位

MaxCompute API 层组件

数据通道服务

l 基础功能

MC 对外数据读写的唯一接口

完善的权限校验及格式检查

高性能存储层直接读写

图片6.png


2、MaxCompute Tunnel -丰富的生态

l SDK

Java SDK,链接

Python SDK,链接

l 工具

MC客户端,链接

MaxCompute Studio,链接

MMA2.0 迁移工具,链接

图片7.png


3、MaxCompute Tunnel -功能简介

l 批量数据通道,链接

批量上传

批量下载

l 流式数据通道,链接

流式上传

 

4、MaxCompute Tunnel - 基础配置

l Access lD

l Access Key

l Odps Endpoint,链接

l Tunnel Endpoint,链接

可选参数(自动路由)

l Default Project

 

5、MaxCompute Tunnel -批量上传((示例)

l 功能点

有状态并发 (Block ID)

Commit 成功数据可见

支持 InsertInto 语义

支持 InsertOverwrite 语义

l 使用限制

UploadSession 内 20000 Block

Block ID 重复会导致数据覆盖

UploadSession 24小时过期

空闲连接 120 秒超时

 

6、MaxCompute Tunnel-流式上传(示例)

l 功能点

无状态并发

RecordPack Flush 成功数据可见

仅支持 InsertInto 语义

增量数据异步 zorder by 排序

l 使用限制

表/分区加锁(停止写入 15-60 分钟解锁)

DDL(drop/rename) 感知延迟(0~60秒)


7、MaxCompute Tunnel -批量下载(示例)

功能点

有状态并发 (range)

record 粒度切分

支持列裁剪

支持查询结果下载

使用限制

DownloadSession 24 小时过期

空闲连接 120 秒超时

Project 级别并发限流

性能受碎片文件影响

 

8、MaxCompute Tunnel-最佳实践

高并发场景

批量上传有并发限流及 commit 抢锁

批量下载有并发限流

高 QPS 场景-小块写

批量上传会产生大量碎片文件,SQL 性能下降

其它

Transaction 语义–流式上传不支持 lnsert Overwrite 语义–流式上传不支持

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
20天前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何开发ODPS Spark任务
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
9天前
|
数据采集 人工智能 安全
AI大数据处理与分析实战--体育问卷分析
本文是关于使用AI进行大数据处理与分析的实战案例,详细记录了对深圳市义务教育阶段学校“每天一节体育课”网络问卷的分析过程,包括数据概览、交互Prompt、代码处理、年级和学校维度的深入分析,以及通过AI工具辅助得出的分析结果和结论。
|
14天前
|
大数据 API 数据处理
揭秘!Flink如何从默默无闻到大数据界的璀璨明星?起源、设计理念与实战秘籍大公开!
【8月更文挑战第24天】Apache Flink是一款源自Stratosphere项目的开源流处理框架,由柏林理工大学等机构于2010至2014年间开发,并于2014年捐赠给Apache软件基金会。Flink设计之初即聚焦于提供统一的数据处理模型,支持事件时间处理、精确一次状态一致性等特性,实现了流批一体化处理。其核心优势包括高吞吐量、低延迟及强大的容错机制。
28 1
|
16天前
|
SQL 存储 分布式计算
"SQLTask携手Tunnel:打造高效海量数据导出解决方案,轻松应对大数据挑战
【8月更文挑战第22天】SQLTask搭配Tunnel实现高效海量数据导出。SQLTask擅长执行复杂查询,但直接导出受限(约1万条)。Tunnel专注数据传输,无大小限制。二者结合,先用SQLTask获取数据,再通过Tunnel高效导出至目标位置(如CSV、OSS等),适用于大数据场景,需配置节点及连接,示例代码展示全过程,满足企业级数据处理需求。
34 2
|
21天前
|
分布式计算 大数据 分布式数据库
"揭秘HBase MapReduce高效数据处理秘诀:四步实战攻略,让你轻松玩转大数据分析!"
【8月更文挑战第17天】大数据时代,HBase以高性能、可扩展性成为关键的数据存储解决方案。结合MapReduce分布式计算框架,能高效处理HBase中的大规模数据。本文通过实例展示如何配置HBase集群、编写Map和Reduce函数,以及运行MapReduce作业来计算HBase某列的平均值。此过程不仅限于简单的统计分析,还可扩展至更复杂的数据处理任务,为企业提供强有力的大数据技术支持。
29 1
|
2月前
|
SQL 分布式计算 MaxCompute
SQL开发问题之对于ODPS中的UNION操作,执行计划的问题如何解决
SQL开发问题之对于ODPS中的UNION操作,执行计划的问题如何解决
|
19天前
|
数据可视化
Echarts数据可视化开发| 智慧数据平台
Echarts数据可视化开发| 智慧数据平台
|
19天前
|
数据可视化
Echarts数据可视化大屏开发| 大数据分析平台
Echarts数据可视化大屏开发| 大数据分析平台
|
2月前
|
存储 分布式计算 MaxCompute
构建NLP 开发问题之如何支持其他存储介质(如 HDFS、ODPS Volumn)在 transformers 框架中
构建NLP 开发问题之如何支持其他存储介质(如 HDFS、ODPS Volumn)在 transformers 框架中
|
22天前
|
分布式计算 大数据 Java
Scala 入门指南:从零开始的大数据开发
Scala 入门指南:从零开始的大数据开发

热门文章

最新文章

下一篇
DDNS