【MaxCompute】 产品架构

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,5000CU*H 3个月
简介: MaxCompute 本身具备计算引擎能力。在处理 Spark 作业时,MaxCompute 运行在阿里云自研的 CUPID 平台之上,可以原生支持开源社区 Yarn 所支持的计算框架。

MaxCompute产品架构


image.png


模块名称

功能说明




  存储

MaxCompute Tables MaxCompute 的数据存储单元。MaxCompute 中不同

类型作业的操作对象(输入、输出)都是表。

Compression StrategyMaxCompute 采用列压缩存储格式,通常情况下具备 5

倍压缩能力。

AliORCMaxCompute 数据存储格式全面升级为 AliORC,具备更高存储性能。


计算引擎

MaxCompute 本身具备计算引擎能力。在处理 Spark 作业时,MaxCompute 运行在阿里云自研的 CUPID 平台之上,可以原生支持开源社区 Yarn 所支持的计算框架。


模块名称

功能说明

















计算模型数据通道

MaxCompute 支持多种数据通道满足多场景需求:

SQLMaxCompute 对外提供 SQL 功能。您可以将 MaxCompute 作为传统的数据库软件操作,但其却能处理 EB 级别的海量数据。

说明 MaxCompute SQL 不支持事务、索引。

MaxCompute SQL 语法与 OracleMySQL 有一定差别,您无法将其他数据库中的 SQL 语句无缝迁移至 MaxCompute 中。详情请参见与其他SQL语法的差异

MaxCompute 主要用于 100 GB 以上规模的数据计算,因此 MaxCompute SQL 最快支持在分钟或秒钟级别完成查询返回结果,但无法在毫秒级别返回结果。

MaxCompute SQL 的优点是学习成本低,您不需要了解复杂的分布式计算概念。

如果您具备数据库操作经验,便可快速熟悉 MaxCompute SQL 的使用。

ExternalTable提供处理除 MaxCompute 内部表以外的其他数据的能力。您可以通过一条简单的 DDL 语句,在 MaxCompute 上创建一张外部表,通过外部表关联外部数据源。

JavaUDF:当 MaxCompute 的内建函数无法满足计算需求时,您可以通过 Java 构建自定义函数。

PythonUDF:当 MaxCompute 的内建函数无法满足计算需求时,您可以通过Python 构建自定义函数。

MapReduceMapReduce MaxCompute 提供的 Java MapReduce 编程模型,它可以简化开发流程,更为高效。

HologresHologres MaxCompute 在底层无缝连接,您无须移动数据,即可使用标准的 PostgreSQL 语句查询分析 MaxCompute 中的海量数据,快速获取查询结果。

PAIPAI 是基于 MaxCompute 的一款机器学习算法平台。它实现了数据无需搬迁,便可进行从数据处理、模型训练、服务部署到预测的一站式机器学习。

PyODPSPyODPS MaxCompute Python 版本的 SDK,提供简单方便的Python 编程接口。

GraphGraph 是一套面向迭代的图计算处理框架。

Tunnel:提供高并发的数据上传下载服务。


模块名称

功能说明






计算模型数据通道

MarsMars 是一个基于张量的统一分布式计算框架。Mars 能利用并行和分布式技术,为 Python 数据科学栈加速。

SQLMLSQLML 功能依赖 MaxCompute 和机器学习 PAI。您可以通过客户端开发MaxCompute SQLML作业,基于机器学习PAIMaxCompute上的数据进行学习,并利用机器学习模型对数据进行预测,进而为业务规划提供指导。

FlinkFlink MaxCompute 提供实时数据处理能力。

SparkSpark MaxCompute 提供的兼容开源 Spark 的计算服务。它在统一的计算资源和数据集权限体系之上,提供 Spark 计算框架,支持您以熟悉的开发使用方式提交运行 Spark 作业,满足更丰富的数据处理分析需求。

用户接口

MaxCompute 提供如下用户接口:

JavaSDK

PythonSDK

JDBC

Restful API

统一元数据及安全体系

MaxCompute InformationSchema供项目元数据及使用历史数据等信息,您可以对作业的运行情况,例如资源消耗、运行时长、数据处理量等指标进行分析,用于优化作业或规划资源容量。

MaxCompute 还提供了完善的安全管理体系,例如访问控制、数据加密、动态脱敏等为数据安全性提供保障。更多安全相关信息,请参见安全管理


>>快来点击免费下载《阿里云MaxCompute百问百答》了解更多详情!<<


相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
2天前
|
分布式计算 DataWorks 调度
DataWorks产品使用合集之ODPS Spark找不到自己的stdout,该如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
12 2
|
4天前
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之将多业务分表同步到odps的一个三级分区表中,每级分区怎么赋值
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
15 4
|
3天前
|
分布式计算 Cloud Native 大数据
《阿里云产品四月刊》—云原生大数据计算服务 MaxCompute 新功能
阿里云瑶池数据库云原生化和一体化产品能力升级,多款产品更新迭代
|
4天前
|
SQL 存储 运维
网易游戏如何基于阿里云瑶池数据库 SelectDB 内核 Apache Doris 构建全新湖仓一体架构
随着网易游戏品类及产品的快速发展,游戏数据分析场景面临着越来越多的挑战,为了保证系统性能和 SLA,要求引入新的组件来解决特定业务场景问题。为此,网易游戏引入 Apache Doris 构建了全新的湖仓一体架构。经过不断地扩张,目前已发展至十余集群、为内部上百个项目提供了稳定可靠的数据服务、日均查询量数百万次,整体查询性能得到 10-20 倍提升。
网易游戏如何基于阿里云瑶池数据库 SelectDB 内核 Apache Doris 构建全新湖仓一体架构
|
6天前
|
存储 数据采集 分布式计算
Java中的大数据处理与分析架构
Java中的大数据处理与分析架构
|
8天前
|
SQL 分布式计算 DataWorks
MaxCompute产品使用问题之在同步表时,分区通常使用的是什么字段
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
2天前
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之两个odps数据源绑定了同一个项目, 如何看另外一个数据源的同步数据
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
5 0
|
2天前
|
分布式计算 DataWorks 安全
DataWorks产品使用合集之ODPS离线同步如何添加过滤条件
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
5 0
|
2天前
|
数据采集 DataWorks 监控
DataWorks产品使用合集之同是上海区域,poldb-odps的同步为什么打开不一样
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
8 0
|
3天前
|
数据采集 分布式计算 DataWorks
DataWorks产品使用合集之odps如何使用正则表达式匹配字段的内容
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
19 0