【MaxCompute】 产品架构

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: MaxCompute 本身具备计算引擎能力。在处理 Spark 作业时,MaxCompute 运行在阿里云自研的 CUPID 平台之上,可以原生支持开源社区 Yarn 所支持的计算框架。

MaxCompute产品架构


image.png


模块名称

功能说明




  存储

MaxCompute Tables MaxCompute 的数据存储单元。MaxCompute 中不同

类型作业的操作对象(输入、输出)都是表。

Compression StrategyMaxCompute 采用列压缩存储格式,通常情况下具备 5

倍压缩能力。

AliORCMaxCompute 数据存储格式全面升级为 AliORC,具备更高存储性能。


计算引擎

MaxCompute 本身具备计算引擎能力。在处理 Spark 作业时,MaxCompute 运行在阿里云自研的 CUPID 平台之上,可以原生支持开源社区 Yarn 所支持的计算框架。


模块名称

功能说明

















计算模型数据通道

MaxCompute 支持多种数据通道满足多场景需求:

SQLMaxCompute 对外提供 SQL 功能。您可以将 MaxCompute 作为传统的数据库软件操作,但其却能处理 EB 级别的海量数据。

说明 MaxCompute SQL 不支持事务、索引。

MaxCompute SQL 语法与 OracleMySQL 有一定差别,您无法将其他数据库中的 SQL 语句无缝迁移至 MaxCompute 中。详情请参见与其他SQL语法的差异

MaxCompute 主要用于 100 GB 以上规模的数据计算,因此 MaxCompute SQL 最快支持在分钟或秒钟级别完成查询返回结果,但无法在毫秒级别返回结果。

MaxCompute SQL 的优点是学习成本低,您不需要了解复杂的分布式计算概念。

如果您具备数据库操作经验,便可快速熟悉 MaxCompute SQL 的使用。

ExternalTable提供处理除 MaxCompute 内部表以外的其他数据的能力。您可以通过一条简单的 DDL 语句,在 MaxCompute 上创建一张外部表,通过外部表关联外部数据源。

JavaUDF:当 MaxCompute 的内建函数无法满足计算需求时,您可以通过 Java 构建自定义函数。

PythonUDF:当 MaxCompute 的内建函数无法满足计算需求时,您可以通过Python 构建自定义函数。

MapReduceMapReduce MaxCompute 提供的 Java MapReduce 编程模型,它可以简化开发流程,更为高效。

HologresHologres MaxCompute 在底层无缝连接,您无须移动数据,即可使用标准的 PostgreSQL 语句查询分析 MaxCompute 中的海量数据,快速获取查询结果。

PAIPAI 是基于 MaxCompute 的一款机器学习算法平台。它实现了数据无需搬迁,便可进行从数据处理、模型训练、服务部署到预测的一站式机器学习。

PyODPSPyODPS MaxCompute Python 版本的 SDK,提供简单方便的Python 编程接口。

GraphGraph 是一套面向迭代的图计算处理框架。

Tunnel:提供高并发的数据上传下载服务。


模块名称

功能说明






计算模型数据通道

MarsMars 是一个基于张量的统一分布式计算框架。Mars 能利用并行和分布式技术,为 Python 数据科学栈加速。

SQLMLSQLML 功能依赖 MaxCompute 和机器学习 PAI。您可以通过客户端开发MaxCompute SQLML作业,基于机器学习PAIMaxCompute上的数据进行学习,并利用机器学习模型对数据进行预测,进而为业务规划提供指导。

FlinkFlink MaxCompute 提供实时数据处理能力。

SparkSpark MaxCompute 提供的兼容开源 Spark 的计算服务。它在统一的计算资源和数据集权限体系之上,提供 Spark 计算框架,支持您以熟悉的开发使用方式提交运行 Spark 作业,满足更丰富的数据处理分析需求。

用户接口

MaxCompute 提供如下用户接口:

JavaSDK

PythonSDK

JDBC

Restful API

统一元数据及安全体系

MaxCompute InformationSchema供项目元数据及使用历史数据等信息,您可以对作业的运行情况,例如资源消耗、运行时长、数据处理量等指标进行分析,用于优化作业或规划资源容量。

MaxCompute 还提供了完善的安全管理体系,例如访问控制、数据加密、动态脱敏等为数据安全性提供保障。更多安全相关信息,请参见安全管理


>>快来点击免费下载《阿里云MaxCompute百问百答》了解更多详情!<<


相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
3月前
|
人工智能 分布式计算 DataWorks
大数据AI产品月刊-2025年7月
大数据& AI 产品技术月刊【2025年7月】,涵盖7月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
4月前
|
存储 SQL 监控
数据中台架构解析:湖仓一体的实战设计
在数据量激增的数字化时代,企业面临数据分散、使用效率低等问题。数据中台作为统一管理与应用数据的核心平台,结合湖仓一体架构,打通数据壁垒,实现高效流转与分析。本文详解湖仓一体的设计与落地实践,助力企业构建统一、灵活的数据底座,驱动业务决策与创新。
|
4月前
|
前端开发 JavaScript 关系型数据库
如何开发生产小工单中的产品管理板块(附架构图+流程图+代码参考)
生产小工单中的产品管理板块是制造业数字化管理的关键环节,涵盖产品信息、生产工序、产品列表和基础设置四大功能模块。通过系统化管理,企业可实现对产品属性、工艺流程及资源配置的精准控制,提升生产效率并减少误差与浪费。本文详解了各功能模块的设计逻辑、业务流程及开发实现方案,并提供示例代码,助力企业构建高效、灵活的产品管理系统。
|
2月前
|
Java API 开发工具
灵码产品演示:软件工程架构分析
本演示展示灵码对复杂软件项目的架构分析与文档生成能力。通过Qwen3模型,结合PlantUML,自动生成系统架构图、微服务时序图,并提取API接口文档,实现高效、智能的代码理解与文档输出。
207 5
|
2月前
|
人工智能 分布式计算 DataWorks
阿里云大数据AI产品月刊-2025年8月
阿里云大数据& AI 产品技术月刊【2025年 8 月】,涵盖 8 月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
289 1
|
2月前
|
存储 分布式计算 资源调度
【赵渝强老师】阿里云大数据MaxCompute的体系架构
阿里云MaxCompute是快速、全托管的EB级数据仓库解决方案,适用于离线计算场景。它由计算与存储层、逻辑层、接入层和客户端四部分组成,支持多种计算任务的统一调度与管理。
274 1
|
4月前
|
存储 搜索推荐 算法
Java 大视界 -- Java 大数据在智能金融理财产品风险评估与个性化配置中的应用(195)
本文深入探讨了Java大数据技术在智能金融理财产品风险评估与个性化配置中的关键应用。通过高效的数据采集、存储与分析,Java大数据技术助力金融机构实现精准风险评估与个性化推荐,提升投资收益并降低风险。
Java 大视界 -- Java 大数据在智能金融理财产品风险评估与个性化配置中的应用(195)
|
3月前
|
SQL 存储 监控
流处理 or 批处理?大数据架构还需要流批一体吗?
简介:流处理与批处理曾是实时监控与深度分析的两大支柱,但二者在数据、代码与资源上的割裂,导致维护成本高、效率低。随着业务对数据实时性与深度分析的双重需求提升,传统架构难以为继,流批一体应运而生。它旨在通过逻辑、存储与资源的统一,实现一套系统、一套代码同时支持实时与离线处理,提升效率与一致性,成为未来大数据架构的发展方向。
|
4月前
|
消息中间件 分布式计算 大数据
“一上来就搞大数据架构?等等,你真想清楚了吗?”
“一上来就搞大数据架构?等等,你真想清楚了吗?”
97 1

热门文章

最新文章