MaxCompute产品架构
模块名称 |
功能说明 |
计算模型数据通道 |
MaxCompute 支持多种数据通道满足多场景需求: SQL:MaxCompute 对外提供 SQL 功能。您可以将 MaxCompute 作为传统的数据库软件操作,但其却能处理 EB 级别的海量数据。 说明 MaxCompute SQL 不支持事务、索引。 MaxCompute 的 SQL 语法与 Oracle、MySQL 有一定差别,您无法将其他数据库中的 SQL 语句无缝迁移至 MaxCompute 中。详情请参见与其他SQL语法的差异。 MaxCompute 主要用于 100 GB 以上规模的数据计算,因此 MaxCompute SQL 最快支持在分钟或秒钟级别完成查询返回结果,但无法在毫秒级别返回结果。 MaxCompute SQL 的优点是学习成本低,您不需要了解复杂的分布式计算概念。 如果您具备数据库操作经验,便可快速熟悉 MaxCompute SQL 的使用。 ExternalTable:提供处理除 MaxCompute 内部表以外的其他数据的能力。您可以通过一条简单的 DDL 语句,在 MaxCompute 上创建一张外部表,通过外部表关联外部数据源。 JavaUDF:当 MaxCompute 的内建函数无法满足计算需求时,您可以通过 Java 构建自定义函数。 PythonUDF:当 MaxCompute 的内建函数无法满足计算需求时,您可以通过Python 构建自定义函数。 MapReduce:MapReduce 是 MaxCompute 提供的 Java MapReduce 编程模型,它可以简化开发流程,更为高效。 Hologres:Hologres 与 MaxCompute 在底层无缝连接,您无须移动数据,即可使用标准的 PostgreSQL 语句查询分析 MaxCompute 中的海量数据,快速获取查询结果。 PAI:PAI 是基于 MaxCompute 的一款机器学习算法平台。它实现了数据无需搬迁,便可进行从数据处理、模型训练、服务部署到预测的一站式机器学习。 PyODPS:PyODPS 是 MaxCompute 的 Python 版本的 SDK,提供简单方便的Python 编程接口。 Tunnel:提供高并发的数据上传下载服务。 |
模块名称 |
功能说明 |
计算模型数据通道 |
Mars:Mars 是一个基于张量的统一分布式计算框架。Mars 能利用并行和分布式技术,为 Python 数据科学栈加速。 SQLML:SQLML 功能依赖 MaxCompute 和机器学习 PAI。您可以通过客户端开发MaxCompute SQLML作业,基于机器学习PAI对MaxCompute上的数据进行学习,并利用机器学习模型对数据进行预测,进而为业务规划提供指导。 Flink:Flink 为 MaxCompute 提供实时数据处理能力。 Spark:Spark 是 MaxCompute 提供的兼容开源 Spark 的计算服务。它在统一的计算资源和数据集权限体系之上,提供 Spark 计算框架,支持您以熟悉的开发使用方式提交运行 Spark 作业,满足更丰富的数据处理分析需求。 |
用户接口 |
MaxCompute 提供如下用户接口: Restful API |
统一元数据及安全体系 |
MaxCompute 的 InformationSchema提供项目元数据及使用历史数据等信息,您可以对作业的运行情况,例如资源消耗、运行时长、数据处理量等指标进行分析,用于优化作业或规划资源容量。 MaxCompute 还提供了完善的安全管理体系,例如访问控制、数据加密、动态脱敏等为数据安全性提供保障。更多安全相关信息,请参见安全管理。 |
>>快来点击免费下载《阿里云MaxCompute百问百答》了解更多详情!<<