【MaxCompute 常见问题】 产品简介

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: MaxCompute相关术语有哪些?在开始使用 MaxCompute 产品前,您可以提前查阅 MaxCompute 所涉及的术语及其含义,为了解产品及快速上手提供帮助。您可以看下官方文档,将为您介绍 MaxCompute 涉及的术语及其概念。

产品简介


MaxCompute 相关术语、数据类型、项目空间等相关问题


1.  什么是 MaxCompute 呢?

MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库,以 Serverless 架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效的分析处理海量数据。数以万计的企业正基于 MaxCompute 进行数据计算与分析,将数据高效转换为业务洞察。


2.  使用 Maxcompute 需要什么专业技能?

MaxCompute 支持多种计算模型数据通道,满足多场景需求。

所以您只需要会使用 SQLPythonJava 等开发语言就可以使用 MaxCompute 进行数据分析。


3.  如何理解开源与云原生的大数据技术与产品?

2020 大数据技术公开课第一季《从开源到云原生,你不得不知的大数据实战》,通过实践,帮助开发者们更好的理解和掌握大数据技术。大家可以通过文字和视频观看学习。


4.  MaxCompute作为大数据平台,接入整个业务体系数据有没有好的监控手段?

当前 MaxCompute 仅支持在 DataWorks 数据质量中配置数据监控规则。外部数据源的字段变化,当前是没有办法监控到。


5.  MaxCompute相关术语有哪些?

在开始使用 MaxCompute 产品前,您可以提前查阅 MaxCompute 所涉及的术语及其含义,为了解产品及快速上手提供帮助。您可以看下官方文档,将为您介绍 MaxCompute 涉及的术语及其概念。


6.  MaxCompute有什么功能?

全托管的 Serverless

在线服务

对外以 API 方式访问的在线服务,开箱即用。

预铺设大规模集群资源,近乎无限资源,您可以按需使用、按量计费。

无需平台运维,最小化运维投入。

弹性能力与扩展性

存储和计算独立扩展,支持企业将全部数据资产在一个平台上进行联动分析,消除数据孤岛。

支持实时根据业务峰谷变化分配资源。

统一丰富的计算和存储能力

MaxCompute 支持多种计算模型和丰富的 UDF

采用列压缩存储格式,通常情况下具备 5 倍压缩能力,可以大幅节省存储成本。

DataWorks 深度

集成

一站式数据开发与治理平台 DataWorks,可实现全域数据汇聚、融合加工和治理。DataWorks 支持对 MaxCompute 项目进行管理以及 Web 端查询编辑。

集成 AI 能力

与机器学习平台 PAI 无缝集成,提供强大的机器学习处理能力。

您可以使用熟悉的 Spark-ML 开展智能分析。

使用 Python 机器学习三方库。

深度集成 Spark 引擎

内建 Apache Spark 引擎,提供完整的 Spark 功能。

MaxCompute 计算资源、数据和权限体系深度集成。

湖仓一体

集成对数据湖(OSS Hadoop HDFS)的访问分析,支持通过外部表映射、Spark 直接访问方式开展数据湖分析。

在一套数据仓库服务和用户接口下,实现数据湖与数据仓库的关联分析。

详细信息,请参见 MaxCompute湖仓一体

支持流式采集和近实时分析

支持流式数据实时写入并在数据仓库中开展分析。

与云上主要流式服务深度集成,轻松接入各种来源的流式数据。

支持高性能秒级弹性并发查询,满足近实时分析场景需求。

提供持续的 SaaS 化云上数据保护

为云上企业提供基础设施、数据中心、网络、供电、平台安全能力、用户权限管理、隐私保护等三级超 20 项安全功能,兼具开源大数据与托管数据库的安全能力。详情请参见安全指南


7.  MaxCompute有什么优势?

MaxCompute 的主要优势如下:

  • 简单易用
  • 面向数据仓库实现高性能存储、计算。
  • 预集成多种服务,标准 SQL 开发简单。
  • 内建完善的管理和安全能力。
  • 免运维,按量付费,不使用不产生费用。
  • 匹配业务发展的弹性扩展能力存储和计算独立扩展,动态扩缩容,按需弹性扩展,无需提前规划容量,满足突发业务增长。
  • 支持多种分析场景支持开放数据生态,以统一平台满足数据仓库、BI、近实时分析、数据湖分析、机器学习等多种场景。
  • 开放的平台
  • 支持开放接口和生态,为数据、应用迁移、二次开发提供灵活性。
  • 支持与 AirflowTableau 等开源和商业产品灵活组合,构建丰富的数据应用。


8. MaxCompute 数据类型版本如何理解?

目前 Maxompute 一共支持 3 个数据类型版本:

1、MaxCompute 2.0 数据类型

2、MaxCompute 1.0 数据类型

3、MaxCompute Hive 兼容模式(即部分数据类型和 SQL 行为兼容 Hive

MaxCompute 2.0推出了兼容开源主流产品的2.0数据类型和Hive兼容数据类型两个数据类型版本。

加上原有的 1.0 数据类型版本,目前 Maxompute 一共支持 3 个数据类型版本。

MaxCompute 数据类型版本 - MaxCompute 设置数据类型版本属性的参数共有 3 个:

odps.sql.type.system.odps2MaxCompute 2.0 数据类型版本的开关,属性值为 True Falseodps.sql.decimal.odps2MaxCompute 2.0 Decimal 数据类型的开关,属性值为 True Falseodps.sql.hive.compatibleMaxCompute Hive 兼容模式(即部分数据类型和 SQL 行为兼容 Hive)数据类型版本的开关,属性值为 True False


9. MaxCompute有数据库一致性和锁的处理机制吗?

MaxCompute 支持 ACID 语义原子性(Atomicity):

一个操作或是全部完成,或是全部不完成,不会结束在中间某个环节。

一致性(Consistency):从操作开始至结束的期间,数据对象的完整性没有被破坏。

隔离性(Isolation):操作独立于其它并发操作完成。

持久性(Durability):操作处理结束后,对数据的修改将永久有效,即使出现系统故障,该修改也不会丢失。


10. 什么是 MaxCompute 表的生命周期(Lifecycle?

MaxCompute表的生命周期(Lifecycle),指表(分区)数据从最后一次更新的时间算起,在经过指定的时间后没有变动,则此表(分区)将被 MaxCompute 自动回收。这个指定的时间就是生命周期。

生命周期单位:Days(天),只接受正整数。 对于非分区表,如果表数据在生命周期 Days 天内没有被修改,经过 Days 天后此表将会被 MaxCompute 自动回收(类似 DROP TABLE 操作)。

生命周期从最后一次表数据被修改的时间(LastDataModifiedTime)起开始计算。 对于分区表,每个分区可以分别被回收。在生命周期 Days 天内数据未被修改的分区,经过指定的天数后此分区将会被回收,否则会被保留。每个分区的生命周期是从最后一次分区数据被修改的时间 LastDataModifiedTime 起开始计算。不同于非分区表,分区表的最后一个分区被回收后,该表不会被删除。 生命周期只能设定到表级别,不能在分区级设置生命周期。创建表时即可指定生命周期。 如果您没有为表指定生命周期,则表(分区)不会根据生命周期规则被 MaxCompute 自动回收。


11.   MaxCompute的项目空间发挥什么作用?

项目空间(Project)是 MaxCompute 的基本组织单元,它类似于传统数据库的 Database Schema 的概念,是进行多用户隔离和访问控制的主要边界。项目空间中包含多个对象,

例如表

Table)、资源(Resource)、函数(Function)和实例(Instance)等。

一个用户可以同时拥有多个项目空间的权限。通过安全授权,可以在一个项目空间中访问另一个项目空间中的对象,例如表(Table)、资源(Resource)、函数(Function)和实例(Instance)。


12. 怎获取MaxCompute AccesskeyID Access key Secret

使用 MaxCompute 服务前,我们需要准备一个阿里云账号。 查看文档解决大家如何获取 AK 密钥。


13. DataWorks简单模式和标准模式的区别?

数据上云后,在使用 MaxCompute 计算引擎时,需要一个稳定、可靠的调度系统,将自身数据生产任务(代码)按照所需依赖关系、运行时间来调度运行,那么 DataWorks 就派上了用场。DataWor ks 提供简单模式和标准模式两种工作空间模式。

简单模式指一个 DataWorks 工作空间对应一个MaxCompute项目(project),无法设置开发环境和生产环境,只能进行简单的数据开发。标准模式指一个 DataWorks 工作空间对应两个 MaxCompute 项目(project),可以设置开发和生产环境,提升代码开发规范。两个模式还存在项目、用户和权限的不同。大家可以通过学习官方文档或者是实操来加强认知。


14. 创建 MaxCompute 项目空间,是只能在 DataWorks 控制台中创建吗?

是的。请在 DataWorks 控制台上进行操作。创建项目空间前,您需要先服务,并确保开通的Region MaxCompute开通的 Region 保持一致。


15. 现有账号的 AK 禁用,创建一个新的 AK,会对之前 AK 创建的周期性任务有影响吗?

有的,如果 AccessKey 被禁用或删除,将直接影响您的 DataWorks 中各类任务的正常运行。 AK 信息谨慎操作。其余 AK 操作请参考官方文档


16. MaxCompute的表格类型有几种,分别为什么?

MaxCompute 的表格有两种类型:内部表和外部表(MaxCompute2.0 版本开始支持外部表)。对于内部表,所有的数据都被存储在MaxCompute 中,表中列的数据类型可以是 MaxCompute 支持的任意一种数据类型。 对于外部表,MaxCompute 并不真正持有数据,表格的数据可以存放在OSS OTS 中 。MaxCompute 仅会记录表格的 Meta 信息,您可以通过 MaxCompute 的外部表机制处理 OSS OTS 上的非结构化数据,例如视频、音频、基因、气象、地理信息等。


17. 如果想使用MaxCompute的自定义函数(UDF)或 MapReduce 功能需要依赖什么资源来完成?

SQL UDF:您编写UDF 后,需要将编译好的 Jar 包以资源的形式上传到MaxCompute。运行此 UDF 时,MaxCompute会自动下载这个 Jar 包,获取您的代码来运行 UDF,无需您干预。上传 Jar 包的过程就是在 MaxCompute 上创建资源的过程,这个 Jar 包是 MaxCompute 资源的一种。

MapReduce:您编写 MapReduce 程序后,将编译好的 Jar 包作为一种资源上传到 MaxCompute

运行 MapReduce 作业时,MapReduce 框架会自动下载这个 Jar 资源,获取您的代码。您同样可以将文本文件以及 MaxCompute 中的表作为不同类型的资源上传到 MaxCompute,您可以在 UDF MapReduce 的运行过程中读取、使用这些资源。


18.   MaxCompute建表默认有压缩功能吗?可以指定压缩格式和存储格式吗?

目前 MaxCompute 默认自动压缩 3-5 倍,默认存储格式 AliORC,不支持自定义。


19.   MaxCompute常见错误信息如何理解,怎么定位问题?

MaxCompute的常见报错信息编号有规范定义,异常编号:通用描述 - 上下文相关说明。其中 SQLMapReduceTunnel 的错误信息是不一样的。官方文档中列举了一些错误信息, 大家可以查询一一对应报错信息


>>快来点击免费下载《阿里云MaxCompute百问百答》了解更多详情!<<


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
1月前
|
SQL 分布式计算 DataWorks
DataWorks常见问题之maxcompute资源打开失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
存储 SQL 缓存
使用实践:Hologres对接MaxCompute常见问题排查
本文总结了Hologres对接MaxCompute时的常见问题与处理方法。
3018 3
使用实践:Hologres对接MaxCompute常见问题排查
|
1月前
|
数据采集 分布式计算 DataWorks
DataWorks常见问题之dataworks引用maxcompute资源失败如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
9月前
|
SQL 分布式计算 Hadoop
【大数据】Sqoop使用常见问题
【大数据】Sqoop使用常见问题
294 0
|
SQL 编解码 分布式计算
【MaxCompute 常见问题】 UDF
查看资源信息 假设资源名称为 pyudf_test.py,在 odpscmd 客户端执行 desc resource pyudf_test.py;,或在 datastudio 中新建 SQL 节点后输入 desc resource pyudf_test.py;执行。
【MaxCompute 常见问题】 UDF
|
数据采集 存储 消息中间件
谈谈大数据采集和常见问题
谈谈大数据采集和常见问题
384 0
|
SQL 数据采集 分布式计算
大数据常见问题:数据倾斜
大数据常见问题:数据倾斜
大数据常见问题:数据倾斜
|
分布式计算 DataWorks Java
MaxCompute Spark 使用及常见问题|学习笔记
快速学习 MaxCompute Spark 使用及常见问题
466 0
MaxCompute Spark 使用及常见问题|学习笔记
|
存储 分布式计算 DataWorks
【MaxCompute 常见问题】 MaxCompute Spark
如何将开源 Spark 代码迁移到 Spark on MaxCompute?分以下三种情形: 作业无需访问 MaxCompute 表和 OSS。您的 Jar 包可直接运行,具体步骤请参见搭建开发环境。注意,对于 Spark 或 Hadoop 的依赖必须设成 provided。
【MaxCompute 常见问题】 MaxCompute Spark
|
分布式计算 Java 开发工具
【MaxCompute 常见问题】Tunnel SDK
使用 Tunnel SDK 上传数据时,上传的数据可以自动分配到各个分区吗? Tunnel SDK 上传数据时,是无法自动分配到各个分区的。每一次上传只支持将数据上传到一张表或表的一个分区,有分区的表一定要指定上传的分区,多级分区一定要指定到末级分区。
【MaxCompute 常见问题】Tunnel SDK