【MaxCompute 常见问题】 产品简介

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
大数据开发治理平台DataWorks,Serverless资源组抵扣包300CU*H
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: MaxCompute相关术语有哪些?在开始使用 MaxCompute 产品前,您可以提前查阅 MaxCompute 所涉及的术语及其含义,为了解产品及快速上手提供帮助。您可以看下官方文档,将为您介绍 MaxCompute 涉及的术语及其概念。

产品简介


MaxCompute 相关术语、数据类型、项目空间等相关问题


1.  什么是 MaxCompute 呢?

MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库,以 Serverless 架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效的分析处理海量数据。数以万计的企业正基于 MaxCompute 进行数据计算与分析,将数据高效转换为业务洞察。


2.  使用 Maxcompute 需要什么专业技能?

MaxCompute 支持多种计算模型数据通道,满足多场景需求。

所以您只需要会使用 SQLPythonJava 等开发语言就可以使用 MaxCompute 进行数据分析。


3.  如何理解开源与云原生的大数据技术与产品?

2020 大数据技术公开课第一季《从开源到云原生,你不得不知的大数据实战》,通过实践,帮助开发者们更好的理解和掌握大数据技术。大家可以通过文字和视频观看学习。


4.  MaxCompute作为大数据平台,接入整个业务体系数据有没有好的监控手段?

当前 MaxCompute 仅支持在 DataWorks 数据质量中配置数据监控规则。外部数据源的字段变化,当前是没有办法监控到。


5.  MaxCompute相关术语有哪些?

在开始使用 MaxCompute 产品前,您可以提前查阅 MaxCompute 所涉及的术语及其含义,为了解产品及快速上手提供帮助。您可以看下官方文档,将为您介绍 MaxCompute 涉及的术语及其概念。


6.  MaxCompute有什么功能?

全托管的 Serverless

在线服务

对外以 API 方式访问的在线服务,开箱即用。

预铺设大规模集群资源,近乎无限资源,您可以按需使用、按量计费。

无需平台运维,最小化运维投入。

弹性能力与扩展性

存储和计算独立扩展,支持企业将全部数据资产在一个平台上进行联动分析,消除数据孤岛。

支持实时根据业务峰谷变化分配资源。

统一丰富的计算和存储能力

MaxCompute 支持多种计算模型和丰富的 UDF

采用列压缩存储格式,通常情况下具备 5 倍压缩能力,可以大幅节省存储成本。

DataWorks 深度

集成

一站式数据开发与治理平台 DataWorks,可实现全域数据汇聚、融合加工和治理。DataWorks 支持对 MaxCompute 项目进行管理以及 Web 端查询编辑。

集成 AI 能力

与机器学习平台 PAI 无缝集成,提供强大的机器学习处理能力。

您可以使用熟悉的 Spark-ML 开展智能分析。

使用 Python 机器学习三方库。

深度集成 Spark 引擎

内建 Apache Spark 引擎,提供完整的 Spark 功能。

MaxCompute 计算资源、数据和权限体系深度集成。

湖仓一体

集成对数据湖(OSS Hadoop HDFS)的访问分析,支持通过外部表映射、Spark 直接访问方式开展数据湖分析。

在一套数据仓库服务和用户接口下,实现数据湖与数据仓库的关联分析。

详细信息,请参见 MaxCompute湖仓一体

支持流式采集和近实时分析

支持流式数据实时写入并在数据仓库中开展分析。

与云上主要流式服务深度集成,轻松接入各种来源的流式数据。

支持高性能秒级弹性并发查询,满足近实时分析场景需求。

提供持续的 SaaS 化云上数据保护

为云上企业提供基础设施、数据中心、网络、供电、平台安全能力、用户权限管理、隐私保护等三级超 20 项安全功能,兼具开源大数据与托管数据库的安全能力。详情请参见安全指南


7.  MaxCompute有什么优势?

MaxCompute 的主要优势如下:

  • 简单易用
  • 面向数据仓库实现高性能存储、计算。
  • 预集成多种服务,标准 SQL 开发简单。
  • 内建完善的管理和安全能力。
  • 免运维,按量付费,不使用不产生费用。
  • 匹配业务发展的弹性扩展能力存储和计算独立扩展,动态扩缩容,按需弹性扩展,无需提前规划容量,满足突发业务增长。
  • 支持多种分析场景支持开放数据生态,以统一平台满足数据仓库、BI、近实时分析、数据湖分析、机器学习等多种场景。
  • 开放的平台
  • 支持开放接口和生态,为数据、应用迁移、二次开发提供灵活性。
  • 支持与 AirflowTableau 等开源和商业产品灵活组合,构建丰富的数据应用。


8. MaxCompute 数据类型版本如何理解?

目前 Maxompute 一共支持 3 个数据类型版本:

1、MaxCompute 2.0 数据类型

2、MaxCompute 1.0 数据类型

3、MaxCompute Hive 兼容模式(即部分数据类型和 SQL 行为兼容 Hive

MaxCompute 2.0推出了兼容开源主流产品的2.0数据类型和Hive兼容数据类型两个数据类型版本。

加上原有的 1.0 数据类型版本,目前 Maxompute 一共支持 3 个数据类型版本。

MaxCompute 数据类型版本 - MaxCompute 设置数据类型版本属性的参数共有 3 个:

odps.sql.type.system.odps2MaxCompute 2.0 数据类型版本的开关,属性值为 True Falseodps.sql.decimal.odps2MaxCompute 2.0 Decimal 数据类型的开关,属性值为 True Falseodps.sql.hive.compatibleMaxCompute Hive 兼容模式(即部分数据类型和 SQL 行为兼容 Hive)数据类型版本的开关,属性值为 True False


9. MaxCompute有数据库一致性和锁的处理机制吗?

MaxCompute 支持 ACID 语义原子性(Atomicity):

一个操作或是全部完成,或是全部不完成,不会结束在中间某个环节。

一致性(Consistency):从操作开始至结束的期间,数据对象的完整性没有被破坏。

隔离性(Isolation):操作独立于其它并发操作完成。

持久性(Durability):操作处理结束后,对数据的修改将永久有效,即使出现系统故障,该修改也不会丢失。


10. 什么是 MaxCompute 表的生命周期(Lifecycle?

MaxCompute表的生命周期(Lifecycle),指表(分区)数据从最后一次更新的时间算起,在经过指定的时间后没有变动,则此表(分区)将被 MaxCompute 自动回收。这个指定的时间就是生命周期。

生命周期单位:Days(天),只接受正整数。 对于非分区表,如果表数据在生命周期 Days 天内没有被修改,经过 Days 天后此表将会被 MaxCompute 自动回收(类似 DROP TABLE 操作)。

生命周期从最后一次表数据被修改的时间(LastDataModifiedTime)起开始计算。 对于分区表,每个分区可以分别被回收。在生命周期 Days 天内数据未被修改的分区,经过指定的天数后此分区将会被回收,否则会被保留。每个分区的生命周期是从最后一次分区数据被修改的时间 LastDataModifiedTime 起开始计算。不同于非分区表,分区表的最后一个分区被回收后,该表不会被删除。 生命周期只能设定到表级别,不能在分区级设置生命周期。创建表时即可指定生命周期。 如果您没有为表指定生命周期,则表(分区)不会根据生命周期规则被 MaxCompute 自动回收。


11.   MaxCompute的项目空间发挥什么作用?

项目空间(Project)是 MaxCompute 的基本组织单元,它类似于传统数据库的 Database Schema 的概念,是进行多用户隔离和访问控制的主要边界。项目空间中包含多个对象,

例如表

Table)、资源(Resource)、函数(Function)和实例(Instance)等。

一个用户可以同时拥有多个项目空间的权限。通过安全授权,可以在一个项目空间中访问另一个项目空间中的对象,例如表(Table)、资源(Resource)、函数(Function)和实例(Instance)。


12. 怎获取MaxCompute AccesskeyID Access key Secret

使用 MaxCompute 服务前,我们需要准备一个阿里云账号。 查看文档解决大家如何获取 AK 密钥。


13. DataWorks简单模式和标准模式的区别?

数据上云后,在使用 MaxCompute 计算引擎时,需要一个稳定、可靠的调度系统,将自身数据生产任务(代码)按照所需依赖关系、运行时间来调度运行,那么 DataWorks 就派上了用场。DataWor ks 提供简单模式和标准模式两种工作空间模式。

简单模式指一个 DataWorks 工作空间对应一个MaxCompute项目(project),无法设置开发环境和生产环境,只能进行简单的数据开发。标准模式指一个 DataWorks 工作空间对应两个 MaxCompute 项目(project),可以设置开发和生产环境,提升代码开发规范。两个模式还存在项目、用户和权限的不同。大家可以通过学习官方文档或者是实操来加强认知。


14. 创建 MaxCompute 项目空间,是只能在 DataWorks 控制台中创建吗?

是的。请在 DataWorks 控制台上进行操作。创建项目空间前,您需要先服务,并确保开通的Region MaxCompute开通的 Region 保持一致。


15. 现有账号的 AK 禁用,创建一个新的 AK,会对之前 AK 创建的周期性任务有影响吗?

有的,如果 AccessKey 被禁用或删除,将直接影响您的 DataWorks 中各类任务的正常运行。 AK 信息谨慎操作。其余 AK 操作请参考官方文档


16. MaxCompute的表格类型有几种,分别为什么?

MaxCompute 的表格有两种类型:内部表和外部表(MaxCompute2.0 版本开始支持外部表)。对于内部表,所有的数据都被存储在MaxCompute 中,表中列的数据类型可以是 MaxCompute 支持的任意一种数据类型。 对于外部表,MaxCompute 并不真正持有数据,表格的数据可以存放在OSS OTS 中 。MaxCompute 仅会记录表格的 Meta 信息,您可以通过 MaxCompute 的外部表机制处理 OSS OTS 上的非结构化数据,例如视频、音频、基因、气象、地理信息等。


17. 如果想使用MaxCompute的自定义函数(UDF)或 MapReduce 功能需要依赖什么资源来完成?

SQL UDF:您编写UDF 后,需要将编译好的 Jar 包以资源的形式上传到MaxCompute。运行此 UDF 时,MaxCompute会自动下载这个 Jar 包,获取您的代码来运行 UDF,无需您干预。上传 Jar 包的过程就是在 MaxCompute 上创建资源的过程,这个 Jar 包是 MaxCompute 资源的一种。

MapReduce:您编写 MapReduce 程序后,将编译好的 Jar 包作为一种资源上传到 MaxCompute

运行 MapReduce 作业时,MapReduce 框架会自动下载这个 Jar 资源,获取您的代码。您同样可以将文本文件以及 MaxCompute 中的表作为不同类型的资源上传到 MaxCompute,您可以在 UDF MapReduce 的运行过程中读取、使用这些资源。


18.   MaxCompute建表默认有压缩功能吗?可以指定压缩格式和存储格式吗?

目前 MaxCompute 默认自动压缩 3-5 倍,默认存储格式 AliORC,不支持自定义。


19.   MaxCompute常见错误信息如何理解,怎么定位问题?

MaxCompute的常见报错信息编号有规范定义,异常编号:通用描述 - 上下文相关说明。其中 SQLMapReduceTunnel 的错误信息是不一样的。官方文档中列举了一些错误信息, 大家可以查询一一对应报错信息


>>快来点击免费下载《阿里云MaxCompute百问百答》了解更多详情!<<


相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
1月前
|
存储 缓存 分布式计算
大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍
大数据-83 Spark 集群 RDD编程简介 RDD特点 Spark编程模型介绍
36 4
|
3月前
|
SQL 分布式计算 DataWorks
DataWorks产品使用合集之如何开发ODPS Spark任务
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
3月前
|
DataWorks Kubernetes 大数据
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
|
10天前
|
存储 人工智能 分布式计算
大数据& AI 产品月刊【2024年10月】
大数据& AI 产品技术月刊【2024年10月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
zdl
|
3天前
|
消息中间件 运维 大数据
大数据实时计算产品的对比测评:实时计算Flink版 VS 自建Flink集群
本文介绍了实时计算Flink版与自建Flink集群的对比,涵盖部署成本、性能表现、易用性和企业级能力等方面。实时计算Flink版作为全托管服务,显著降低了运维成本,提供了强大的集成能力和弹性扩展,特别适合中小型团队和业务波动大的场景。文中还提出了改进建议,并探讨了与其他产品的联动可能性。总结指出,实时计算Flink版在简化运维、降低成本和提升易用性方面表现出色,是大数据实时计算的优选方案。
zdl
19 0
|
1月前
|
存储 缓存 NoSQL
大数据-38 Redis 高并发下的分布式缓存 Redis简介 缓存场景 读写模式 旁路模式 穿透模式 缓存模式 基本概念等
大数据-38 Redis 高并发下的分布式缓存 Redis简介 缓存场景 读写模式 旁路模式 穿透模式 缓存模式 基本概念等
60 4
|
1月前
|
人工智能 分布式计算 大数据
大数据&AI产品月刊【2024年9月】
大数据& AI 产品技术月刊【2024年9月】,涵盖本月技术速递、2024云栖大会实录、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
25天前
|
Oracle 大数据 数据挖掘
企业内训|大数据产品运营实战培训-某电信运营商大数据产品研发中心
本课程是TsingtaoAI专为某电信运营商的大数据产品研发中心的产品支撑组设计,旨在深入探讨大数据在电信运营商领域的应用与运营策略。通过密集的培训,从数据的本质与价值出发,系统解析大数据工具和技术的最新进展,深入剖析行业内外的实践案例。课程涵盖如何理解和评估数据、如何有效运用大数据技术、以及如何在不同业务场景中实现数据的价值转化。
36 0
|
1月前
|
SQL 运维 大数据
大数据实时计算产品的对比测评
在使用多种Flink实时计算产品后,我发现Flink凭借其流批一体的优势,在实时数据处理领域表现出色。它不仅支持复杂的窗口机制与事件时间处理,还具备高效的数据吞吐能力和精准的状态管理,确保数据处理既快又准。此外,Flink提供了多样化的编程接口和运维工具,简化了开发流程,但在界面友好度上还有提升空间。针对企业级应用,Flink展现了高可用性和安全性,不过价格因素可能影响小型企业的采纳决策。未来可进一步优化文档和自动化调优工具,以提升用户体验。
115 0
|
1月前
|
SQL 存储 监控
大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道 与 Cube 优化
大数据-161 Apache Kylin 构建Cube 按照日期、区域、产品、渠道 与 Cube 优化
49 0