MaxCompute问答整理之6月

简介: 本文是基于本人对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。

本文是基于本人对MaxCompute产品的学习进度,再结合开发者社区里面的一些问题,进而整理成文。希望对大家有所帮助,下面咱们正式开始。

1、什么是MaxCompute呢?
MaxCompute是由阿里人自主研发的海量数据处理平台,可以称它为计算引擎。它主要提供针对TB/PB级数据、实时性要求不高的分布式处理能力,主要服务于批量结构化数据的存储和计算。简单来说呢,就是数据要存到MaxCompute里面,需要的时候再取出来。

2、为什么要使用MaxCompute呢?
MaxCompute的特点可以简单总结为5点:
开箱即用在线服务,五分钟即可开通大数据平台。
高效能低成本,持续高效低成本的大数据引擎。
支持多种分布式计算模型,满足不同场景下的技术需求。
生态融合,支持多样数据源、生态工具和标准。
安全可靠,多租户数据安全保障机制。

3、使用MaxCompute需要什么专业技能?
JAVA、SQL、Python。

4、使用MaxCompute需要准备什么开发工具呢?
这里面的工具有三种:
Odpscmd:MaxCompute客户端,喜欢用命令行的同学可以试试。
https://help.aliyun.com/document_detail/27971.html
因为odpscmd是基于JAVA开发的,所以记得配置JRE 1.7以上版本,建议使用JRE1.7/1.8。

MaxCompute Studio:是MaxCompute平台提供的安装在开发者客户端的大数据集成开发环境工具,是一套基于流行的集成开发平台IntelliJ IDEA的开发插件。
https://help.aliyun.com/document_detail/50889.html

DataWorks:是阿里云重要的PaaS平台产品,可以提供数据集成、数据开发、数据管理、数据质量和数据服务等全方位的产品服务,拥有一站式开发管理的界面,DataWorks是基于MaxCompute为核心的计算、存储引擎,可以提供海量数据的离线加工分析、数据挖掘等功能。
https://help.aliyun.com/product/72772.html

我想大家看完上面的内容之后,以及对MaxCompute有了初步的了解和认知,下面我根据MaxCompute开发者社区里面大家碰见的问题做一个简单的整理,我会从初级问题开始一步步整理,大家可以随时查阅。

问题一:怎么获取AccesskeyID和 Access key Secret?
使用MaxCompute服务前,我们需要准备一个阿里云账号。
下面这篇文章可以完美解决大家如何获取AK密钥。
https://help.aliyun.com/document_detail/27803.html

问题二:MaxCompute如何计费?
当我们开通MaxCompute服务时都会碰见一个问题,如何选择自己的计费方式,怎么估算?MaxCompute的产品有两种计费模型,按量付费(先使用再付费)和CU预付费(先购买资源),简单来说就是资源共享和资源独享的区别。
MaxCompute是以project为计费单元,计费项包括存储、计算、数据下载三类。就是分为计算费用(可预付费和后付费)、存储费用(按量后付费)、下载费用(按量后计费)。

问题三:尝试把测试环境rds导入,结果遇到了类似分区,不知道怎么查文档解决?
当我们在MaxCompute上面开始建表,查看分区等操作时,总是会碰见一些各种各样的问题。不怕,咱们有官方文档,有非常详细的解释和介绍。
https://help.aliyun.com/document_detail/27829.html

问题四:EMR和MaxCompute的区别?
很多人都会问有了EMR,为什么还有MaxCompute?下面我给大家解释一下,
EMR是构建在阿里云云服务器ECS上的开源Hadoop、Spark、Hive、Flink生态大数据PaaS产品,主要是提供用户在云上使用开源技术建设数据仓库、离线批处理、在线流式处理、及时查询、机器学习等场景下的大数据解决方案。
MaxCompute是阿里人自主研发的,对外不开源,封装使用起来方便,而且运维成本比较低,两者在使用场景上基本没有差别。

问题五:如何查看odps里面sql执行所消耗的资源?
MaxCompute的计费方式有选择,那我们怎么去查看呢?怎么知道我一条SQL耗费了多少资源,下面这篇文章可以给我们很好的解答。https://help.aliyun.com/document_detail/106521.html

问题六:MaxCompute和DataWorks的权限关系?
通过MaxCompute的安全模型进行权限控制,并不会影响成员在DataWorks任何界面操作。而通过DataWorks的用户角色分配,则有可能影响成员MaxCompute资源权限。
https://help.aliyun.com/document_detail/105012.html
也可以通过视频来了解两者的关系。
https://help.aliyun.com/video_detail/99890.html

问题七:需要从odps数据导入到mysql,但是受到数据保护,无法导出,如何解决?
可以通过关闭数据保护或者配置exception policy 来完成。
https://help.aliyun.com/document_detail/34605.html

问题八:如何赋予操作表的权限?
MaxCompute可以通过授权方式对其中的表、任务、资源等客体的某种操作权限,包括读、写、查看等。
https://help.aliyun.com/document_detail/27935.html

欢迎加入MaxCompute开发者社区2群,与更多大数据开发者一起学习交流大数据技术。

2_

相关实践学习
基于Hologres轻量实时的高性能OLAP分析
本教程基于GitHub Archive公开数据集,通过DataWorks将GitHub中的项⽬、行为等20多种事件类型数据实时采集至Hologres进行分析,同时使用DataV内置模板,快速搭建实时可视化数据大屏,从开发者、项⽬、编程语⾔等多个维度了解GitHub实时数据变化情况。
目录
相关文章
|
10月前
|
数据采集 人工智能 安全
瑞数《BOTS自动化威胁报告》:六大威胁来袭,企业如何筑牢AI时代安全防线?
瑞数《BOTS自动化威胁报告》:六大威胁来袭,企业如何筑牢AI时代安全防线?
323 3
|
11月前
|
存储 SQL NoSQL
【赵渝强老师】达梦数据库的逻辑存储结构
本文介绍了达梦数据库的存储结构,包括逻辑和物理存储两部分。逻辑存储结构由数据库(Database)、表空间(Tablespaces)、段(Segments)、簇(Cluster)和页(Page)组成。数据库是最大逻辑单元,包含所有表、索引等;表空间由数据文件组成,用于存储对象;段由簇构成,簇包含连续的数据页;页是最小存储单元。文中还提供了查询表空间、段和页大小的SQL语句,并附有视频讲解和示意图。
432 7
|
JSON 供应链 API
京东商品评价API的获取和应用
京东商品评价API是电商数据分析的重要工具,帮助开发者和商家获取商品的用户评价数据,包括评分、评论内容和购买时间等。通过分析这些数据,商家可以优化产品和服务,提升客户满意度,制定更有效的营销策略。本文介绍了获取和应用京东商品评价API的详细步骤,包括注册账号、获取权限、阅读文档和编写代码调用API。示例代码展示了如何使用Python调用API并处理响应数据。
631 2
|
供应链 Python
供需匹配(Demand-Supply Matching)的详细解释与Python代码示例
供需匹配(Demand-Supply Matching)的详细解释与Python代码示例
|
SQL 存储 缓存
Mysql数据查询优化——sql执行顺序&执行计划
Mysql数据查询优化——sql执行顺序&执行计划
909 0
Mysql数据查询优化——sql执行顺序&执行计划
|
SQL 数据库 索引
SQL Server开启变更数据捕获(CDC)
SQL Server开启变更数据捕获(CDC)
|
SQL 分布式计算 数据挖掘
阿里云MaxCompute携手华大基因打造精准医疗应用云平台,十万基因组计算成本降低至1000美金以内
华大基因是中国最领先的基因科技公司,华大基因为消除人类病痛、经济危机、国家灾难、濒危动物保护、缩小贫富差距等方面提供分子遗传层面的技术支持。让我们结合maxcompute的技术特点,看看如何助力华大基因。
2752 13
|
消息中间件 存储 NoSQL
Celery:高效异步任务队列的深度解析与应用实践
Celery 是一个流行的 Python 分布式任务队列,用于处理耗时的异步任务,提升Web应用性能。它包括消息中间件(如RabbitMQ、Redis)、任务生产者和消费者。Celery支持异步处理、分布式执行、任务调度、结果存储和错误处理。通过一个发送邮件验证码的实例,展示了如何安装配置、定义任务、触发任务以及查看执行结果。Celery的使用能有效优化应用响应速度和资源管理。
2051 3
|
Cloud Native Java 关系型数据库
【阿里云云原生专栏】构建云原生应用:基于Spring Boot与阿里云服务的全栈指南
【5月更文挑战第21天】构建云原生应用是企业数字化转型的关键,本文提供了一份基于Spring Boot和阿里云的全栈指南。涵盖从阿里云账号注册、ECS与Docker搭建,到Spring Boot项目创建、业务代码编写和部署。此外,还介绍了如何集成阿里云OSS存储、RDS数据库服务以及ACK容器服务,助力打造高效、可扩展和易管理的云原生应用。
1204 3
|
JavaScript Serverless API
Serverless 应用引擎操作报错合集之在Serverless 应用引擎中,FC3.0读取response body的时候出现错误提示"Caused by: java.io.IOException: closed"如何解决
Serverless 应用引擎(SAE)是阿里云提供的Serverless PaaS平台,支持Spring Cloud、Dubbo、HSF等主流微服务框架,简化应用的部署、运维和弹性伸缩。在使用SAE过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
452 3

相关产品

  • 云原生大数据计算服务 MaxCompute