【实验】阿里云大数据助理工程师认证(ACA)- ACA认证配套实验-02-MaxCompute客户端配置(上)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 【实验】阿里云大数据助理工程师认证(ACA)- ACA认证配套实验-02-MaxCompute客户端配置(上)

一、实验概述


大数据计算服务(MaxCompute,原名 ODPS)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。


本实验实验结合实际数据和案例,深入浅出的演示了如何进行MaxCompute各种客户端的配置。


二、实验目标


本实验讲述如何借助Console控制台、Eclipse开发工具以及阿里云管理控制台,使用 MaxCompute 服务的基础功能。


完成此实验后,可以掌握的能力有:

  1. 安装配置Console控制台;
  2. 安装配置Eclipse;
  3. 通过管理控制台使用MaxCompute;

三、学习建议


1. 掌握Console控制台、Eclipse开发工具以及阿里云管理控制台的使用;
  2. 提前安装 ODPS客户端(下载客户端软件)等;


第 2 章:实验准备


2.1 检查本地系统软件安装配置情况


(1) 下载本实验所用到的介质包:(见实验附件)

将ODPS_DEMO.zip解压至本地目录 C:\ODPS_DEMO,解压密码为:aca21104

(2) 查看本次实验课用到的介质:


dir C:\ODPS_DEMO\InstallMedia


至少应该包含以下文件:


odpscmd_public.zip
  odps-eclipse-plugin-bundle-0.16.0.jar
  odps-sdk-core-0.18.3-public.jar

20200711105821950.png

说明:a) 为了方便用户使用 MapReduce及UDF的Java SDK进行开发工作,ODPS提供了Eclipse开发插件。


该插件能够模拟MapReduce及UDF的运行过程,为用户提供本地调试手段,并提供了简单的模板生成功能。


b) 与MapReduce提供的本地运行模式不同,Eclipse插件不能够与ODPS同步数据。用户使用的数据需要


手动拷贝到Eclipse插件的warehouse目录下

(3) 检查系统是否安装了Java运行环境(1.6及以上版本):


java -version 


说明:JDK1.8的下载地址如下:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html


(4)检查是否安装了eclipse,建议使用luna-sr2 版本;


说明:目前高版本的Eclipse Neon有可能会导致插件加载失败,请使用Eclipse Luna版本。


(下载地址:http://www.eclipse.org/downloads/packages/release/luna/sr2


(5) 使用实验账号,登录阿里云官网,检查账号下的可用资源:


   应至少包括大数据计算 服务;(采用沙箱实验环境,资源开通后会自动开通大数据计算 服务,创建实验项目,生成实验所需AccessKeyID 和 AccessKeySecret、企业别名等信息,具体参见创建实验环境章节)


若采用个人账号进行实验,如无项目,请新建一个项目用于本次实验,本实验中使用项目名称为 aca21104_demo(也可以自行命名);(采用沙箱实验环境,系统自动创建一个项目,名称请替换为实验创建名称)


检查可用 AccessKeyID 和 AccessKeySecret,并记录一对用于后续实验;(采用沙箱实验环境,系统自动生成一对AccessKeyID 和 AccessKeySecret,供实验使用)


2.2 申请MaxCompute资源


在弹出的左侧栏中,点击 创建资源 按钮,开始创建实验资源。

资源创建过程需要1-3分钟。完成实验资源的创建后,用户可以通过 实验资源 查看实验中所需的资源信息,例如:阿里云账号等。


2.3 开通实验环境


1)查看资源

登录云中沙箱,在实验目录中查询所需实验,进入实验,点击“实验资源”,查看所需具体资源(已查看直接跳过)

2)创建资源


点击“创建资源”,即可进入实验环境。(由于实验环境一旦开始创建则进入计时阶段,建议学员先基本了解实验具体的步骤、目的,真正开始做实验时再进行创建)

创建资源需要几分钟时间,请耐心等候……


资源创建完成,如图示例:20200711110215109.png


说明:


企业别名:即主账号ID;


子用户名称和子用户密码:登录实验环境以及配置MaxCompute 数据源时需要;


AK ID和AK Secret:系统为本用户分配的登录验证密钥信息,在配置客户端及数据源时应用;


控制台url:登录实验环境的地址;


进入控制台

点击“控制台url”, 复制地址,打开该链接并登录实验账号!

进入登录页面,输入申请资源处提供的账号,格式为:子用户名称@企业别名


20200711110246258.png


第 3 章:实验内容


3.1 安装配置Console控制台


1、安装配置客户端

(1)下载附件,找到安装介质 odpscmd_public.zip,解压缩到C:\ODPS_DEMO\。(具体目录自行确定,本实验假定为C:\ODPS_DEMO\)


(2)进入目录 C:\ODPS_DEMO\odpscmd_public\conf\,打开文件odps_config.ini,修改配置信息:

20200711110328781.png

备注:


· 将其中的access_id和access_key等号后面替换为在开通实验环境中所获取的具体信息。


· 如果你经常使用某个project,可以将该project的名字添加到”project_name=”之后。这样可以避免每次进入客户端后均需要执行”useproject_name;”命令。


(3)通过命令行,进入C:\ODPS_DEMO\odpscmd_public\bin\,执行 odpscmd,进入交互界面,确认安装是否配置成功,如图:


20200711110355226.png


4)将 C:\ODPS_DEMO\odpscmd_public\bin加入环境变量 PATH,方便通过命令行调用 odpscmd

备注:我的电脑->右键(属性)->高级系统设置->环境变量->系统变量->新建。

按照上述路径操作,完成系统环境变量的添加,如图:

20200711110415182.png


2、交互界面执行常用命令

(1)进入交互界面


odpscmd


(2)分别执行下述命令


# 查看帮助信息
   help;
#切换项目
    use aca21104_demo;   (实验中具体开通的项目)
#查看当前项目的详细信息
   desc project aca21104_demo;  (实验中具体开通的项目)
#列出表信息
    ls tables;
# 查看某个表的具体信息
   注意:如果表dual 未创建,可以先创建表dual :create table dual (X string); 
             表中插入记录:insert into table dual select count(*) from dual;
   查看表 :desc dual;
#查看表中记录数
    countdual;
     selectcount(*) from dual;
#查看表记录内容:
    read dual;
    select *from dual;
#添加用户 ben.ning@aliyun.com 到当前项目空间中来,(此操作需要使用主账号,仅作了解):
    listusers;
    remove user ALIYUN$ben.ning@aliyun.com;
    add user ALIYUN$ben.ning@aliyun.com;


新建表t_test


create tableif not exists t_test (id int, name string);


插入一条数据


insert intotable t_test select * from t_test;

查看表中记录:


read t_test;


3、使用 -f 参数执行指定文件中的命令集


(1)在目录 C:\ODPS_DEMO\resources\01-BasicKnowledge\中的命令文件 crt_tbl_new.cmd:

use aca21104_demo;
drop tableif exists t_test;
create tablet_test (id int, name string);
insert intotable t_test select 1,‘odps’ from dual;
read t_test;


(2)使用 odpscmd调用命令文件:


odpscmd -f C:\ODPS_DEMO\resources\01-BasicKnowledge\crt_tbl_new.cmd


(3)使用odpscmd 执行命令文件中的一部分命令(跳过开头的命令):


odpscmd -f C:\ODPS_DEMO\resources\01-BasicKnowledge\crt_tbl_new.cmd-k 4


4、使用 -e 参数执行命令集

(1)使用odpscmd-e 执行多个命令:


odpscmd -e “insertinto table t_test select 2,‘odpscmd’ from dual; read t_test;”


(2)使用 -e 和 -k 结合在执行命令集时可跳过一些命令:


odpscmd-e “insert into table t_test select 2,‘odpscmd’ from dual; readt_test;” -k 2


3.2 安装配置Eclipse

1、安装配置Eclipse

(1) 找到下载的安装介质 eclipse-java-luna-SR2-win32-x86_64.zip,解压缩到 D:\Eclipse\。


(2) 进入目录 D:\Eclipse\,双击执行 eclipse.exe,进行配置。


(3) 设置Workspace路径为:D:\workspace,如图:

20200711110641423.png


(4) 点击OK按钮,配置完成后,看到如下Eclipse工作台,如图。

20200711110708990.png


2、安装Eclipse插件

(1) 进入ODPS解压缩目录:C:\ODPS_DEMO\InstallMedia,会看到如下jar内容:


odps-eclipse-plugin-bundle-0.16.0.jar


(2) 将插件放置在Eclipse安装目录的plugins子目录下(D:\eclipse\plugins\)。打开Eclipse,点击右上角的打开透视图(Open Perspective),如图:

20200711110728560.png

(3) 点击后出现下面的对话框,如图:

20200711110751114.png

在这里插入图片描述

(4) 选择ODPS,随后点击OK键。同样在右上角会出现ODPS图标,表示插件生效,如图:

20200711110811670.png


3、创建MaxCompute工程

创建 MaxCompute 工程有两种方式。


方式一:


(1) 在左上角选择文件(File) -> 新建(New)->Project->ODPS->ODPS Project,创建工程(示例中使用ODPS作为工程名),如图

20200711110842474.png

(2) 创建MaxCompute工程后会出现如下对话框。输入Project name,

选择MaxCompute客户端路径(C:\ODPS_DEMO\odpscmd_public),点击“Finish”,如图:


20200711110906209.png


方式二:

(1) 直接点击左上角的”新建”,如图:

20200711110925880.png


(2) 弹出对话框后,选择”ODPS Project”,点击”下一步”,如图:

20200711110944835.png


3.3 通过管理控制台使用MaxCompute

大数据计算服务 ( MaxCompute,原名 ODPS )向用户提供了完善的数据导入方案,能够更快速的解决用户海量数据计算问题。MaxCompute 数据源作为数据中枢,提供了对与项目的配置,提供了读取 和 写入MaxCompute 双向通道的能力,支持reader和writer插件。


【说明】每个项目空间系统都将生成一个默认的数据源(odps_first),对应的ODPS项目名称为当前项目空间对应的计算引擎ODPS项目名称(为提供的实验资源中显示的project名称,并非Eclipse中的名称)。


项目管理员创建ODPS数据源,具体步骤如下:


步骤1:打开管理控制台, 在“大数据(数加)”产品列表中,点击“DataWorks”。

20200711111014459.png


创建项目需要管理员权限,沙箱实验环境默认创建完项目。点击对应项目操作栏中的进入数据开发。

20200711111033106.png

步骤2:点击左上角图表,然后点击“数据集成”功能模块。


2020071111105123.png


步骤3:点击新增数据源。

20200711111109343.png

步骤4:在新增数据源弹出框中,选择数据源类型为MaxCompute(ODPS)。

20200711111129476.png

步骤5:配置数据源的各个信息项。

20200711111148722.png

针对ODPS数据源配置项的具体说明如下:


■ 数据源名称:自定义名称,由英文字母、数字、下划线组成且需以字符或下划线开头,长度不超过30个字符。


■ 数据源描述:对数据源的简单描述,不超过80个字。


■ ODPS Endpoint:默认只读。从系统配置中自动读取。


■ ODPS项目名称:对应实验资源中提供的项目名称。


■ AccessID:对应实验资源中提供的AK ID。


■ AccessKey:对应实验资源中提供的AK Secret,与AK ID成对使用。


步骤6:完成上述信息项的配置后,点击测试连通性。

20200711111209361.png



步骤7:测试连通性通过后,点击确定,数据源被新增到列表中


20200711111230220.png


第 4 章:实验总结


4.1 实验总结


本实验重点介绍在Console控制台、Eclipse开发环境下以及阿里云管理控制台上,如何配置和使用MaxCompute,进行相关程序的开发。熟练掌握各种开发环境的使用方法,在日后的学习和实践过程中反复练习,孰能生巧。MaxCompute学习的过程是一个应用与实践的过程,通过发现问题、寻找方法、解决问题,不断提高基于MaxCompute开发技能,定能收获满满!

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
90 1
|
1月前
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(一)
51 0
|
1月前
|
分布式计算 资源调度 大数据
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
大数据-110 Flink 安装部署 下载解压配置 Standalone模式启动 打包依赖(二)
67 0
|
14天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
16天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
1月前
|
存储 分布式计算 druid
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
39 1
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(一)
|
1月前
|
运维 监控 数据可视化
大数据-171 Elasticsearch ES-Head 与 Kibana 配置 使用 测试
大数据-171 Elasticsearch ES-Head 与 Kibana 配置 使用 测试
62 1
|
1月前
|
消息中间件 分布式计算 druid
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(二)
大数据-152 Apache Druid 集群模式 配置启动【下篇】 超详细!(二)
40 2
|
1月前
|
消息中间件 分布式计算 Java
大数据-73 Kafka 高级特性 稳定性-事务 相关配置 事务操作Java 幂等性 仅一次发送
大数据-73 Kafka 高级特性 稳定性-事务 相关配置 事务操作Java 幂等性 仅一次发送
28 2
|
1月前
|
存储 消息中间件 druid
大数据-151 Apache Druid 集群模式 配置启动【上篇】 超详细!
大数据-151 Apache Druid 集群模式 配置启动【上篇】 超详细!
80 1