【实验】阿里云大数据助理工程师认证(ACA)- ACA认证配套实验-02-MaxCompute客户端配置(上)

简介: 【实验】阿里云大数据助理工程师认证(ACA)- ACA认证配套实验-02-MaxCompute客户端配置(上)

一、实验概述


大数据计算服务(MaxCompute,原名 ODPS)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。


本实验实验结合实际数据和案例,深入浅出的演示了如何进行MaxCompute各种客户端的配置。


二、实验目标


本实验讲述如何借助Console控制台、Eclipse开发工具以及阿里云管理控制台,使用 MaxCompute 服务的基础功能。


完成此实验后,可以掌握的能力有:

  1. 安装配置Console控制台;
  2. 安装配置Eclipse;
  3. 通过管理控制台使用MaxCompute;

三、学习建议


1. 掌握Console控制台、Eclipse开发工具以及阿里云管理控制台的使用;
  2. 提前安装 ODPS客户端(下载客户端软件)等;


第 2 章:实验准备


2.1 检查本地系统软件安装配置情况


(1) 下载本实验所用到的介质包:(见实验附件)

将ODPS_DEMO.zip解压至本地目录 C:\ODPS_DEMO,解压密码为:aca21104

(2) 查看本次实验课用到的介质:


dir C:\ODPS_DEMO\InstallMedia


至少应该包含以下文件:


odpscmd_public.zip
  odps-eclipse-plugin-bundle-0.16.0.jar
  odps-sdk-core-0.18.3-public.jar

20200711105821950.png

说明:a) 为了方便用户使用 MapReduce及UDF的Java SDK进行开发工作,ODPS提供了Eclipse开发插件。


该插件能够模拟MapReduce及UDF的运行过程,为用户提供本地调试手段,并提供了简单的模板生成功能。


b) 与MapReduce提供的本地运行模式不同,Eclipse插件不能够与ODPS同步数据。用户使用的数据需要


手动拷贝到Eclipse插件的warehouse目录下

(3) 检查系统是否安装了Java运行环境(1.6及以上版本):


java -version 


说明:JDK1.8的下载地址如下:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html


(4)检查是否安装了eclipse,建议使用luna-sr2 版本;


说明:目前高版本的Eclipse Neon有可能会导致插件加载失败,请使用Eclipse Luna版本。


(下载地址:http://www.eclipse.org/downloads/packages/release/luna/sr2


(5) 使用实验账号,登录阿里云官网,检查账号下的可用资源:


   应至少包括大数据计算 服务;(采用沙箱实验环境,资源开通后会自动开通大数据计算 服务,创建实验项目,生成实验所需AccessKeyID 和 AccessKeySecret、企业别名等信息,具体参见创建实验环境章节)


若采用个人账号进行实验,如无项目,请新建一个项目用于本次实验,本实验中使用项目名称为 aca21104_demo(也可以自行命名);(采用沙箱实验环境,系统自动创建一个项目,名称请替换为实验创建名称)


检查可用 AccessKeyID 和 AccessKeySecret,并记录一对用于后续实验;(采用沙箱实验环境,系统自动生成一对AccessKeyID 和 AccessKeySecret,供实验使用)


2.2 申请MaxCompute资源


在弹出的左侧栏中,点击 创建资源 按钮,开始创建实验资源。

资源创建过程需要1-3分钟。完成实验资源的创建后,用户可以通过 实验资源 查看实验中所需的资源信息,例如:阿里云账号等。


2.3 开通实验环境


1)查看资源

登录云中沙箱,在实验目录中查询所需实验,进入实验,点击“实验资源”,查看所需具体资源(已查看直接跳过)

2)创建资源


点击“创建资源”,即可进入实验环境。(由于实验环境一旦开始创建则进入计时阶段,建议学员先基本了解实验具体的步骤、目的,真正开始做实验时再进行创建)

创建资源需要几分钟时间,请耐心等候……


资源创建完成,如图示例:20200711110215109.png


说明:


企业别名:即主账号ID;


子用户名称和子用户密码:登录实验环境以及配置MaxCompute 数据源时需要;


AK ID和AK Secret:系统为本用户分配的登录验证密钥信息,在配置客户端及数据源时应用;


控制台url:登录实验环境的地址;


进入控制台

点击“控制台url”, 复制地址,打开该链接并登录实验账号!

进入登录页面,输入申请资源处提供的账号,格式为:子用户名称@企业别名


20200711110246258.png


第 3 章:实验内容


3.1 安装配置Console控制台


1、安装配置客户端

(1)下载附件,找到安装介质 odpscmd_public.zip,解压缩到C:\ODPS_DEMO\。(具体目录自行确定,本实验假定为C:\ODPS_DEMO\)


(2)进入目录 C:\ODPS_DEMO\odpscmd_public\conf\,打开文件odps_config.ini,修改配置信息:

20200711110328781.png

备注:


· 将其中的access_id和access_key等号后面替换为在开通实验环境中所获取的具体信息。


· 如果你经常使用某个project,可以将该project的名字添加到”project_name=”之后。这样可以避免每次进入客户端后均需要执行”useproject_name;”命令。


(3)通过命令行,进入C:\ODPS_DEMO\odpscmd_public\bin\,执行 odpscmd,进入交互界面,确认安装是否配置成功,如图:


20200711110355226.png


4)将 C:\ODPS_DEMO\odpscmd_public\bin加入环境变量 PATH,方便通过命令行调用 odpscmd

备注:我的电脑->右键(属性)->高级系统设置->环境变量->系统变量->新建。

按照上述路径操作,完成系统环境变量的添加,如图:

20200711110415182.png


2、交互界面执行常用命令

(1)进入交互界面


odpscmd


(2)分别执行下述命令


# 查看帮助信息
   help;
#切换项目
    use aca21104_demo;   (实验中具体开通的项目)
#查看当前项目的详细信息
   desc project aca21104_demo;  (实验中具体开通的项目)
#列出表信息
    ls tables;
# 查看某个表的具体信息
   注意:如果表dual 未创建,可以先创建表dual :create table dual (X string); 
             表中插入记录:insert into table dual select count(*) from dual;
   查看表 :desc dual;
#查看表中记录数
    countdual;
     selectcount(*) from dual;
#查看表记录内容:
    read dual;
    select *from dual;
#添加用户 ben.ning@aliyun.com 到当前项目空间中来,(此操作需要使用主账号,仅作了解):
    listusers;
    remove user ALIYUN$ben.ning@aliyun.com;
    add user ALIYUN$ben.ning@aliyun.com;


新建表t_test


create tableif not exists t_test (id int, name string);


插入一条数据


insert intotable t_test select * from t_test;

查看表中记录:


read t_test;


3、使用 -f 参数执行指定文件中的命令集


(1)在目录 C:\ODPS_DEMO\resources\01-BasicKnowledge\中的命令文件 crt_tbl_new.cmd:

use aca21104_demo;
drop tableif exists t_test;
create tablet_test (id int, name string);
insert intotable t_test select 1,‘odps’ from dual;
read t_test;


(2)使用 odpscmd调用命令文件:


odpscmd -f C:\ODPS_DEMO\resources\01-BasicKnowledge\crt_tbl_new.cmd


(3)使用odpscmd 执行命令文件中的一部分命令(跳过开头的命令):


odpscmd -f C:\ODPS_DEMO\resources\01-BasicKnowledge\crt_tbl_new.cmd-k 4


4、使用 -e 参数执行命令集

(1)使用odpscmd-e 执行多个命令:


odpscmd -e “insertinto table t_test select 2,‘odpscmd’ from dual; read t_test;”


(2)使用 -e 和 -k 结合在执行命令集时可跳过一些命令:


odpscmd-e “insert into table t_test select 2,‘odpscmd’ from dual; readt_test;” -k 2


3.2 安装配置Eclipse

1、安装配置Eclipse

(1) 找到下载的安装介质 eclipse-java-luna-SR2-win32-x86_64.zip,解压缩到 D:\Eclipse\。


(2) 进入目录 D:\Eclipse\,双击执行 eclipse.exe,进行配置。


(3) 设置Workspace路径为:D:\workspace,如图:

20200711110641423.png


(4) 点击OK按钮,配置完成后,看到如下Eclipse工作台,如图。

20200711110708990.png


2、安装Eclipse插件

(1) 进入ODPS解压缩目录:C:\ODPS_DEMO\InstallMedia,会看到如下jar内容:


odps-eclipse-plugin-bundle-0.16.0.jar


(2) 将插件放置在Eclipse安装目录的plugins子目录下(D:\eclipse\plugins\)。打开Eclipse,点击右上角的打开透视图(Open Perspective),如图:

20200711110728560.png

(3) 点击后出现下面的对话框,如图:

20200711110751114.png

在这里插入图片描述

(4) 选择ODPS,随后点击OK键。同样在右上角会出现ODPS图标,表示插件生效,如图:

20200711110811670.png


3、创建MaxCompute工程

创建 MaxCompute 工程有两种方式。


方式一:


(1) 在左上角选择文件(File) -> 新建(New)->Project->ODPS->ODPS Project,创建工程(示例中使用ODPS作为工程名),如图

20200711110842474.png

(2) 创建MaxCompute工程后会出现如下对话框。输入Project name,

选择MaxCompute客户端路径(C:\ODPS_DEMO\odpscmd_public),点击“Finish”,如图:


20200711110906209.png


方式二:

(1) 直接点击左上角的”新建”,如图:

20200711110925880.png


(2) 弹出对话框后,选择”ODPS Project”,点击”下一步”,如图:

20200711110944835.png


3.3 通过管理控制台使用MaxCompute

大数据计算服务 ( MaxCompute,原名 ODPS )向用户提供了完善的数据导入方案,能够更快速的解决用户海量数据计算问题。MaxCompute 数据源作为数据中枢,提供了对与项目的配置,提供了读取 和 写入MaxCompute 双向通道的能力,支持reader和writer插件。


【说明】每个项目空间系统都将生成一个默认的数据源(odps_first),对应的ODPS项目名称为当前项目空间对应的计算引擎ODPS项目名称(为提供的实验资源中显示的project名称,并非Eclipse中的名称)。


项目管理员创建ODPS数据源,具体步骤如下:


步骤1:打开管理控制台, 在“大数据(数加)”产品列表中,点击“DataWorks”。

20200711111014459.png


创建项目需要管理员权限,沙箱实验环境默认创建完项目。点击对应项目操作栏中的进入数据开发。

20200711111033106.png

步骤2:点击左上角图表,然后点击“数据集成”功能模块。


2020071111105123.png


步骤3:点击新增数据源。

20200711111109343.png

步骤4:在新增数据源弹出框中,选择数据源类型为MaxCompute(ODPS)。

20200711111129476.png

步骤5:配置数据源的各个信息项。

20200711111148722.png

针对ODPS数据源配置项的具体说明如下:


■ 数据源名称:自定义名称,由英文字母、数字、下划线组成且需以字符或下划线开头,长度不超过30个字符。


■ 数据源描述:对数据源的简单描述,不超过80个字。


■ ODPS Endpoint:默认只读。从系统配置中自动读取。


■ ODPS项目名称:对应实验资源中提供的项目名称。


■ AccessID:对应实验资源中提供的AK ID。


■ AccessKey:对应实验资源中提供的AK Secret,与AK ID成对使用。


步骤6:完成上述信息项的配置后,点击测试连通性。

20200711111209361.png



步骤7:测试连通性通过后,点击确定,数据源被新增到列表中


20200711111230220.png


第 4 章:实验总结


4.1 实验总结


本实验重点介绍在Console控制台、Eclipse开发环境下以及阿里云管理控制台上,如何配置和使用MaxCompute,进行相关程序的开发。熟练掌握各种开发环境的使用方法,在日后的学习和实践过程中反复练习,孰能生巧。MaxCompute学习的过程是一个应用与实践的过程,通过发现问题、寻找方法、解决问题,不断提高基于MaxCompute开发技能,定能收获满满!

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
3天前
|
弹性计算 监控 开发工具
【阿里云弹性计算】阿里云ECS的网络优化实践:VPC配置与网络性能提升
【5月更文挑战第29天】阿里云ECS通过虚拟私有云(VPC)提供高性能、安全的网络环境。VPC允许用户自定义IP地址、路由规则和安全组。配置包括:创建VPC和交换机,设定安全组,然后创建ECS实例并绑定。优化网络性能涉及规划网络拓扑、优化路由、启用网络加速功能(如ENI和EIP)及监控网络性能。示例代码展示了使用Python SDK创建VPC和交换机的过程。
27 3
|
4天前
|
弹性计算 运维 Linux
Docker环境如何配置?使用阿里云OOS一步搞定!
阿里云OOS简化了ECS上应用部署,提供Docker一键安装服务。支持多种操作系统,包括Alibaba Cloud Linux、CentOS、Ubuntu、Debian和Windows Server。要安装Docker,用户只需在OOS扩展程序中选择并确认实例,执行安装。OOS扩展程序还支持Java、Python等开发环境及宝塔面板、WordPress等应用的快速配置,提升运维效率,让云资源管理更便捷。
59 1
Docker环境如何配置?使用阿里云OOS一步搞定!
|
6天前
|
存储 分布式计算 DataWorks
【阿里云云原生专栏】云原生下的数据湖建设:阿里云MaxCompute与DataWorks解决方案
【5月更文挑战第26天】在数字化时代,数据成为企业创新的关键。阿里云MaxCompute和DataWorks提供了一种构建高效、可扩展数据湖的解决方案。数据湖允许存储和分析大量多格式数据,具备高灵活性和扩展性。MaxCompute是PB级数据仓库服务,擅长结构化数据处理;DataWorks则是一站式大数据协同平台,支持数据集成、ETL和治理。通过DataWorks收集数据,MaxCompute存储和处理,企业可以实现高效的数据分析和挖掘,从而提升业务洞察和竞争力。
104 0
|
10天前
|
存储 固态存储 安全
租用阿里云服务器2核8G、4核16G、8核32G配置可选实例规格及价格参考
在租用阿里云服务器时,一般通用型实例规格的云服务器处理器与内存配比为1:4,而2核8G、4核16G、8核32G配置就是用户选择较多的配置,这些配置的云服务器一般可用于中小型数据库系统、缓存和各种Web应用,目前在阿里云的活动中经济型e、通用算力型u1、通用型g7、通用型g7a等实例2核8G、4核16G、8核32G配置有优惠,本文为大家介绍这些配置在阿里云目前的活动中可选的实例规格及具体价格和收费标准情况,以供参考。
租用阿里云服务器2核8G、4核16G、8核32G配置可选实例规格及价格参考
|
12天前
|
存储 弹性计算 监控
【阿里云弹性计算】深入阿里云ECS配置选择:CPU、内存与存储的最优搭配策略
【5月更文挑战第20天】阿里云ECS提供多种实例类型满足不同需求,如通用型、计算型、内存型等。选择CPU时,通用应用可选1-2核,计算密集型应用推荐4核以上。内存选择要考虑应用类型,内存密集型至少4GB起。存储方面,系统盘和数据盘容量依据应用和数据量决定,高性能应用可选SSD或高效云盘。结合业务特点和预算制定配置方案,并通过监控应用性能适时调整,确保资源最优利用。示例代码展示了使用阿里云CLI创建ECS实例的过程。
86 5
|
12天前
|
SQL 分布式计算 数据挖掘
阿里云MaxCompute携手华大基因打造精准医疗应用云平台,十万基因组计算成本降低至1000美金以内
华大基因是中国最领先的基因科技公司,华大基因为消除人类病痛、经济危机、国家灾难、濒危动物保护、缩小贫富差距等方面提供分子遗传层面的技术支持。让我们结合maxcompute的技术特点,看看如何助力华大基因。
831 9
|
15天前
|
应用服务中间件 网络安全 nginx
阿里云Ddos高防配置事故分享
阿里云Ddos高防配置事故分享
|
3天前
|
存储 固态存储 安全
阿里云4核CPU云服务器价格参考,最新收费标准和活动价格
阿里云4核CPU云服务器多少钱?阿里云服务器核数是指虚拟出来的CPU处理器的核心数量,准确来讲应该是vCPU。CPU核心数的大小代表了云服务器的运算能力,CPU越高,云服务器的性能越好。阿里云服务器1核CPU就是一个超线程,2核CPU2个超线程,4核CPU4个超线程,这样云服务器可以同时处理多个任务,计算性能更强。如果网站流程较小,少量图片展示的企业网站,建议选择2核及以上CPU;如果网站流量较大,动态页面比较多,有视频等,建议选择4核、8核以上CPU。
阿里云4核CPU云服务器价格参考,最新收费标准和活动价格
|
5天前
|
存储 弹性计算 缓存
阿里云2核CPU云服务器租用收费标准与活动价格参考
阿里云2核CPU云服务器多少钱?阿里云服务器核数是指虚拟出来的CPU处理器的核心数量,准确来讲应该是vCPU。CPU核心数的大小代表了云服务器的运算能力,CPU越高,云服务器的性能越好。阿里云服务器1核CPU就是一个超线程,2核CPU2个超线程,4核CPU4个超线程,这样云服务器可以同时处理多个任务,计算性能更强。如果网站流程较小,少量图片展示的企业网站,建议选择2核及以上CPU;如果网站流量较大,动态页面比较多,有视频等,建议选择4核、8核以上CPU。
阿里云2核CPU云服务器租用收费标准与活动价格参考