【实验】阿里云大数据助理工程师认证(ACA)- ACA认证配套实验-02-MaxCompute客户端配置(下)(一)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 【实验】阿里云大数据助理工程师认证(ACA)- ACA认证配套实验-02-MaxCompute客户端配置(下)

一、实验概述


大数据计算服务(MaxCompute,原名 ODPS)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。


本实验实验结合实际数据和案例,深入浅出的演示了如何进行MaxCompute各种客户端的配置。


二、实验目标


本实验讲述如何借助Intellij IDEA开发工具使用 MaxCompute 服务的基础功能。

完成此实验后,可以掌握的能力有:

  1. 安装配置Intellij IDEA;
  2. 安装MaxCompute Studio插件;
  3. 创建MaxCompute项目空间连接;
  4. 使用Intellij IDEA管理数据和资源 (难度大,选做);
  5. 使用Intellij IDEA开发SQL程序(难度大,选做);
  6. 使用Intellij IDEA开发Java程序 (难度大,选做);
  7. 与MaxCompute客户端集成;
  8. 配置MaxCompute Studio;

三、学习建议


1. 掌握Intellij IDEA集成开发工具的使用;
  2. 提前安装 ODPS客户端(下载客户端软件)等;


第 2 章:实验准备


2.1 检查本地系统软件安装配置情况


(1) 下载本实验所用到的介质包:(见实验附件)


将ODPS_DEMO.zip解压至本地目录 C:\ODPS_DEMO,解压密码为:aca21104

(2) 查看本次实验课用到的介质:


dir C:\ODPS_DEMO\InstallMedia


至少应该包含以下文件:


odpscmd_public.zip
  odps-eclipse-plugin-bundle-0.16.0.jar
  odps-sdk-core-0.18.3-public.jar


2020071111145031.png

说明:

a) 为了方便用户使用 MapReduce及UDF的Java SDK进行开发工作,ODPS提供了Eclipse开发插件。


该插件能够模拟MapReduce及UDF的运行过程,为用户提供本地调试手段,并提供了简单的模板生成功能。


b) 与MapReduce提供的本地运行模式不同,Eclipse插件不能够与ODPS同步数据。用户使用的数据需要


手动拷贝到Eclipse插件的warehouse目录下


(3) 检查系统是否安装了Java运行环境(1.6及以上版本):

java -version 

说明:JDK1.8的下载地址如下:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html


(4)检查是否安装了IntellijIDEA,如果没有安装请参看本小节完成安装包的下载。


在官网中(https://www.jetbrains.com/idea/download/#section=windows),Ultimate版本是需要购买的,


建议下载免费的Community版本。点击“Download Community”按钮进行下载,如图:


(5) 使用实验账号,登录阿里云官网,检查账号下的可用资源:


应至少包括 大数据计算 服务;


如无项目,请新建一个项目用于本次实验,本实验中使用项目名称为 aca21104_demo;

检查可用 AccessKeyID 和 AccessKeySecret,并记录一对用于后续实验;


2.2 申请MaxCompute资源


在弹出的左侧栏中,点击 创建资源 按钮,开始创建实验资源。

资源创建过程需要1-3分钟。完成实验资源的创建后,用户可以通过 实验资源 查看实验中所需的资源信息,例如:阿里云账号等


第 3 章:实验内容


在弹出的左侧栏中,点击 创建资源 按钮,开始创建实验资源。

资源创建过程需要1-3分钟。完成实验资源的创建后,用户可以通过 实验资源 查看实验中所需的资源信息,例如:阿里云账号等


3.1 安装配置Intellij IDEA


1、安装配置Intellij IDEA

(1) 找到下载的安装介质 ideaIC-2017.2.1.exe,双击安装,并点击“Next”按钮,如图:

20200711111629651.png

(2) 选择安装位置,并点击“Next”按钮

(3) 设置安装选项,并点击“Next”按钮

(4)采用默认选择启动菜单目录,并点击“Install”按钮

(5)点击“Finish”按钮,完成安装。

(6) 启动Intellij IDEA,进行初始配置,选择“Create New Project”

(7) 设置JDK环境目录,JDK1.8下载安装目录,点击“Next”

20200711111800217.png

(8) 选择“Create project from template”,点击“Next”

20200711111826338.png

(9) 设置项目名称,以及项目存放路径,点击“Finish”,如图

20200711111845316.png


2、安装MaxCompute Studio插件


MaxCompute Studio 对用户环境有以下要求:


· Windows, Mac OS, 或者 Linux 系统客户端


· 安装 IntelliJ IDEA 14.1.4 以上版本 (支持 Ultimate 版本或免费的 Community 版本,PyCharm 也被支持)


· 安装 JRE 1.8 (最新的 IntelliJ IDEA 版本捆绑了 JRE 1.8)


· 安装 JDK 1.8 (可选: 如果需要开发和调试 Java UDF,需要安装 JDK)


方式一:在线安装(推荐)


MaxCompute Studio 是一个 IntelliJ IDEA 的插件,MaxCompute Studio 插件已对全部公网用户开放,用户可以通过 IntelliJ 官方插件库安装,步骤如下:


(1) 在 IntelliJ IDEA 中打开插件配置页面 (Windows/Linux 用户通过菜单 File | Settings | Plugins, Mac 用户通过菜单 IntelliJ IDEA | Preferences | Plugins ),如图:


2020071111191722.png

(2) 点击 Browse repositories… 按钮,然后搜索 MaxCompute Studio。

(3) 找到 MaxCompute Studio 插件页面,点击绿色 Install 按钮进行安装,如图:

20200711111936942.png

(4) 确认安装后,重新启动 IntelliJ IDEA,完成安装。


方式二:本地安装


MaxCompute Studio 也可以通过本地文件进行安装,步骤如下:


(1) 从 MaxCompute Studio 插件页面 下载插件包。(下载地址:https://plugins.jetbrains.com/plugin/9193-maxcompute-studio),如图:

20200711112001810.png

(2) 在 IntelliJ IDEA 中打开插件配置页面 (Windows/Linux 用户通过菜单 File | Settings | Plugins, Mac 用户通过菜单 IntelliJ IDEA | Preferences | Plugins )


(3) 点击按钮 Install plugin from disk…,选择刚才下载的 zip 文件进行安装,如图:

20200711112021228.png


(4) 确认安装后,重新启动 IntelliJ IDEA,完成安装。


3、创建MaxCompute项目空间连接


Studio 的一大核心功能就是浏览 MaxCompute 项目空间(Project)的资源,包括 Table、UDF、Resource 等。


为了能够在 Studio 中访问它们,以及其它很多功能,我们首先需要在新建项目连接。步骤如下:


(1) 项目空间浏览器(Project Explorer) ,可以使用以下任意一种方式:


通过菜单 View | Tool Windows | MaxCompute Project Explorer,如图:

image.png

点击 IntelliJ 窗口左侧下方MaxCompute Project Explorer 工具窗口 (Tool Window) 标签,如图:


(2) 空间连接的用户对话框,可以使用以下任意一种方式:

在空白处点击鼠标右键,在弹出菜单中选择 Add project 菜单强,如图:


20200711112142235.png


点击的 项目空间浏览器(Project Explorer) 工具栏中的添加按钮 +,如图:

20200711112205461.png


(3) 在 Add MaxCompute Project 对话框中,填入相关配置选项,有两种方式添加 MaxCompute 项目空间的连接:


Using Properties File:使用 MaxCompute 配置文件,可直接添加 MaxCompute 客户端中 conf 目录下的odps_config.ini文件,如图:

20200711112235290.png

Using Properties:手工配置连接 MaxCompute Project 的各项属性值(注意:project name请填写实验资源中maxcompute的项目名称),如图:

20200711112256443.png

4) 点击按钮OK完成添加,后台会自动同步这个项目的表和函数元数据到本地。

同步完成后在 项目空间浏览器(Project Explorer) 窗口的树中能看到这个新增的 Project 节点,


如果添加失败会提醒失败原因,需要重新添加。

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
169 1
|
1天前
|
存储 人工智能 数据管理
|
8天前
|
SQL DataWorks 数据可视化
阿里云DataWorks评测:大数据开发治理平台的卓越表现
阿里云DataWorks是一款集数据集成、开发、分析与管理于一体的大数据平台,支持多种数据源无缝整合,提供可视化ETL工具和灵活的任务调度机制。其内置的安全体系和丰富的插件生态,确保了数据处理的高效性和安全性。通过实际测试,DataWorks展现了强大的计算能力和稳定性,适用于中小企业快速搭建稳定高效的BI系统。未来,DataWorks将继续优化功能,降低使用门槛,并推出更多灵活的定价方案,助力企业实现数据价值最大化。
|
8天前
|
分布式计算 大数据 数据处理
技术评测:MaxCompute MaxFrame——阿里云自研分布式计算框架的Python编程接口
随着大数据和人工智能技术的发展,数据处理的需求日益增长。阿里云推出的MaxCompute MaxFrame(简称“MaxFrame”)是一个专为Python开发者设计的分布式计算框架,它不仅支持Python编程接口,还能直接利用MaxCompute的云原生大数据计算资源和服务。本文将通过一系列最佳实践测评,探讨MaxFrame在分布式Pandas处理以及大语言模型数据处理场景中的表现,并分析其在实际工作中的应用潜力。
36 2
|
1月前
|
存储 分布式计算 大数据
【赵渝强老师】阿里云大数据生态圈体系
阿里云大数据计算服务MaxCompute(原ODPS)提供大规模数据存储与计算,支持离线批处理。针对实时计算需求,阿里云推出Flink版。此外,阿里云还提供数据存储服务如OSS、Table Store、RDS和DRDS,以及数据分析平台DataWorks、Quick BI和机器学习平台PAI,构建全面的大数据生态系统。
74 18
|
3天前
|
SQL 存储 分布式计算
阿里云 Paimon + MaxCompute 极速体验
Paimon 和 MaxCompute 的对接经历了长期优化,解决了以往性能不足的问题。通过半年紧密合作,双方团队专门提升了 Paimon 在 MaxCompute 上的读写性能。主要改进包括:采用 Arrow 接口减少数据转换开销,内置 Paimon SDK 提升启动速度,实现原生读写能力,减少中间拷贝与转换,显著降低 CPU 开销与延迟。经过双十一实战验证,Paimon 表的读写速度已接近 MaxCompute 内表,远超传统外表。欢迎体验!
|
1月前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
163 19
|
1月前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
3月前
|
人工智能 分布式计算 DataWorks
连续四年!阿里云领跑中国公有云大数据平台
近日,国际数据公司(IDC)发布《中国大数据平台市场份额,2023:数智融合时代的真正到来》报告——2023年中国大数据平台公有云服务市场规模达72.2亿元人民币,其中阿里巴巴市场份额保持领先,占比达40.2%,连续四年排名第一。
268 12
|
3月前
|
SQL 人工智能 大数据
首个大数据批流融合国家标准正式发布,阿里云为牵头起草单位!
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准 GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。

热门文章

最新文章