【实验】阿里云大数据助理工程师认证(ACA)- ACA认证配套实验-01-MaxCompute DML操作(上)

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 【实验】阿里云大数据助理工程师认证(ACA)- ACA认证配套实验-01-MaxCompute DML操作(上)

一、实验概述


大数据计算服务(MaxCompute,原名 ODPS)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。


MaxCompute 只能以表的形式存储数据,并对外提供了 SQL 查询功能。用户可以将 MaxCompute 作为传统的数据库软件操作,但其却能处理TB、PB级别的海量数据。需要注意的是,MaxCompute SQL 不支持事务、索引及 Update/Delete 等操作,同时 MaxCompute 的 SQL 语法与 Oracle,MySQL 有一定差别,用户无法将其他数据库中的 SQL 语句无缝迁移到 MaxCompute 上来。此外,在使用方式上,MaxCompute SQL 最快可以在分钟,乃至秒级别完成查询,无法在毫秒级别返回用户结果。MaxCompute SQL 的优点是对用户的学习成本低,用户不需要了解复杂的分布式计算概念。具备数据库操作经验的用户可以快速熟悉 MaxCompute SQL 的使用。


本实验通过实际操作了解有关MaxCompute SQL的相关命令,熟悉MaxCompute SQL ,目前MaxCompute SQL的主要功能包括如下:

        1.支持各类运算符
        2.通过DDL语句对表、分区以及视图进行管理。
        3.通过Select语句查询表中的记录,通过Where字句过滤表中的记录。
        4.通过Insert语句插入数据、更新数据。
        5.通过等值连接Join操作,支持两张表的关联。支持多张小表的mapjoin。
        6.支持通过内置函数和自定义函数来进行计算。
        7.支持正则表达式。

二、实验目标


MaxCompute SQL 采用的是类似于 SQL 的语法,可以看作是标准 SQL 的子集,但不能因此简单的把 MaxCompute 等价成一个数据库,它在很多方面并不具备数据库的特征,如事务、主键约束、索引等。本实验的目标是了解MaxCompute SQL 的DML语句(DML:Data Manipulation Language 数据操作语言),包括:SELECT查询、INSERT数据更新、多路输出、表关联JOIN、MAP JOIN、分支条件判断。


完成此实验后,可以掌握的能力有:

  1. 如何从MaxCompute中提取数据;
  2. 如何更新MaxCompute数据;
  3. 掌握通过多路输出,提升数据处理能力、处理速度;
  4. MaxCompute如何进行多表关联;
  5. MaxCompute中表关联的MAP JOIN处理方式;
  6. MaxCompute中表的分支判断处理;

本实验通过控制台Data IDE和客户端两种方式进行实验,学习不同的MaxCompute SQL操作,掌握MaxCompute SQL的编写注意事项。


三、学习建议

  1. 掌握MaxCompute的基本概念和术语: 表以及表的DDL操作、项目空间、表的分区等;
  2. 熟悉常见的数据类型、MaxCompute支持的数据类型;
  3.提前安装 ODPS客户端(下载客户端软件)
 (客户端下载地址:https://help.aliyun.com/document_detail/27971.html?spm=5176.doc27834.6.730.xbOX5mS)

第 2 章:背景知识


2.1 背景知识

MaxCompute 主要服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。随着社会数据收集手段的不断丰富及完善,越来越多的行业数据被积累下来。数据规模已经增长到了传统软件行业无法承载的海量数据(百 GB、TB 乃至 PB)级别。阿里的数加平台Data IDE是一个集成可视化开发环境,构建在阿里云云计算基础设施之上,使用Data IDE能够流畅对接ODPS等计算引擎,可实现数据开发、调度、部署、运维、及数仓设计、数据质量管理等功能;通过Data IDE操作MaxCompute简单方便。


开放实验室是阿里云官方实验平台(https://edu.aliyun.com/lab/),提供真实的阿里云环境、系统的学习进程及课程教材。用户可通过平台自动创建的阿里云资源, 包含自动分配阿里云账号、自动创建的阿里云产品、服务资源和实验指导,深度体验和学习阿里云产品和服务。


2.2 实验操作思路


本实验即通过云中沙箱使用Data IDE和odps客户端学习MaxCompute的操作命令。

首先通过Data IDE 开通实验环境,通过系统分配的项目信息获取AK ID 以及 AK Secret 秘钥对,配置客户端,通过客户端创建实验所需的表和上传实验数据(当然也可以通过Data IDE操作)。


第 3 章:实验环境


3.1 申请MaxCompute资源

弹出的左侧栏中,点击 创建资源 按钮,开始创建实验资源。

资源创建过程需要1-3分钟。完成实验资源的创建后,用户可以通过 实验资源 查看实验中所需的资源信息,例如:阿里云账号等。


3.2 资源环境准备


友情提示:实验环境一旦开始创建即进入计时阶段,建议学员先了解(学习)实验具体的步骤、目的,真正动手开始做实验时,再进行创建资源,资源一旦创建则中间无法暂停,直至时间消耗完毕。

2.1 资源环境

1)请点击页面左侧的实验资源,在左侧栏中,查看本次实验资源信息。


2)点击“实验资源”,查看所需具体资源,如图案例:


20200711095947459.png


3)在弹出的左侧栏中,点击 创建资源 按钮,开始创建实验资源。


注意:实验环境一旦开始创建则进入计时阶段,中间无法暂停,时间消耗完毕,则预示着您本次将无法再


4)创建资源,如图案例:(创建资源需要几分钟时间,请耐心等候……)

20200711100334807.png


资源创建成功,如图案例:(注意资源中的项目名称、子用户名称、子用户密码、AK ID、AK Secret信息)


这些信息说明参考如图:

20200711100359314.png


企业别名:即主账号ID(不同的实验企业别名可能不同);子用户名称和子用户密码,登录实验环境 时需要;AK ID和AK Secret是系统为本用户分配的登录验证密钥信息;控制台url即为登录实验环境的地址;


3.3 进入实验环境


如果通过实验环境进行实验在创建资源后,


3.1 、登录控制台(实验环境)


1)登录云中沙箱,在实验目录中查询所需实验,点击进入实验,查看实验所需资源,创建资源成功后,点击实验提供的“控制台url”


(一般建议在另外的浏览器中打开)(具体参考上步实验提供的实验信息,下图为示例参考)

20200711100919852.png

注意:此实验界面为使用者提供了进入实验的用户名称,如 u-gbecl0av 以及登录密码,请先记录下来,密码需要鼠标点击直接拷贝下来,以及使用其他工具的 AK ID 以及 AK Secret 秘钥对 ,项目名称等信息。将AK ID 和 AK Secret配置在安装的客户端的配置文件中。


2)输入用户名,案例如图:(说明:@前为子用户名称,假设为“u-bcofvgpr”,@后为企业别名)

3)点击下一步,输入密码:(刚才实验环境创建时所提供)

4)进入控制台界面,点击 “大数据(数加)”

20200711100957358.png


5) 进入大数据开发控制台,点击”DataWorks”

6) 进入工作区界面,点击“进入数据开发”(某些版本为“进入工作区”)


20200711101052706.png

20200711101118155.png


7)进入工作环境(首次进入显示每个菜单的帮助信息)


2020071110114630.png


8) 点击“跳过”或逐个菜单看看,最终显示

20200711101211228.png

9)点击“临时查询”设置实验临时文件

20200711101433684.png


10)设置文件名称、类型(选择ODPS SQL)、描述信息(建议非必须)、文件保存目录信息,点击“提交”进入SQL操作环境

2020071110145839.png


3.2 、配置客户端


1)如果为提前安装客户端,请参考下面网址进行安装:


https://help.aliyun.com/document_detail/27971.html?spm=5176.doc27834.6.730.xbOX5m


20200711101526918.png


2)下载客户端案例如图:

2020071110154957.png

3)解压安装后如图:

20200711101611336.png

4)配置客户端文件,在XXX(个人目录)\odpscmd_public\conf\,打开文件 odps_config.ini,修改配置信息;即将上述实验资源中提供的AK ID 以及 AK Secret 和项目名称分别填写在上述配置文件中,其他信息不变,如图

20200711101630754.png

5) 检查测试即通过命令行,进入\ODPS_DEMO\odpscmd_public\bin\,执行 odpscmd,进入交互界面,确认安装是否配置成功。案例如图: (注意操作客户端时,操作命令如果未在自己的环境变量中进行配置需要进入到命令所在的bin目录,操作的文件需要写全文件的目录)

20200711101708764.png

在bin目录下,输入"odpscmd"回车,执行后进入如下界面:(测试案例项目为bigdata_train)

2020071110173169.png

6) 通过创建一个数据表测试:


------输入语句创建表dual ,回车 (注意dual 表后面的实验还会使用,请务必先创建)


create table dual (X string);
------数据表中插入一条记录并检查
insert into table dual select count(*) from dual;

20200711101820616.png

检查插入结果
select * from dual;

20200711101853754.png

3.3 采用个人账户操作实验


此方式用户需要使用实名认证过的阿里云官网账号登陆阿里云管理控制台,首先开通MaxCompute服务。


(具体开通MaxCompute参照https://help.aliyun.com/document_detail/58226.html?spm=a2c4g.11174283.3.2.qBUiZe


① 打开浏览器,输入阿里云官网地址 www.aliyun.com:

② 使用自己的阿里云官网账号登陆控制台(示例如图):


20200711101924680.png

③ 在控制台左侧导航栏里点击大数据(数加),点击DataWorks,进入工作区登陆页

20200711101944914.png

20200711102002909.png

选择实验项目(示例为IDE),点击进入工作区进入如下界面

20200711102023753.png

注】如果大数据(数加)下没有项目,可以点击控制台中的创建项目,填写相关信息,点击确认即可;如下页面:

20200711102048774.png

填写项目相关的数据信息:(示意图)


20200711102153659.png

选择付费方式(根据自己的实际情况),输入自己的项目名称、显示名以及项目描述 ,然后点击确定,创建项目。创建完成进入实验项目工作台。


第 4 章:建表准备数据


4.1 构建实验表

1、 创建实验表: 找到下载文件中的\ODPS_DEMO\resources\03-SQL\dml_crt.sql,执行如下命令(或从附件中直接下载),执行如下命令:


(提示说明:如果下面的命令无法执行,建议将文件、命令路径写全,否则将odpscmd执行命令配置在自己机器的环境变量中) 也可以按绝对路径操作,如图:(odpscmd –f D:\f\ODPS_DEMO\resources\03-SQL\dml_crt.sql –具体实验请调整为自己的目录)


2020071110230984.png


2、执行完毕,检查表是否存在:[输入:show tables;]

20200711102327972.png


检查表t_dml(一般表),t_dml_p(分区表)是否成功创建,后面实验还会应用 。


4.2 加载数据


下载实验附件数据文件t_dml.csv,执行命令如下:(如果出现汉字乱码现象,请注意字符集是否正确)


(说明:执行语句建议将自己的命令和文件路径写全,除非你已经将命令配置在环境变量中,在下载的文件目录下执行此命令,另外为避免乱码,建议输入以下命令 tunnel upload 数据文件目录:\t_dml.csv t_dml)


即:tunnel upload XXXXX:\XX\t_dml.csv t_dml ;

tunnel upload D:\f\ODPS_DEMO\Resources\03-SQL\t_dml.csv t_dml; 

20200711102422320.png

第 5 章:简单查询


5.1 一般查询


1) 检查表中“浙江省”相关的数据信息 :select * from t_dml where province=‘浙江省’;

(说明:如果出现核查的数据中文出现乱码的现象,建议上传数据时限制字符集合为 -c GBK )

执行效果如图:

20200711102523930.png

2)核查销售时间大于或等于某日期的数据信息: select city, amt from t_dml where sale_date >=‘2015-05-23 00:00:00’;

执行效果如图:

20200711102549276.png

3)检查总量大于某量的城市信息:select distinct city from t_dml where amt > 700;


20200711102611634.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
91 1
|
15天前
|
人工智能 Cloud Native 数据管理
媒体声音|重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
在2024云栖大会上,阿里云瑶池数据库发布了首个一站式多模数据管理平台DMS:OneMeta+OneOps。该平台由Data+AI驱动,兼容40余种数据源,实现跨云数据库、数据仓库、数据湖的统一数据治理,帮助用户高效提取和分析元数据,提升业务决策效率10倍。DMS已服务超10万企业客户,降低数据管理成本高达90%。
|
17天前
|
分布式计算 Java 开发工具
阿里云MaxCompute-XGBoost on Spark 极限梯度提升算法的分布式训练与模型持久化oss的实现与代码浅析
本文介绍了XGBoost在MaxCompute+OSS架构下模型持久化遇到的问题及其解决方案。首先简要介绍了XGBoost的特点和应用场景,随后详细描述了客户在将XGBoost on Spark任务从HDFS迁移到OSS时遇到的异常情况。通过分析异常堆栈和源代码,发现使用的`nativeBooster.saveModel`方法不支持OSS路径,而使用`write.overwrite().save`方法则能成功保存模型。最后提供了完整的Scala代码示例、Maven配置和提交命令,帮助用户顺利迁移模型存储路径。
|
2月前
|
人工智能 分布式计算 DataWorks
连续四年!阿里云领跑中国公有云大数据平台
近日,国际数据公司(IDC)发布《中国大数据平台市场份额,2023:数智融合时代的真正到来》报告——2023年中国大数据平台公有云服务市场规模达72.2亿元人民币,其中阿里巴巴市场份额保持领先,占比达40.2%,连续四年排名第一。
204 12
|
2月前
|
人工智能 Cloud Native 数据管理
重磅升级,阿里云发布首个“Data+AI”驱动的一站式多模数据平台
阿里云发布首个AI多模数据管理平台DMS,助力业务决策提效10倍
326 17
|
2月前
|
SQL 人工智能 大数据
阿里云牵头起草!首个大数据批流融合国家标准发布
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
86 7
|
2月前
|
SQL 人工智能 大数据
首个大数据批流融合国家标准正式发布,阿里云为牵头起草单位!
近日,国家市场监督管理总局、国家标准化管理委员会正式发布大数据领域首个批流融合国家标准 GB/T 44216-2024《信息技术 大数据 批流融合计算技术要求》,该标准由阿里云牵头起草,并将于2025年2月1日起正式实施。
|
2月前
|
存储 SQL 分布式计算
Java连接阿里云MaxCompute例
要使用Java连接阿里云MaxCompute数据库,首先需在项目中添加MaxCompute JDBC驱动依赖,推荐通过Maven管理。避免在代码中直接写入AccessKey,应使用环境变量或配置文件安全存储。示例代码展示了如何注册驱动、建立连接及执行SQL查询。建议使用RAM用户提升安全性,并根据需要配置时区和公网访问权限。具体步骤和注意事项请参考阿里云官方文档。
|
2月前
|
机器学习/深度学习 数据可视化 大数据
阿里云大数据的应用示例
阿里云大数据应用平台为企业提供高效数据处理与业务洞察工具,涵盖Quick BI、DataV及PAI等核心产品。DT203课程通过实践教学,帮助学员掌握数据可视化、报表设计及机器学习分析技能,提升数据驱动决策能力。Quick BI简化复杂数据分析,DataV打造震撼可视化大屏,PAI支持全面的数据挖掘与算法应用。课程面向CSP、ISV及数据工程师等专业人士,为期两天,结合面授与实验,助力企业加速数字化转型。完成课程后,学员将熟练使用阿里云工具进行数据处理与分析。[了解更多](https://edu.aliyun.com/training/DT203)
|
3月前
|
机器学习/深度学习 分布式计算 BI
MaxCompute 与阿里云其他服务的协同工作
【8月更文第31天】在当今的数据驱动时代,企业需要处理和分析海量数据以获得有价值的洞察。阿里云提供了一系列的服务来满足不同层次的需求,从数据存储到高级分析。MaxCompute(原名 ODPS)作为阿里云的大规模数据处理平台,提供了强大的计算能力和丰富的功能,可以与阿里云的其他服务无缝集成,形成完整的大数据解决方案。本文将探讨 MaxCompute 如何与其他阿里云服务协同工作,包括存储服务 OSS、数据分析服务 Quick BI 以及机器学习平台 PAI。
52 1