阿里云大数据ACP专业认证实验之05-MaxCompute内置函数(上)(一)

本文涉及的产品
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 阿里云大数据ACP专业认证实验之05-MaxCompute内置函数(上)(一)

一、实验背景介绍


大数据计算服务(MaxCompute,原名 ODPS)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入大数据计算服务(MaxCompute,原名 ODPS)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。本实验结合实际数据和案例,深入浅出的演示了如何使用MaxCompute的内置函数。


完成此实验后,可以掌握的内置函数有:


  1. 数值类函数;
  2. 字符串类函数;
  3. 日期类函数; 


二、实验环境架构


实验环境架构:阿里云大数据计算服务MaxCompute


第 1 章:实验准备


1.1 申请MaxCompute资源


请点击页面左侧的 ,在左侧栏中,查看本次实验资源信息。 maxcompute申请MaxCompute资源 MAXCOMPUTE 在弹出的左侧栏中,点击 创建资源 按钮,开始创建实验资源。 资源创建过程需要1-3分钟。完成实验资源的创建后,用户可以通过 实验资源 查看实验中所需的资源信息,例如:阿里云账号等。


1.2 开通服务


(本实验用到odps客户端,创建资源之前确保本地安装了java8或者以上版本) Java下载地址:https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html 1)点击【实验资源】,查看本次实验资源信息(MaxCompute资源)。 2)在弹出的左侧栏中,点击 【创建资源】按钮,开始创建实验资源。 如下图:


注意:实验环境一旦开始创建则进入计时阶段,建议学员先基本了解实验具体的步骤、目的,真正开始做实验时再进行创建。 3)创建资源,如下图:(创建资源需要几分钟时间,请耐心等候……) 4)资源创建成功后,可通过【实验资源】查看实验中所需的实验资源信息。如下图:


注意:在本地保存下阿里云账号信息,包括资源中的项目名称、企业别名、子用户名称、子用户密码、AK ID、AK Secret等信息。 沙箱实验环境说明:


企业别名:即主账号ID;


子用户名称和子用户密码:登录实验环境的账号;


AK ID和AK Secret:系统为当前用户分配的登录验证密钥信息,配置odps客户端时需要;


控制台url:登录实验开发环境的地址; 5)点击页面左侧的【控制台url】,复制链接,在新的窗口打开,跳转到登录页。


2020070607580628.png


6)在登录页,输入【实验资源】中提供的账号,格式为:子用户名称@企业别名,再点击【下一步】。 7)输入【实验资源】中提供的的“子用户密码”,点击【登录】 8)登陆后,进入【管理控制台】界面, 点击左侧菜单栏 【大数据(数加)】,再点击【DataWorks】,进入数据开发概览页。


20200706075851535.png


1.3 创建项目


沙箱环境已经默认创建完项目,点击【进入数据开发】即可。


20200706075918757.png


20200706075942485.png

本小节以下步骤供使用个人账号实验参考。

开通MaxCompute后,点击【管理控制台】


20200706080007834.png


选中MaxCompute服务,选择【按量付费】,然后点击【下一步】

2020070608002780.png


填写项目相关信息:输入“项目名称”(全局唯一)、“显示名”以及“项目描述” 信息,然后点击【创建项目】。

20200706080049855.png


项目创建成功后,点击【进入数据开发】:】

2020070608011486.png

打开【数据开发】页


20200706080133965.png


1.4 安装配置odpscmd客户端


步骤1:客户端下载 (本实验已经提供好客户端,自行下载附件)


步骤2:解压odpscmd_public.zip 到本地目录,密码:aca21104 如:解压至E:\ODPS_DEMO


步骤3:查看本次实验课用到的介质,可以看到如下的文件夹:


20200706080216247.png


步骤4:在conf文件夹中有odps_config.ini文件。鼠标右键编辑此文件,配置相关信息:


2020070608023768.png

说明:
project_name=<对应实验资源中的项目名称>
access_id=<对应实验资源中的AK ID>
access_key=<对应实验资源中的AK Secret>
end_point=http://service.odps.aliyun.com/api(默认)
tunnel_endpoint=http://dt.odps.aliyun.com (默认)
log_view_host=http://logview.odps.aliyun.com(默认)    
https_check=true  (默认)


20200706080320964.png


步骤5:修改好配置文件后,鼠标双击运行bin目录下的odpscmd(在Linux系统下是./bin/odpscmd,Windows下运行./bin/odpscmd.bat),现在可以运行 MaxCompute 命令,如:

20200706080342383.png

注意:项目可以随时根据情况切换,上图表示环境设置成功.


1.5 测试表dual准备


在【临时查询】页面,点击【新建】,然后点击【QDPS SQL】

20200706080417666.png

输入“节点名称”,选择“目标文件夹”,然后点击【提交】。

20200706080436733.png


面,进行脚本开发,创建实验测试表dual,点击【运行】。

SQL语句:

CREATE TABLE dual (


id BIGINT


)

LIFECYCLE 10000;

然后查看运行日志日志显示测试表创建成功。


20200706080455850.png


20200706080511363.png

往测试表里插入一条数据,输入SQL语句,点击【运行】。

insert into table dual select count(1) from dual;


20200706080532890.png

查看测试表数据内容,输入SQL语句,点击【运行】。:

select * from dual limit 10;

20200706080553837.png


1.6 测试表t_dml准备


进入脚本编辑页面,进行脚本开发,创建实验测试表t_dml,点击【运行】

create table t_dml (
detail_id bigint,
sale_date datetime,
province string,
city string,
product_id bigint,
cnt bigint,
amt double
);

然后查看运行日志显示测试表创建成功。

20200706080625275.png

打开odpscmd客户端交互界面

20200706080643257.png

执行命令,加载数据 t_dml.csv,(注意修改数据文件存放路径):

tunnel upload f:\data\t_dml.csv t_dml;

20200706080727561.png

查看数据表数据:输入sql语句,点击【运行】,查看结果。

select * from t_dml limit 10;

20200706080750598.png

1.7 测试表t_product准备


进入脚本编辑页面,进行脚本开发,创建实验测试表t_product,点击【运行】。

create table t_product
(product_id bigint, product_name string, category_id bigint, category_name string, price double);

然后查看运行日志显示测试表创建成功。

2020070608082425.png

打开odpscmd客户端交互界面

20200706080856630.png


加载数据 t_product.csv,注意文件路径:

tunnel upload f:\data\t_product.csv t_product;

20200706080924108.png


查看数据表数据,输入sql,点击【运行】。

select * from t_product limit 10;

20200706080946336.png


1.8 测试表t_sign准备


进入脚本编辑页面,进行脚本开发,创建实验测试表t_sign,点击【运行】。

create table t_sign (id bigint, name string, height double, is_female boolean, birth_day datetime);

测试表创建成功

20200706081015174.png

进入odpscmd客户端交互界面 执行命令,加载数据 t_sign.csv:

tunnel upload f:\data\t_sign.csv t_sign;

20200706081044416.png


查看数据表数据,输入sql, 点击【运行】

select * from t_sign limit 10;

20200706081104825.png

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
目录
相关文章
|
17天前
|
分布式计算 DataWorks 大数据
阿里云ODPS的个人收获思考
在接触阿里云ODPS过程中,我深入了解了MaxCompute和DataWorks等产品。MaxCompute强大的数据处理能力显著提升了我的工作效率,而DataWorks的一站式开发与治理平台简化了数据流程管理。通过实践,我不仅掌握了高效的SQL编写与数据挖掘技巧,还提升了团队协作意识与大数据思维,为未来挑战打下了坚实基础。
|
29天前
|
资源调度 安全 Java
Java 大数据在智能教育在线实验室设备管理与实验资源优化配置中的应用实践
本文探讨Java大数据技术在智能教育在线实验室设备管理与资源优化中的应用。通过统一接入异构设备、构建四层实时处理管道及安全防护双体系,显著提升设备利用率与实验效率。某“双一流”高校实践显示,设备利用率从41%升至89%,等待时间缩短78%。该方案降低管理成本,为教育数字化转型提供技术支持。
64 0
|
3月前
|
数据采集 机器学习/深度学习 人工智能
面向 MoE 和推理模型时代:阿里云大数据 AI 产品升级发布
2025 AI 势能大会上,阿里云大数据 AI 平台持续创新,贴合 MoE 架构、Reasoning Model 、 Agentic RAG、MCP 等新趋势,带来计算范式变革。多款大数据及 AI 产品重磅升级,助力企业客户高效地构建 AI 模型并落地 AI 应用。
|
7天前
|
人工智能 分布式计算 DataWorks
多模态数据处理新趋势:阿里云ODPS技术栈深度解析与未来展望
阿里云ODPS技术栈通过MaxCompute、Object Table与MaxFrame等核心组件,实现了多模态数据的高效处理与智能分析。该架构支持结构化与非结构化数据的统一管理,并深度融合AI能力,显著降低了分布式计算门槛,推动企业数字化转型。未来,其在智慧城市、数字医疗、智能制造等领域具有广泛应用前景。
62 6
多模态数据处理新趋势:阿里云ODPS技术栈深度解析与未来展望
|
3天前
|
存储 机器学习/深度学习 人工智能
阿里云ODPS:在AI浪潮之巅,铸就下一代智能数据根基
在智能爆炸时代,ODPS正从传统数据平台进化为“AI操作系统”。面对千亿参数模型与实时决策挑战,ODPS通过流批一体架构、多模态处理、智能资源调度等技术创新,大幅提升效率与智能化水平。从自动驾驶到医疗联合建模,从数字孪生到低代码AI开发,ODPS正重塑企业数据生产力,助力全球客户在算力洪流中抢占先机。
23 1
|
24天前
|
存储 缓存 分布式计算
OSS大数据分析集成:MaxCompute直读OSS外部表优化查询性能(减少数据迁移的ETL成本)
MaxCompute直读OSS外部表优化方案,解决传统ETL架构中数据同步延迟高、传输成本大、维护复杂等问题。通过存储格式优化(ORC/Parquet)、分区剪枝、谓词下推与元数据缓存等技术,显著提升查询性能并降低成本。结合冷热数据分层与并发控制策略,实现高效数据分析。
|
2天前
|
数据采集 人工智能 大数据
10倍处理效率提升!阿里云大数据AI平台发布智能驾驶数据预处理解决方案
阿里云大数据AI平台推出智能驾驶数据预处理解决方案,助力车企构建高效稳定的数据处理流程。相比自建方案,数据包处理效率提升10倍以上,推理任务提速超1倍,产能翻番,显著提高自动驾驶模型产出效率。该方案已服务80%以上中国车企,支持多模态数据处理与百万级任务调度,全面赋能智驾技术落地。
|
1月前
|
人工智能 分布式计算 大数据
构建AI时代的大数据基础设施-MaxCompute多模态数据处理最佳实践
本文介绍了大数据与AI一体化架构的演进及其实现方法,重点探讨了Data+AI开发全生命周期的关键步骤。文章分析了大模型开发中的典型挑战,如数据管理混乱、开发效率低下和运维管理困难,并提出了解决方案。同时,详细描述了MaxCompute在构建AI时代数据基础设施中的作用,包括其强大的计算能力、调度能力和易用性特点。此外,还展示了MaxCompute在多模态数据处理中的应用实践以及具体客户案例,最后提供了体验MaxFrame解决方案的方式。
191 2

热门文章

最新文章