大数据公共数据集上线,免费试用TB级数据分析

本文涉及的产品
大数据开发治理平台 DataWorks,不限时长
简介: 本教程基于大数据AI公共数据集(淘宝、飞猪、阿里音乐、Github、TPC等),通过DataWorks与MaxCompute快速完成大数据分析。

一、实验简介

本教程基于大数据AI公共数据集(淘宝、飞猪、阿里音乐、Github、TPC等),快速完成大数据分析。

实验目标:

通过DataWorks+MaxCompute完成离线查询分析

通过Hologres完成外表加速查询分析

免费试用产品:

DataWorks 按量付费

MaxCompute 5000CU时+100GB存储

Hologres 5000CU时+20GB存储

二、环境准备

开通大数据开发治理平台DataWorks

选择上海Region开通DataWorks免费试用

如果无法享受免费试用可以开通DataWorks按量付费

image.png

开通大数据计算引擎MaxCompute

选择上海Region开通MaxCompute免费试用

如果无法享受免费试用可以开通MaxCompute按量付费(可能产生费用)

开通实时数仓Hologres

选择上海Region开通Hologres免费试用

如果无法享受免费试用可以开通Hologres共享集群(湖仓加速版)(可能产生费用)

二、离线大数据查询分析

创建DataWorks工作空间并绑定MaxCompute

前往DataWorks管控台

创建DataWorks工作空间

image.png绑定MaxCompute计算引擎

image.png

前往DataWorks数据分析

https://da-cn-shanghai.data.aliyun.com/#/query

若左侧目录无数据集,请删除或在列表重新添加目录

image.png

阿里电商数据集分析

本数据集来源天池阿里移动推荐算法挑战赛,基于阿里巴巴100万条脱敏的真实商品数据,近12亿条记录,可以基于各类商品、操作、时间等字段,体验阿里云大数据分析能力。

在欢迎页打开默认SQL文件(若无欢迎页,请确认开通region为上海后,关闭所有便签页,从默认页面打开)

image.png

选择分析执行引擎MaxCompute

image.png

点击运行后查看结果

image.png

点击查看默认生成图表

image.png

Github事件数据集分析

大量开发人员在GitHub上进行开源项目的开发工作,并在项目的开发过程中产生海量事件。GitHub会记录每次事件的类型及详情、开发者、代码仓库等信息,并开放其中的公开事件,包括加星标、提交代码等。

打开动态更新-Github事件数据集-查看详情,在数据集详情页打开SQL示例文件

image.png

选择分析执行引擎MaxCompute,运行查看结果

image.png

自定义数据集分析

单击任意表,打开表详情页,查看字段信息

image.png

点击生成SQL语句,并运行,进行数据预览

image.png

新建SQL文件,撰写自定义SQL语句,进行自由分析

基于MaxCompute引擎分析需要在每个文件执行打开MaxCompute三层模型开关

SET odps.namespace.schema=true;---打开MaxCompute三层模型

image.png

四、外表加速查询分析

前往Hologres管控台,新增数据库

image.png

选择购买的示例,输入数据库名称,选择SPM(简单模式)

image.png

Holoweb-元数据管理中,登录数据库

image.png

Holoweb-SQL编辑器中,复制以下SQL,无需将数据导出至Hologres,即可通过外表加速查询能力(Hologres配置越高,查询速度越快)

----本示例可以基于公共数据集统计淘宝活跃下单时间并排序IMPORT FOREIGN SCHEMA "bigdata_public_dataset#commerce"LIMIT to
(commerce_ali_e_commerce)FROM SERVER odps_server INTO public OPTIONS(if_table_exist 'update',if_unsupported_type 'error');---创建Hologres外表SET odps.namespace.schema=true;---打开MaxCompute三层模型SELECT  CASE    WHEN SUBSTR(behavior_time,12)::int>=0AND SUBSTR(behavior_time,12)::int<=3 THEN '0点-3点'                WHEN SUBSTR(behavior_time,12)::int>=4AND SUBSTR(behavior_time,12)::int<=7 THEN '4点-7点'                WHEN SUBSTR(behavior_time,12)::int>=8AND SUBSTR(behavior_time,12)::int<=11 THEN '8点-11点'                WHEN SUBSTR(behavior_time,12)::int>=12AND SUBSTR(behavior_time,12)::int<=15 THEN '12点-15点'                WHEN SUBSTR(behavior_time,12)::int>=16AND SUBSTR(behavior_time,12)::int<=19 THEN '16点-19点'                WHEN SUBSTR(behavior_time,12)::int>=20AND SUBSTR(behavior_time,12)::int<=23 THEN '20点-23点'        END AS 下单时间 
,COUNT(*)AS 订单数---统计订单总数FROM    commerce_ali_e_commerce
GROUPBY 下单时间
ORDERBYCOUNT(*)DESCLIMIT100

image.png


三、后续体验

除了数据分析,DataWorks还包含了数据建模、数据集成、数据开发、数据调度、数据运维、数据地图、数据质量、数据治理、数据安全、数据服务等众多大数据开发治理平台能力,帮助企业快速构建大数据平台,可参考文档《零售电子商务数仓搭建》

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps&nbsp;
相关文章
|
12天前
|
机器学习/深度学习 算法 数据挖掘
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
本文介绍了2023年第二届钉钉杯大学生大数据挑战赛初赛A题的Python代码分析,涉及智能手机用户监测数据分析中的聚类分析和APP使用情况的分类与回归问题。
27 0
2023 年第二届钉钉杯大学生大数据挑战赛初赛 初赛 A:智能手机用户监测数据分析 问题二分类与回归问题Python代码分析
|
3天前
|
人工智能 自然语言处理 搜索推荐
【人工智能】人工智能(AI)、Web 3.0和元宇宙三者联系、应用及未来发展趋势的详细分析
人工智能(AI)、Web 3.0和元宇宙作为当前科技领域的热门话题,它们之间存在着紧密的联系,并在各自领域内展现出广泛的应用和未来的发展趋势。以下是对这三者联系、应用及未来发展趋势的详细分析
11 2
【人工智能】人工智能(AI)、Web 3.0和元宇宙三者联系、应用及未来发展趋势的详细分析
|
12天前
|
存储 数据可视化 数据挖掘
大数据环境下的房地产数据分析与预测研究的设计与实现
本文介绍了一个基于Python大数据环境下的昆明房地产市场分析与预测系统,通过数据采集、清洗、分析、机器学习建模和数据可视化技术,为房地产行业提供决策支持和市场洞察,探讨了模型的可行性、功能需求、数据库设计及实现过程,并展望了未来研究方向。
大数据环境下的房地产数据分析与预测研究的设计与实现
|
2天前
|
存储 边缘计算 人工智能
【边缘计算与AI】分析边缘计算在处理AI任务、优化响应速度和数据隐私保护方面的作用和潜力
边缘计算与AI的结合是当前技术发展的重要趋势,两者相互依存、相互促进,共同推动着数字化转型的深入发展。以下是对边缘计算与AI关系的详细分析
13 6
|
8天前
|
SQL 人工智能 分布式计算
飞天发布时刻:大数据AI平台产品升级发布
阿里云飞天发布时刻产品发布会围绕阿里云大数据AI平台的新能力和新产品进行详细介绍。人工智能平台PAI、云原生大数据计算服务MaxCompute、开源大数据平台E-MapReduce、实时数仓Hologres、阿里云Elasticsearch、向量检索Milvus等产品均带来了相关发布的深度解读。
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
【模型微调】AI Native应用中模型微调概述、应用及案例分析
在AI Native应用中,模型微调是一个关键步骤,它允许开发者使用特定领域的数据对预训练模型进行二次训练过程,从而使其更好地适应特定任务或数据集。模型微调通过调整模型的参数,使模型在特定任务上达到更高的性能。这种技术广泛应用于自然语言处理、图像识别、语音识别等领域
7 1
|
2天前
|
机器学习/深度学习 数据采集 人工智能
【AI在金融科技中的应用】详细介绍人工智能在金融分析、风险管理、智能投顾等方面的最新应用和发展趋势
人工智能(AI)在金融领域的应用日益广泛,对金融分析、风险管理和智能投顾等方面产生了深远影响。以下是这些领域的最新应用和发展趋势的详细介绍
14 1
|
8天前
|
人工智能 分布式计算 大数据
大数据AI产品月刊-2024年7月
大数据& AI 产品技术月刊【2024年7月】,涵盖本月技术速递、产品和功能发布、市场和客户应用实践等内容,帮助您快速了解阿里云大数据& AI 方面最新动态。
|
13天前
|
存储 数据可视化 大数据
基于Python Django的大数据招聘数据分析系统,包括数据大屏和后台管理
本文介绍了一个基于Python Django框架开发的大数据招聘数据分析系统,该系统具备后台管理功能和数据大屏展示,利用大数据技术收集和分析招聘市场趋势,帮助企业和招聘机构提高招聘效率和质量。
|
12天前
|
机器学习/深度学习 算法 数据挖掘
【2023 年第二届钉钉杯大学生大数据挑战赛初赛】 初赛 A:智能手机用户监测数据分析 问题一Python代码分析
本文提供了2023年第二届钉钉杯大学生大数据挑战赛初赛A题"智能手机用户监测数据分析"的Python代码分析,包括数据预处理、特征工程、聚类分析等步骤,以及如何使用不同聚类算法进行用户行为分析。
25 0
【2023 年第二届钉钉杯大学生大数据挑战赛初赛】 初赛 A:智能手机用户监测数据分析 问题一Python代码分析