大数据公共数据集上线,免费试用TB级数据分析

本文涉及的产品
大数据开发治理平台DataWorks,资源组抵扣包 750CU*H
简介: 本教程基于大数据AI公共数据集(淘宝、飞猪、阿里音乐、Github、TPC等),通过DataWorks与MaxCompute快速完成大数据分析。

一、实验简介

本教程基于大数据AI公共数据集(淘宝、飞猪、阿里音乐、Github、TPC等),快速完成大数据分析。

实验目标:

通过DataWorks+MaxCompute完成离线查询分析

通过Hologres完成外表加速查询分析

免费试用产品:

DataWorks 按量付费

MaxCompute 5000CU时+100GB存储

Hologres 5000CU时+20GB存储

二、环境准备

开通大数据开发治理平台DataWorks

选择上海Region开通DataWorks免费试用

如果无法享受免费试用可以开通DataWorks按量付费

image.png

开通大数据计算引擎MaxCompute

选择上海Region开通MaxCompute免费试用

如果无法享受免费试用可以开通MaxCompute按量付费(可能产生费用)

开通实时数仓Hologres

选择上海Region开通Hologres免费试用

如果无法享受免费试用可以开通Hologres共享集群(湖仓加速版)(可能产生费用)

二、离线大数据查询分析

创建DataWorks工作空间并绑定MaxCompute

前往DataWorks管控台

创建DataWorks工作空间

image.png绑定MaxCompute计算引擎

image.png

前往DataWorks数据分析

https://da-cn-shanghai.data.aliyun.com/#/query

若左侧目录无数据集,请删除或在列表重新添加目录

image.png

阿里电商数据集分析

本数据集来源天池阿里移动推荐算法挑战赛,基于阿里巴巴100万条脱敏的真实商品数据,近12亿条记录,可以基于各类商品、操作、时间等字段,体验阿里云大数据分析能力。

在欢迎页打开默认SQL文件(若无欢迎页,请确认开通region为上海后,关闭所有便签页,从默认页面打开)

image.png

选择分析执行引擎MaxCompute

image.png

点击运行后查看结果

image.png

点击查看默认生成图表

image.png

Github事件数据集分析

大量开发人员在GitHub上进行开源项目的开发工作,并在项目的开发过程中产生海量事件。GitHub会记录每次事件的类型及详情、开发者、代码仓库等信息,并开放其中的公开事件,包括加星标、提交代码等。

打开动态更新-Github事件数据集-查看详情,在数据集详情页打开SQL示例文件

image.png

选择分析执行引擎MaxCompute,运行查看结果

image.png

自定义数据集分析

单击任意表,打开表详情页,查看字段信息

image.png

点击生成SQL语句,并运行,进行数据预览

image.png

新建SQL文件,撰写自定义SQL语句,进行自由分析

基于MaxCompute引擎分析需要在每个文件执行打开MaxCompute三层模型开关

SET odps.namespace.schema=true;---打开MaxCompute三层模型

image.png

四、外表加速查询分析

前往Hologres管控台,新增数据库

image.png

选择购买的示例,输入数据库名称,选择SPM(简单模式)

image.png

Holoweb-元数据管理中,登录数据库

image.png

Holoweb-SQL编辑器中,复制以下SQL,无需将数据导出至Hologres,即可通过外表加速查询能力(Hologres配置越高,查询速度越快)

----本示例可以基于公共数据集统计淘宝活跃下单时间并排序IMPORT FOREIGN SCHEMA "bigdata_public_dataset#commerce"LIMIT to
(commerce_ali_e_commerce)FROM SERVER odps_server INTO public OPTIONS(if_table_exist 'update',if_unsupported_type 'error');---创建Hologres外表SET odps.namespace.schema=true;---打开MaxCompute三层模型SELECT  CASE    WHEN SUBSTR(behavior_time,12)::int>=0AND SUBSTR(behavior_time,12)::int<=3 THEN '0点-3点'                WHEN SUBSTR(behavior_time,12)::int>=4AND SUBSTR(behavior_time,12)::int<=7 THEN '4点-7点'                WHEN SUBSTR(behavior_time,12)::int>=8AND SUBSTR(behavior_time,12)::int<=11 THEN '8点-11点'                WHEN SUBSTR(behavior_time,12)::int>=12AND SUBSTR(behavior_time,12)::int<=15 THEN '12点-15点'                WHEN SUBSTR(behavior_time,12)::int>=16AND SUBSTR(behavior_time,12)::int<=19 THEN '16点-19点'                WHEN SUBSTR(behavior_time,12)::int>=20AND SUBSTR(behavior_time,12)::int<=23 THEN '20点-23点'        END AS 下单时间 
,COUNT(*)AS 订单数---统计订单总数FROM    commerce_ali_e_commerce
GROUPBY 下单时间
ORDERBYCOUNT(*)DESCLIMIT100

image.png


三、后续体验

除了数据分析,DataWorks还包含了数据建模、数据集成、数据开发、数据调度、数据运维、数据地图、数据质量、数据治理、数据安全、数据服务等众多大数据开发治理平台能力,帮助企业快速构建大数据平台,可参考文档《零售电子商务数仓搭建》

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
1月前
|
存储 人工智能 Java
AI 超级智能体全栈项目阶段四:学术分析 AI 项目 RAG 落地指南:基于 Spring AI 的本地与阿里云知识库实践
本文介绍RAG(检索增强生成)技术,结合Spring AI与本地及云知识库实现学术分析AI应用,利用阿里云Qwen-Plus模型提升回答准确性与可信度。
838 90
AI 超级智能体全栈项目阶段四:学术分析 AI 项目 RAG 落地指南:基于 Spring AI 的本地与阿里云知识库实践
|
1月前
|
数据可视化 大数据 关系型数据库
基于python大数据技术的医疗数据分析与研究
在数字化时代,医疗数据呈爆炸式增长,涵盖患者信息、检查指标、生活方式等。大数据技术助力疾病预测、资源优化与智慧医疗发展,结合Python、MySQL与B/S架构,推动医疗系统高效实现。
|
1月前
|
存储 人工智能 安全
拔俗AI临床大数据科研分析平台:让医学研究更智能、更高效
阿里云原生AI临床大数据科研平台,打通异构医疗数据壁垒,实现智能治理、可视化分析与多中心安全协作,助力医院科研提速增效,推动精准医疗发展。
|
1月前
|
人工智能 Cloud Native 算法
拔俗云原生 AI 临床大数据平台:赋能医学科研的开发者实践
AI临床大数据科研平台依托阿里云、腾讯云,打通医疗数据孤岛,提供从数据治理到模型落地的全链路支持。通过联邦学习、弹性算力与安全合规技术,实现跨机构协作与高效训练,助力开发者提升科研效率,推动医学AI创新落地。(238字)
|
1月前
|
机器学习/深度学习 人工智能 监控
拔俗AI智能营运分析助手软件系统:企业决策的"数据军师",让经营从"拍脑袋"变"精准导航"
AI智能营运分析助手打破数据孤岛,实时整合ERP、CRM等系统数据,自动生成报表、智能预警与可视化决策建议,助力企业从“经验驱动”迈向“数据驱动”,提升决策效率,降低运营成本,精准把握市场先机。(238字)
|
1月前
|
传感器 人工智能 监控
拔俗多模态跨尺度大数据AI分析平台:让复杂数据“开口说话”的智能引擎
在数字化时代,多模态跨尺度大数据AI分析平台应运而生,打破数据孤岛,融合图像、文本、视频等多源信息,贯通微观与宏观尺度,实现智能诊断、预测与决策,广泛应用于医疗、制造、金融等领域,推动AI从“看懂”到“会思考”的跃迁。
|
1月前
|
存储 机器学习/深度学习 人工智能
拔俗AI智能营运分析助手:用数据驱动企业高效决策
AI智能营运分析助手融合云原生架构、机器学习与自动化数据管道,打通多源数据集成、实时计算、智能预测与可视化分析全链路,将海量数据转化为精准决策洞察。支持对话式查询、客户分层、库存预测、异常预警等场景,助力企业降本增效。已广泛应用于零售、制造、电商等领域,推动营运智能化升级。(238字)
|
1月前
|
机器学习/深度学习 人工智能 算法
拔俗AI智能营运分析助手:用技术破解企业“数据焦虑”
AI智能营运分析助手破解企业“数据多却难洞察”难题,通过自动化集成、定制化模型、可视化输出,助力中小企业实现低门槛数据驱动决策,提升营运效率与精准度。
下一篇
oss云网关配置