本教程通过使⽤数据湖构建(DLF)产品对于淘宝⽤户⾏为样例数据的分析,介绍DLF产品的数据发现和数据探索功能。

背景知识

本场景主要涉及以下云产品和服务:

阿里云对象存储OSS(Object Storage Service)是阿里云提供的海量、安全、低成本、高持久的云存储服务。其数据设计持久性不低于99.9999999999%(12个9),服务可用性(或业务连续性)不低于99.995%。

数据湖构建(Data Lake Formation,DLF)作为云原生数据湖架构核心组成部分,帮助用户快速地构建云原生数据湖架构。数据湖构建提供湖上元数据统一管理、企业级权限控制,并无缝对接多种计算引擎,打破数据孤岛,洞察业务价值。

数据说明

本次测试的数据集来⾃阿⾥云天池⽐赛中使⽤的淘宝⽤户⾏为数据集,数据集中以csv的格式存储了⽤户⾏为及商品样例数据。

user表:

字段

字段说明

提取说明

user_id

用户标识

抽样&字段脱敏(非真实ID)

item_id

商品标识

字段脱敏(非真实ID)

behavior_type

用户对商品的行为类型

包括浏览、收藏、加购物车、购买,对应取值分别是1、2、3、4。

user_geohash

用户位置的空间标识,可以为空

由经纬度通过保密的算法生成

item_category

商品分类标识

字段脱敏 (非真实ID)

time

行为时间

精确到小时级别

item表:

字段

字段说明

提取说明

item_id

商品标识

抽样&字段脱敏(非真实ID)

item_ geohash

商品位置的空间标识,可以为空

由经纬度通过保密的算法生成

item_category

商品分类标识

字段脱敏 (非真实ID)

参考

天池 淘宝⽤户⾏为数据集:https://tianchi.aliyun.com/dataset/dataDetail?dataId=46

Spark SQL ⽇期类型转换:https://spark.apache.org/docs/latest/sql-ref-datetime-pattern.html