本教程通过使⽤数据湖构建(DLF)产品对于淘宝⽤户⾏为样例数据的分析,介绍DLF产品的数据发现和数据探索功能。
背景知识
本场景主要涉及以下云产品和服务:
阿里云对象存储OSS(Object Storage Service)是阿里云提供的海量、安全、低成本、高持久的云存储服务。其数据设计持久性不低于99.9999999999%(12个9),服务可用性(或业务连续性)不低于99.995%。
数据湖构建(Data Lake Formation,DLF)作为云原生数据湖架构核心组成部分,帮助用户快速地构建云原生数据湖架构。数据湖构建提供湖上元数据统一管理、企业级权限控制,并无缝对接多种计算引擎,打破数据孤岛,洞察业务价值。
数据说明
本次测试的数据集来⾃阿⾥云天池⽐赛中使⽤的淘宝⽤户⾏为数据集,数据集中以csv的格式存储了⽤户⾏为及商品样例数据。
user表:
item表:
参考
天池 淘宝⽤户⾏为数据集:https://tianchi.aliyun.com/dataset/dataDetail?dataId=46
Spark SQL ⽇期类型转换:https://spark.apache.org/docs/latest/sql-ref-datetime-pattern.html