企业数据湖构建之旅
随着互联网的发展,数据的规模和类型都呈现一个爆炸性的增长,对于这么多类型的数据,如何进行有效的管理和存储,包括数据的分析,这是大家要面临的一个问题。在武汉云栖大会上,阿里云高级产品专家吴华剑做了名为“企业数据创新之旅-构建自己的数据湖”的精彩演讲。
多引擎集成挖掘湖上数据价值
在 EMR 集群创建阶段已经自动安装了数据构建服务的相关SDK,同时EMR上的开源计算引擎 Spark、Hive 和 Presto 都完成了对数据湖构建服务的兼容支持,所以用户通过 EMR 引擎可获得数据湖分析的最佳体验。
金融科技数据湖构建和管理之道
上海数禾信息科技有限公司是一家拥有小贷牌照和融资担保牌照的金融科技公司(下称“数禾科技”),公司的核心产品是“还呗”。本文要分享的主题是数禾科技如何在云上构建和管理数据湖。
数据湖构建DLF数据探索快速入门-淘宝用户行为分析
本教程通过使⽤数据湖构建(DLF)产品对于淘宝⽤户⾏为样例数据的分析,介绍DLF产品的数据发现和数据探索功能。教程内容包括:1. 服务开通:开通阿⾥云账号及DLF/OSS相关服务2. 样例数据集下载和导⼊:下载样例数据(csv⽂件),并上传⾄OSS3. DLF数据发现:使⽤DLF⾃动识别⽂件Schema并创建元数据表4. DLF数据探索:使⽤DLF数据探索,对⽤户⾏为进⾏分析,包括⽤户活跃度、漏⽃模型等
数据湖构建—如何构建湖上统一的数据权限
阿里云数据湖构建产品(DLF)提供的统一元数据服务,通过完善各种引擎/表格式生态解决了数据湖场景下多引擎面临的数据孤岛和元数据一致性问题,实现了开源大数据引擎及数据湖格式元数据的统一视图,避免了各引擎访问湖上数据其中额外的ETL成本并降低了业务处理链路的延时。