第一课 动手实战-基于EMR离线数据分析
1、登录E-MapReduce集群
2、上传数据到HDFS
3、使用hive创建表
4、对表进行操作,按照步骤没有出来正确结果
第二课 动手实战-使用阿里云Elasticsearch快速搭建智能运维系统
1、登录集群
2、登录Kibana,开启自动创建索引功能
3、使用Metricbeat采集ECS上的系统数据
4、使用Filebeat采集ECS上的Nginx服务数据
第三课 动手实战-推荐系统入门之使用协同过滤实现商品推荐
1、在阿里云上开通机器学习PAI服务
2、创建PAI Studio项目
3、创建算法推荐
4、查看实验数据
5、运行实验
6、查看实验结果
第四课 利用湖仓一体架构快速搭建企业数据中台
未使用湖仓一体架构时存在如下问题:
1、安排专人专项负责训练数据从湖到仓的同步,工作量巨大
2、训练数据体量大,导致耗时多,无法满足实时训练的要求
3、新写SQL数据处理Query,无法复用Hive SQL原有Query
异构数据平台融合——湖仓一体2.0提升如下:
1、更快的业务洞察
2、更广泛的生态对接
3、更高的性能
4、更好的综合数据开发与治理
最佳实践:
使用阿里云关系数据库RDS作为业务库,同时使用EMR系统做日志数据采集,将数据汇集到云上存储对象OSS上,引入数据湖常用的存储极致Delta Lake和Hudi为数据湖提供流处理、批处理能力。通过MaxCompute查询实时数据,即时洞察业务数据变化。老师手把手演示了整个环境如何来操作。
第五课 基于Elasticsearch+Fink的日志全观测最佳实践
1、老师对日志、代理、存储及Fink都做出了初步的介绍,有了了解;
2、阿里云基于在日志全观测方面的优势;
3、针对好未来和米哈游的实际案例介绍。
最后希望课程回放快快上线我再回去好好学习下。通过以上五节课程对大数据分析有了初步认知,学习的路上任重而道远