冬季实战营第五期:轻松入门学习大数据-学习报告

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: 学习报告

第一课 动手实战-基于EMR离线数据分析
1、登录E-MapReduce集群
image.png
image.png
image.png
2、上传数据到HDFS
image.png
3、使用hive创建表
image.png
4、对表进行操作,按照步骤没有出来正确结果
image.png

第二课 动手实战-使用阿里云Elasticsearch快速搭建智能运维系统
1、登录集群
image.png
2、登录Kibana,开启自动创建索引功能
image.png
image.png
image.png
image.png
3、使用Metricbeat采集ECS上的系统数据
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
4、使用Filebeat采集ECS上的Nginx服务数据
image.png
image.png
image.png
image.png
image.png

第三课 动手实战-推荐系统入门之使用协同过滤实现商品推荐
1、在阿里云上开通机器学习PAI服务
2、创建PAI Studio项目
image.png
3、创建算法推荐
image.png
4、查看实验数据
image.png
5、运行实验
image.png
6、查看实验结果
image.png

第四课 利用湖仓一体架构快速搭建企业数据中台

未使用湖仓一体架构时存在如下问题:
1、安排专人专项负责训练数据从湖到仓的同步,工作量巨大
2、训练数据体量大,导致耗时多,无法满足实时训练的要求
3、新写SQL数据处理Query,无法复用Hive SQL原有Query

异构数据平台融合——湖仓一体2.0提升如下:
1、更快的业务洞察
2、更广泛的生态对接
3、更高的性能
4、更好的综合数据开发与治理

最佳实践:
使用阿里云关系数据库RDS作为业务库,同时使用EMR系统做日志数据采集,将数据汇集到云上存储对象OSS上,引入数据湖常用的存储极致Delta Lake和Hudi为数据湖提供流处理、批处理能力。通过MaxCompute查询实时数据,即时洞察业务数据变化。老师手把手演示了整个环境如何来操作。

第五课 基于Elasticsearch+Fink的日志全观测最佳实践

1、老师对日志、代理、存储及Fink都做出了初步的介绍,有了了解;
2、阿里云基于在日志全观测方面的优势;
3、针对好未来和米哈游的实际案例介绍。

最后希望课程回放快快上线我再回去好好学习下。通过以上五节课程对大数据分析有了初步认知,学习的路上任重而道远

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
2月前
|
SQL 分布式计算 大数据
SparkSQL 入门指南:小白也能懂的大数据 SQL 处理神器
在大数据处理的领域,SparkSQL 是一种非常强大的工具,它可以让开发人员以 SQL 的方式处理和查询大规模数据集。SparkSQL 集成了 SQL 查询引擎和 Spark 的分布式计算引擎,使得我们可以在分布式环境下执行 SQL 查询,并能利用 Spark 的强大计算能力进行数据分析。
|
3月前
|
数据采集 分布式计算 大数据
不会Python,还敢说搞大数据?一文带你入门大数据编程的“硬核”真相
不会Python,还敢说搞大数据?一文带你入门大数据编程的“硬核”真相
109 1
|
4月前
|
数据采集 搜索推荐 算法
Java 大视界 -- Java 大数据在智能教育学习社区用户互动分析与社区活跃度提升中的应用(274)
本文系统阐述 Java 大数据技术在智能教育学习社区中的深度应用,涵盖数据采集架构、核心分析算法、活跃度提升策略及前沿技术探索,为教育数字化转型提供完整技术解决方案。
|
6月前
|
数据采集 数据可视化 大数据
Python入门修炼:开启你在大数据世界的第一个脚本
Python入门修炼:开启你在大数据世界的第一个脚本
145 6
|
数据采集 数据可视化 大数据
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
这篇文章介绍了如何使用Python中的matplotlib和numpy库来创建箱线图,以检测和处理数据集中的异常值。
330 1
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
|
12月前
|
存储 SQL 分布式计算
大数据学习
【10月更文挑战第15天】
302 1
|
分布式计算 大数据 Linux
大数据体系知识学习(二):WordCount案例实现及错误总结
这篇文章介绍了如何使用PySpark进行WordCount操作,包括环境配置、代码实现、运行结果和遇到的错误。作者在运行过程中遇到了Py4JJavaError和JAVA_HOME未设置的问题,并通过导入findspark初始化和设置环境变量解决了这些问题。文章还讨论了groupByKey和reduceByKey的区别。
202 1
|
29天前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
108 14
|
2月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
98 0
|
3月前
|
数据采集 分布式计算 DataWorks
ODPS在某公共数据项目上的实践
本项目基于公共数据定义及ODPS与DataWorks技术,构建一体化智能化数据平台,涵盖数据目录、归集、治理、共享与开放六大目标。通过十大子系统实现全流程管理,强化数据安全与流通,提升业务效率与决策能力,助力数字化改革。
110 4

热门文章

最新文章