冬季实战营第五期学习报告总结:轻松入门学习大数据

简介: 对冬季实战营第五期:轻松入门学习大数据中的3个场景和两次直播带练的体验报告

场景一:基于EMR离线数据分析

本场景通过开通登录EMR Hadoop集群,简单进行hive操作,使用hive对数据进行加载,计算等操作。展示了如何构建弹性低成本的离线大数据分析。

体验过程

1.       创建资源

2.       登陆集群

3.       上传数据到HDFS

4.       使用hive创建表

5.       对表进行操作

体验收获
掌握EMR集群的基本操作,对EMR产品有初步的了解;学习到EMR集群的数据传输和hive的简单操作,对如何进行离线大数据分析有初步的掌握

场景二:使用阿里云Elasticsearch快速搭建智能运维系统

本场景通过创建登录阿里云Elasticsearch集群,使用Beats采集器收集ECS上的系统数据和Nginx服务数据,配置基础的指标分析看板,简单展示数据采集、分析的过程和操作方式。

体验过程

1.       创建资源

2.       登录集群

3.       登录Kibana,开启自动创建索引功能

4.       使用Metricbeat采集ECS上的系统数据

5.       使用Filebeat采集ECS上的Nginx服务数据

体验收获

了解阿里云Elasticsearch集群创建登录的基础操作,学会采集系统数据和Nginx服务数据,并且学会配置指标分析看板,体验数据分析和运维的过程。

场景三:推荐系统入门之使用协同过滤实现商品推荐

体验过程

1.       开通机器学习PAI服务

2.       创建PAI Studio项目

3.       创建实验

4.       查看实验数据

5.       运行实验

6.       查看实验结果

收获

学会了使用机器学习PAI平台搭建一个基于协同过滤算法的商品推荐系统。

直播带练:利用湖仓一体架构快速搭建企业数据中台

基于Delta LakeHudi存储机制的湖仓一体方案

最佳实践背景
公司A使用云上关系型数据库RDS作为自己的业务库,同时使用阿里云EMR系统做日志数据采集。将数据汇集到云上对象存储OSS上,引入了数据湖常会用的存储机制 Delta LakeHudi为数据湖提供流处理、批处理能力。通过MaxCompute查询到实时数据,即时洞察业务数据变化。

1.       RDS数据准备

2.       DLF数据入湖

3.       MaxCompute中查询数据

4.       RDS中新增数据

直播带练:基于Elasticsearch+Fink的日志全观测最佳实践

云上ELK+Flink全观测解决方案能力

1.       Beats获取日志/指标

2.       数据清洗SQL化更简易

3.       云上ES写入托管及超强稳定性

4.       低成本数据存储

5.       日志分析、指标监控、APM能力齐全

6.       开源生态具备强大的可扩展性

 

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
7月前
|
数据采集 分布式计算 大数据
不会Python,还敢说搞大数据?一文带你入门大数据编程的“硬核”真相
不会Python,还敢说搞大数据?一文带你入门大数据编程的“硬核”真相
168 1
|
6月前
|
SQL 分布式计算 大数据
SparkSQL 入门指南:小白也能懂的大数据 SQL 处理神器
在大数据处理的领域,SparkSQL 是一种非常强大的工具,它可以让开发人员以 SQL 的方式处理和查询大规模数据集。SparkSQL 集成了 SQL 查询引擎和 Spark 的分布式计算引擎,使得我们可以在分布式环境下执行 SQL 查询,并能利用 Spark 的强大计算能力进行数据分析。
|
8月前
|
数据采集 搜索推荐 算法
Java 大视界 -- Java 大数据在智能教育学习社区用户互动分析与社区活跃度提升中的应用(274)
本文系统阐述 Java 大数据技术在智能教育学习社区中的深度应用,涵盖数据采集架构、核心分析算法、活跃度提升策略及前沿技术探索,为教育数字化转型提供完整技术解决方案。
|
10月前
|
数据采集 数据可视化 大数据
Python入门修炼:开启你在大数据世界的第一个脚本
Python入门修炼:开启你在大数据世界的第一个脚本
203 6
|
数据采集 数据可视化 大数据
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
这篇文章介绍了如何使用Python中的matplotlib和numpy库来创建箱线图,以检测和处理数据集中的异常值。
421 1
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
|
存储 SQL 分布式计算
大数据学习
【10月更文挑战第15天】
352 1
|
分布式计算 大数据 Linux
大数据体系知识学习(二):WordCount案例实现及错误总结
这篇文章介绍了如何使用PySpark进行WordCount操作,包括环境配置、代码实现、运行结果和遇到的错误。作者在运行过程中遇到了Py4JJavaError和JAVA_HOME未设置的问题,并通过导入findspark初始化和设置环境变量解决了这些问题。文章还讨论了groupByKey和reduceByKey的区别。
265 1
|
5月前
|
机器学习/深度学习 传感器 分布式计算
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
数据才是真救命的:聊聊如何用大数据提升灾难预警的精准度
401 14
|
6月前
|
机器学习/深度学习 运维 监控
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
运维不怕事多,就怕没数据——用大数据喂饱你的运维策略
370 0