学习报告——冬季实战营第五期:轻松入门学习大数据

本文涉及的产品
检索分析服务 Elasticsearch 版,2核4GB开发者规格 1个月
阿里云百炼推荐规格 ADB PostgreSQL,4核16GB 100GB 1个月
实时计算 Flink 版,5000CU*H 3个月
简介: 训练营日期:2022年2月28日 - 2022年3月6日

前言

本次实战营活动地址,点击直达——《上云第一课 云起冬季实战营》

不知不觉,来到最后一期了。上一期学习了容器相关的知识,本期要学习的是大数据相关的内容。先是学习了如何基于EMR集群进行离线数据分析,然后学习了Elasticsearch,学习如何利用Elasticsearch快速搭建智能运维系统。第三天学习了如何使用PAI基于协同过滤算法实现商品推荐。在最后的两次直播中,分别学习了如何利用湖仓一体架构快速搭建企业数据中台以及如何基于Elasticsearch+Flink进行日志全观测的实践。


2月28日 动手实战-基于EMR离线数据分析

本实验免费提供EMR集群,基于EMR集群进行离线数据分析。

官方场景体验页面

体验感受

通过本次实验,我学会了以下内容:

  • 什么是EMR——E-MapReduce云原生开源大数据平台
  • 登录EMR集群终端
  • 将自建数据上传到HDFS
  • 使用hive创建数据表
  • 从hadoop文件系统加载数据到hive数据表
  • 使用hive对数据表进行查询

这个实验让我对EMR产品有了一个初步的了解。EMR提供了高性能、稳定版本的开源大数据组件,可以根据场景灵活搭配使用。而且进行了多引擎性能优化,保证数据可靠的同时,大幅提升了性能。在实际的使用中,阿里云控制台可以方便地对集群、节点以及服务进行监控和运维的操作。阿里云的很多产品都具备对资源进行弹性调整的能力,EMR集群也不例外,用户可以灵活调整集群资源,而且因为集群资源有自动按需匹配、按实际使用量付费的设计,在资源灵活调整的同时,也会减少用户因资源浪费而造成的额外开销。


3月1日 动手实战-使用阿里云Elasticsearch快速搭建智能运维系统

通过创建登录阿里云Elasticsearch集群,使用Beats采集器收集ECS上的系统数据和Nginx服务数据,配置基础的指标分析看板,简单展示数据采集、分析的过程和操作方式。

官方场景体验页面

体验感受

通过本次实验,我学会了以下内容:

  • 阿里云Elasticsearch集群创建登录的基础操作
  • 使用Kibana为阿里云ES实例开启自动创建索引功能
  • 使用Metricbeat采集ECS上的系统数据
  • 使用Filebeat采集ECS上的Nginx服务数据

这个实验创建资源的过程可以说是相当漫长了。这是我第一次接触Elasticsearch相关的知识。通过查阅官方介绍了解到,阿里云Elasticsearch兼容开源ELK功能,提供免运维全托管服务的弹性云搜索与分析引擎,致力于数据库加速、数据分析、信息检索、智能运维监控等场景服务。独有的云原生高性能内核、达摩院NLP分词、向量检索、智能运维、免费X-Pack高级商业特性等能力,可以全面提升企业应用效率,降低成本。它的优势主要体现在六个方面:快速数据接入、弹性低成本、海量数据存储、自研高性能内核、集群智能运维以及开源生态兼容。就我本次的实际使用体验来说,无论是Kibana还是Metricbeat,界面都特别友好,创建索引和采集数据的操作过程也都很好上手。Kibana的UI配色给人一种很高端的感觉,我很喜欢。


3月2日 动手实战-推荐系统入门之使用协同过滤实现商品推荐

本场将介绍如何使用PAI基于协同过滤算法实现商品推荐。

官方场景体验页面

体验感受

通过本次实验,我学会了以下内容:

  • 开通机器学习PAI服务
  • 创建PAI Studio项目
  • 创建实验
  • 查看实验数据
  • 运行实验
  • 查看实验结果

首先,在做这个实验之前,有必要了解一下什么是协同过滤。协同过滤算法是一种基于关联规则的算法。以购物行为为例,如果用户甲和用户乙都购买了商品A和商品B,则可以假定用户甲和用户乙的购物品味相似。当用户甲购买了商品C,而用户乙未购买时,可以将商品C推荐给用户乙,这就是经典的User-Based,即以User的特性为关联。也就是说以其他特性作为关联规则,也可以得到不同的关联结果,挖掘出看似毫不相关的两个或者多个对象之间暗含的联系。PAI Studio的可视化做得很棒,它便捷的可视化功能使我想起了一个名字叫作Scratch的编程学习软件,同样是拖拽各种模块,就能构成一个复杂的程序。还有让普通人也可以轻松使用机器学习处理数据的开源软件Orange。这一类软件共有的特点就是流程直观,以及允许用户低代码甚至无代码构建整个过程,并且对新人特别友好。要什么功能就拿什么,执行顺序直接用箭头连接就可以,这样真的大大降低了操作难度,使得用户更加专注在步骤的正确性和结论的分析上,省去了很多调试代码修正BUG的时间。


3月3日 19:00 直播带练

利用湖仓一体架构快速搭建企业数据中台。

官方直播页面

体验感受

通过观看本次直播,我学习了以下内容:

  • 什么是数据中台
  • 为什么要构建数据中台
  • 湖仓一体架构要解决的问题是什么
  • Delta Late和hudi是什么
  • 如何基于Delta Lake或hudi存储机制实现湖仓一体

根据直播中老师的介绍,在湖仓一体架构出现之前,目前越来越多的企业因为内部不同的业务属性,技术人员自身的技术体系,采用了不同的技术架构和数据平台,比如有的部门基于Hadoop生态系统搭建自的数据平台,有的则用了云原生的系统,这种烟囱式的发展造成了数据割裂。数据中台的出现就是为了打破数据割裂的局面。湖仓一体架构的作用是,打通现有的数据平台,再逐渐整合统一元数据、权限、数据治理等更多的需求。湖仓一体架构发布以来,已经在一定程度上解决了企业中异构数据平台如何共存的问题,使基于不同的平台构建统一的数据中台成为可能。如今,如何通过实时变化的数据及时得到业务反馈成为越来越多企业关注的重点。

本次的实践分为五步:

  1. 在RDS准备数据源
  2. DLF全托管数据入湖,使用Delta Lake或hudi的格式将数据归档到OSS上
  3. 在MaxCompute中查询数据
  4. 向RDS中新增数据,在MaxCompute中校验数据
  5. 在RDS中更新数据,在MaxCompute中校验数据

看过了老师的演示,主要收获还是在这个湖仓一体架构的设计思维上。阿里云的产品,配置步骤自然不用多说,简单好用。主要是企业有整合数据的需要,还要面对架构上的困扰。安排专人专项负责数据同步会产生巨大的工作量;训练数据体量大会因耗时多而无法满足实时训练的要求;新写的SQL数据处理query无法复用Hive SQL原有的query,也造成了额外的工作量。感觉湖仓一体架构就是顺应需求顺应时代而产生的。


3月4日 19:00 直播带练

冬季实战营第五期:轻松入门学习大数据,第五日直播带练——

《基于Elasticsearch+Flink的日志全观测最佳实践》

讲师/嘉宾简介:

钱雨欣(沐泽)——阿里云高级产品经理

黄睿(晟柏)——阿里云产品经理

官方直播页面

体验感受

通过观看本次直播,我学习了以下内容:

  • 什么是全观测
  • 传统运维存在哪些问题
  • 全观测场景的技术难点和对应的解决方案
  • 时序日志场景的痛点
  • 全链路日志分析与监控ELK技术难点
  • 全观测解决方案的构成
  • 什么是实时计算Flink版
  • 阿里云Elasticsearch日志增强特性

通过直播中两位老师的讲解,我了解到,传统运维下,容易形成数据孤岛,数据分散在不同部门,分析排查故障特别困难;多个厂商用到了多种工具,无法进行自动化统一分析;故障是立体的,日志、指标等都只能看到一方面的可观察性;只进行收集,没有真正深入分析,不能发挥大数据的价值。而全观测是对传统运维的改进,将日志、指标、APM数据汇总在一个平台,让运维、开发、业务人员对所有的数据从统一视角进行观察分析,建立统一的可视化视图、对齐时间、过滤条件;建立统一的基于规则的监控和告警;建立统一的机器学习的智能监控和告警。而云上ELK+Flink全观测解决方案提供了解决全观测场景面临的痛点的能力——使用Beats获取日志以及指标;使用实时计算Flink提供完整的流式SQL能力;云上ES写入托管;低成本数据存储;日志分析、指标监控、APM能力齐全;开源生态具备强大的可扩展性。两位老师最后举了两个企业案例来展示日志全观测的实际应用,看过之后,感觉本次内容和前一天的内容都有一个共同的特点——整合汇总。湖仓一体是对数据平台的打通,日志全观测则是对日志、指标、APM数据的汇总。它们都为企业的工作带来了极大的便捷。


总结

最后一期也过得很快。这期学习了大数据的相关知识,先是学习了基于EMR进行离线数据分析,接着学习了如何使用阿里云Elasticsearch搭建智能运维系统。第三天学习了如何使用协同过滤实现商品推荐,使用到了阿里云的PAI Studio,体验了便捷的可视化功能。最后的两场直播里,学习了如何基于Delta Lake或hudi存储机制实现湖仓一体以及基于Elasticsearch+Flink的日志全观测的有关内容。这期内容安排得十分饱满,最后一天更像是对全观测场景的一个系统学习。本期的实验场景大都比较复杂,相比前几期来说,本期的知识更加贴近企业中实际的生产环境,直播中更是给出了几个现实中的企业案例以供参考。通过本期的学习,我对大数据的一些知识也有了系统的了解,收获颇丰。

到这里,云起冬季实战营的五期内容就全部结束了。这几十天的学习历程,极大地拓宽了我的知识面,让我有了很大收获。期待下一次这样的活动。完结撒花!

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
22天前
|
分布式计算 大数据 Java
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
大数据-87 Spark 集群 案例学习 Spark Scala 案例 手写计算圆周率、计算共同好友
34 5
|
22天前
|
分布式计算 关系型数据库 MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
大数据-88 Spark 集群 案例学习 Spark Scala 案例 SuperWordCount 计算结果数据写入MySQL
43 3
|
22天前
|
存储 分布式计算 算法
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
大数据-106 Spark Graph X 计算学习 案例:1图的基本计算、2连通图算法、3寻找相同的用户
46 0
|
18天前
|
数据采集 数据可视化 大数据
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
这篇文章介绍了如何使用Python中的matplotlib和numpy库来创建箱线图,以检测和处理数据集中的异常值。
27 1
大数据体系知识学习(三):数据清洗_箱线图的概念以及代码实现
|
8天前
|
存储 SQL 分布式计算
大数据学习
【10月更文挑战第15天】
15 1
|
18天前
|
分布式计算 大数据 Linux
大数据体系知识学习(二):WordCount案例实现及错误总结
这篇文章介绍了如何使用PySpark进行WordCount操作,包括环境配置、代码实现、运行结果和遇到的错误。作者在运行过程中遇到了Py4JJavaError和JAVA_HOME未设置的问题,并通过导入findspark初始化和设置环境变量解决了这些问题。文章还讨论了groupByKey和reduceByKey的区别。
13 1
|
18天前
|
分布式计算 Hadoop 大数据
大数据体系知识学习(一):PySpark和Hadoop环境的搭建与测试
这篇文章是关于大数据体系知识学习的,主要介绍了Apache Spark的基本概念、特点、组件,以及如何安装配置Java、PySpark和Hadoop环境。文章还提供了详细的安装步骤和测试代码,帮助读者搭建和测试大数据环境。
34 1
|
21天前
|
存储 机器学习/深度学习 分布式计算
大数据技术——解锁数据的力量,引领未来趋势
【10月更文挑战第5天】大数据技术——解锁数据的力量,引领未来趋势
|
1天前
|
存储 安全 大数据
大数据隐私保护:用户数据的安全之道
【10月更文挑战第31天】在大数据时代,数据的价值日益凸显,但用户隐私保护问题也愈发严峻。本文探讨了大数据隐私保护的重要性、面临的挑战及有效解决方案,旨在为企业和社会提供用户数据安全的指导。通过加强透明度、采用加密技术、实施数据最小化原则、加强访问控制、采用隐私保护技术和提升用户意识,共同推动大数据隐私保护的发展。
|
5天前
|
SQL 存储 大数据
大数据中数据提取
【10月更文挑战第19天】
13 2