Structured_案例_介绍 | 学习笔记

简介: 快速学习 Structured_案例_介绍

开发者学堂课程【大数据Spark2020版(知识精讲与实战演练)第五阶段:Structured_案例_介绍】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/692/detail/12143


Structured_案例_介绍

内容介绍

一. 目标和过程

二. 案例的步骤

三. 总结

 

一.目标和过程

目标:

理解接下来要做的案例,有的放矢

步骤:

1.需求

2.整体结构

3.开发方式

 

二.案例的步骤

1.需求梳理

(1)需求

image.png

先看数据的产生,上方是输入部分,中间部分是时间线,第三部分是结果部分。就要有非常清晰的这三个意识,就知道这三图当中的由上自下。

第一个时间点的时候,收到了两条数据 Hello World 和 Hello Spark ,在第二个时间点当中,收到了两条数据,分别是 Hello Spark 和 Hello Hadoop ,在第三个时间点里面,又收到了两条数据,叫做 Hello Spark 。在第一个时间点里头,统计出来两个 Hello ,一个World 和一个 Spark 。

在第二个时间点里面结果集是 Hello 有 4 个,第二个时间点输入

时只有 2 个 Hello ,第一个时间点里面还有 2 个 Hello 。所以要统计的就不是某一个批次的结果,要统计的是全局的结果。World 只有 1 个,Spark  是 2 个 ,第一个时间点第二个时间点分别 1 个, Hadoop 1个。

在第三个时间点里面所想看到的结果是 Hello 有 5 个,World 1个, Spark 3个, Hadoop 1个。这是整个的需求,还要进行一个词频统计,但是词频统计和原来的区别是要统计全局的结果,这方面会有一点点不同。

(2)整体结构

image.png

首先有一个 Netcat Socket Server 产生数据,交给 Structured Streaming 来进行处理。处理完要把结果展示到控制台里面,这是整个程序执行的过程。

具体过程:

Socket Server 等待 Structured Streaming 程序连接

Structured Streaming 程序启动,连接 Socket Server, 等待 Socket Server 发送数据

Socket Server 发送数据,Structured Streaming 程序接收数据

Structured Streaming 程序接收到数据后处理数据

数据处理后,生成对应的结果集在控制台打印

(3)开发方式和步骤

Socket server 使用 Netcat nc 来实现

Structured Streaming 程序使用 IDEA 实现,在 IDEA 中本地运行

编写代码

启动 nc 发送 Socket 消息

运行代码接收 Socket  消息统计词频

2.代码编写

3.运行

4.结果验证

 

三.总结

简单来说,是要进行流式的词频统计,使用 Structured Streaming 。

相关文章
|
5月前
|
机器学习/深度学习 算法 数据挖掘
数据分析入门系列教程-K-Means实战
数据分析入门系列教程-K-Means实战
|
5月前
|
SQL 数据挖掘 HIVE
【Hive SQL 每日一题】在线课程学生行为数据分析
该数据分析师任务是分析在线学习平台的学生行为,以优化课程内容和学习体验。提供的数据包括`students`表(含学生ID、姓名、年龄和性别)和`course_activity`表(含活动ID、学生ID、课程ID、活动日期和学习时长)。分析涉及:1) 学生参加的课程数量,2) 课程总学习时长,3) 按性别分组的平均学习时长,4) 学生首次参加的课程及日期,5) 学生最近一次学习的时长,以及6) 参与学生最多的课程。所有查询都使用了SQL,部分涉及窗口函数和分组统计。数据集可在给定链接下载。
|
5月前
|
SQL Cloud Native 架构师
深入浅出Presto:大数据查询引擎的原理与应用
【4月更文挑战第7天】Presto是高性能的分布式SQL查询引擎,专为大规模数据交互式分析设计。它采用分离式架构,内存计算和动态规划优化查询,支持跨源查询、交互式查询和ANSI SQL兼容性。应用于大数据分析、实时数据湖查询和云原生部署。Presto的灵活性和效率使其在大数据处理领域备受推崇,适合分析师、数据科学家和IT架构师使用。未来将在博客中分享更多实践和案例。
755 1
|
5月前
|
存储 Prometheus Cloud Native
「译文」Prometheus 查询语言 PromQL 简介
「译文」Prometheus 查询语言 PromQL 简介
|
5月前
|
存储 算法 数据可视化
数据分析入门系列教程-K-Means原理
数据分析入门系列教程-K-Means原理
|
消息中间件 分布式计算 Java
|
数据采集 存储 SQL
ETL基础知识,看完这一篇应该够了!
ETL基础知识,看完这一篇应该够了!
1104 1
|
分布式计算 Hadoop 大数据
Structured_案例_运行和总结 | 学习笔记
快速学习 Structured_案例_运行和总结
Structured_案例_运行和总结 | 学习笔记
|
SQL 分布式计算 大数据
Structured_案例_代码编写 | 学习笔记
快速学习 Structured_案例_代码编写
Structured_案例_代码编写 | 学习笔记
|
大数据 API 数据处理
Structured_体系结构 | 学习笔记
快速学习 Structured_体系结构
138 0
Structured_体系结构 | 学习笔记