Structured_案例_介绍 | 学习笔记

简介: 快速学习 Structured_案例_介绍

开发者学堂课程【大数据Spark2020版(知识精讲与实战演练)第五阶段:Structured_案例_介绍】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/692/detail/12143


Structured_案例_介绍

内容介绍

一. 目标和过程

二. 案例的步骤

三. 总结

 

一.目标和过程

目标:

理解接下来要做的案例,有的放矢

步骤:

1.需求

2.整体结构

3.开发方式

 

二.案例的步骤

1.需求梳理

(1)需求

image.png

先看数据的产生,上方是输入部分,中间部分是时间线,第三部分是结果部分。就要有非常清晰的这三个意识,就知道这三图当中的由上自下。

第一个时间点的时候,收到了两条数据 Hello World 和 Hello Spark ,在第二个时间点当中,收到了两条数据,分别是 Hello Spark 和 Hello Hadoop ,在第三个时间点里面,又收到了两条数据,叫做 Hello Spark 。在第一个时间点里头,统计出来两个 Hello ,一个World 和一个 Spark 。

在第二个时间点里面结果集是 Hello 有 4 个,第二个时间点输入

时只有 2 个 Hello ,第一个时间点里面还有 2 个 Hello 。所以要统计的就不是某一个批次的结果,要统计的是全局的结果。World 只有 1 个,Spark  是 2 个 ,第一个时间点第二个时间点分别 1 个, Hadoop 1个。

在第三个时间点里面所想看到的结果是 Hello 有 5 个,World 1个, Spark 3个, Hadoop 1个。这是整个的需求,还要进行一个词频统计,但是词频统计和原来的区别是要统计全局的结果,这方面会有一点点不同。

(2)整体结构

image.png

首先有一个 Netcat Socket Server 产生数据,交给 Structured Streaming 来进行处理。处理完要把结果展示到控制台里面,这是整个程序执行的过程。

具体过程:

Socket Server 等待 Structured Streaming 程序连接

Structured Streaming 程序启动,连接 Socket Server, 等待 Socket Server 发送数据

Socket Server 发送数据,Structured Streaming 程序接收数据

Structured Streaming 程序接收到数据后处理数据

数据处理后,生成对应的结果集在控制台打印

(3)开发方式和步骤

Socket server 使用 Netcat nc 来实现

Structured Streaming 程序使用 IDEA 实现,在 IDEA 中本地运行

编写代码

启动 nc 发送 Socket 消息

运行代码接收 Socket  消息统计词频

2.代码编写

3.运行

4.结果验证

 

三.总结

简单来说,是要进行流式的词频统计,使用 Structured Streaming 。

相关文章
|
2月前
|
监控 Windows
(1)Mission Planner概述
(1)Mission Planner概述
32 2
|
10月前
|
SQL 消息中间件 存储
Flink SQL 核心概念剖析与编程案例实战
本文使用了 Docker 镜像快速安装一些基础组件,zk 和 kafka,并通过案例的方式,剖析了 SQL 的概念与详细的使用方式
|
分布式计算 监控 算法
流式计算概述|学习笔记
快速学习流式计算概述
174 0
|
消息中间件 分布式计算 Java
|
SQL 存储 自然语言处理
看这篇就够了丨基于Calcite框架的SQL语法扩展探索
Calcite在大数据系统中有着广泛的运用, 比如Apache Flink, Apache Drill等都大量使用了Calcite,理解Calcite的原理可以说已经成为理解大数据系统中SQL访问层实现原理的必备条件之一。 本文就为大家详细介绍如何基于Calcite框架的SQL语法扩展探索使之更符合你的业务需求,以及扩展SQL在数栈产品的应用实践。对该技术感兴趣的同学点进文章阅读哦
1161 0
|
分布式计算 Hadoop 大数据
Structured_案例_运行和总结 | 学习笔记
快速学习 Structured_案例_运行和总结
67 0
Structured_案例_运行和总结 | 学习笔记
|
SQL 分布式计算 大数据
Structured_案例_代码编写 | 学习笔记
快速学习 Structured_案例_代码编写
80 0
Structured_案例_代码编写 | 学习笔记
|
大数据 API 数据处理
Structured_体系结构 | 学习笔记
快速学习 Structured_体系结构
93 0
Structured_体系结构 | 学习笔记
|
SQL 流计算
《A Deep Dive into Flink SQL》电子版地址
06-云邪演讲A Deep Dive into Flink SQL - Jark Wu_compressed
79 0
《A Deep Dive into Flink SQL》电子版地址
|
SQL 分布式计算 监控
SparkSQL 初体验_命令式案例 | 学习笔记
快速学习 SparkSQL 初体验_命令式案例
77 0