Structured_案例_介绍 | 学习笔记

简介: 快速学习 Structured_案例_介绍

开发者学堂课程【大数据Spark2020版(知识精讲与实战演练)第五阶段:Structured_案例_介绍】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/692/detail/12143


Structured_案例_介绍

内容介绍

一. 目标和过程

二. 案例的步骤

三. 总结

 

一.目标和过程

目标:

理解接下来要做的案例,有的放矢

步骤:

1.需求

2.整体结构

3.开发方式

 

二.案例的步骤

1.需求梳理

(1)需求

image.png

先看数据的产生,上方是输入部分,中间部分是时间线,第三部分是结果部分。就要有非常清晰的这三个意识,就知道这三图当中的由上自下。

第一个时间点的时候,收到了两条数据 Hello World 和 Hello Spark ,在第二个时间点当中,收到了两条数据,分别是 Hello Spark 和 Hello Hadoop ,在第三个时间点里面,又收到了两条数据,叫做 Hello Spark 。在第一个时间点里头,统计出来两个 Hello ,一个World 和一个 Spark 。

在第二个时间点里面结果集是 Hello 有 4 个,第二个时间点输入

时只有 2 个 Hello ,第一个时间点里面还有 2 个 Hello 。所以要统计的就不是某一个批次的结果,要统计的是全局的结果。World 只有 1 个,Spark  是 2 个 ,第一个时间点第二个时间点分别 1 个, Hadoop 1个。

在第三个时间点里面所想看到的结果是 Hello 有 5 个,World 1个, Spark 3个, Hadoop 1个。这是整个的需求,还要进行一个词频统计,但是词频统计和原来的区别是要统计全局的结果,这方面会有一点点不同。

(2)整体结构

image.png

首先有一个 Netcat Socket Server 产生数据,交给 Structured Streaming 来进行处理。处理完要把结果展示到控制台里面,这是整个程序执行的过程。

具体过程:

Socket Server 等待 Structured Streaming 程序连接

Structured Streaming 程序启动,连接 Socket Server, 等待 Socket Server 发送数据

Socket Server 发送数据,Structured Streaming 程序接收数据

Structured Streaming 程序接收到数据后处理数据

数据处理后,生成对应的结果集在控制台打印

(3)开发方式和步骤

Socket server 使用 Netcat nc 来实现

Structured Streaming 程序使用 IDEA 实现,在 IDEA 中本地运行

编写代码

启动 nc 发送 Socket 消息

运行代码接收 Socket  消息统计词频

2.代码编写

3.运行

4.结果验证

 

三.总结

简单来说,是要进行流式的词频统计,使用 Structured Streaming 。

相关文章
|
6月前
|
SQL 存储 缓存
大厂 5 年实时数据开发经验总结,Flink SQL 看这篇就够了!
大厂 5 年实时数据开发经验总结,Flink SQL 看这篇就够了!
295 58
|
SQL 人工智能 分布式计算
如何使用 Flink SQL 探索 GitHub 数据集|Flink-Learning 实战营
想要了解如何使用 Flink 在 GitHub 中发现最热门的项目吗?本实验使用阿里云实时计算 Flink 版内置的 GitHub 公开事件数据集,通过 Flink SQL 实时探索分析 Github 公开数据集中隐藏的彩蛋!
428 1
如何使用 Flink SQL 探索 GitHub 数据集|Flink-Learning 实战营
|
消息中间件 分布式计算 Java
|
SQL 消息中间件 存储
Flink SQL 核心概念剖析与编程案例实战
本文使用了 Docker 镜像快速安装一些基础组件,zk 和 kafka,并通过案例的方式,剖析了 SQL 的概念与详细的使用方式
|
SQL 前端开发 Java
迄今为止最好用的Flink SQL教程:Flink SQL Cookbook on Zeppelin
无需写任何代码,只要照着这篇文章轻松几步就能跑各种类型的 Flink SQL 语句。
迄今为止最好用的Flink SQL教程:Flink SQL Cookbook on Zeppelin
|
SQL 存储 自然语言处理
看这篇就够了丨基于Calcite框架的SQL语法扩展探索
Calcite在大数据系统中有着广泛的运用, 比如Apache Flink, Apache Drill等都大量使用了Calcite,理解Calcite的原理可以说已经成为理解大数据系统中SQL访问层实现原理的必备条件之一。 本文就为大家详细介绍如何基于Calcite框架的SQL语法扩展探索使之更符合你的业务需求,以及扩展SQL在数栈产品的应用实践。对该技术感兴趣的同学点进文章阅读哦
1325 0
|
SQL 关系型数据库 Java
Flink1.13架构全集| 一文带你由浅入深精通Flink方方面面(三)SQL篇(二)
Flink1.13架构全集| 一文带你由浅入深精通Flink方方面面(三)SQL篇
448 0
Flink1.13架构全集| 一文带你由浅入深精通Flink方方面面(三)SQL篇(二)
|
SQL 存储 消息中间件
Flink1.13架构全集| 一文带你由浅入深精通Flink方方面面(三)SQL篇(一)
Flink1.13架构全集| 一文带你由浅入深精通Flink方方面面(三)SQL篇
368 0
Flink1.13架构全集| 一文带你由浅入深精通Flink方方面面(三)SQL篇(一)
|
SQL API 流计算
Flink1.13架构全集| 一文带你由浅入深精通Flink方方面面(三)SQL篇(三)
Flink1.13架构全集| 一文带你由浅入深精通Flink方方面面(三)SQL篇
695 0
Flink1.13架构全集| 一文带你由浅入深精通Flink方方面面(三)SQL篇(三)
|
分布式计算 Hadoop 大数据
Structured_案例_运行和总结 | 学习笔记
快速学习 Structured_案例_运行和总结
Structured_案例_运行和总结 | 学习笔记