Structured_案例_运行和总结 | 学习笔记

简介: 快速学习 Structured_案例_运行和总结

开发者学堂课程【大数据Spark2020版(知识精讲与实战演练)第五阶段:Structured_案例_运行和总结】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/692/detail/12145


Structured_案例_运行和总结

内容介绍:

一. 目标和步骤

二. 开启 Socket Server 和运行程序的步骤

三. 总结

 

一. 内容介绍

目标:

代码已经编写完毕,需要运行,并查看结果集,因为从结果集的样式中可以看到 Structured Streaming 的一些原理

步骤:

1.开启 Socket Server

2.运行程序

3.查看数据集

 

二. 开启 Socketserver 和运行程序的步骤

1.在虚拟机 node01 中运行 nc-lk9999

2.在 IDEA 中运行程序

3.在 node01 中输入以下内容

hello world

hello spark

hello hadoop

hello spark

hello spark

还是回到的虚拟机当中,回到虚拟机当中 clear 一下。

然后使用 nc - lk 9999 。

这时就开启了一个 Socket Server ,开启 Socket Server 以后就可以进入到 IDEA 当中,之后运行 main 方法。

它的运行情况如图所示:

image.png

可以看到程序已经运行了,但是控制台内容并没有改变。

没有数据的情况下,它是不会开启批次的。

在虚拟机中输入内容 hello world 控制台会出现 batch 0, batch 0  并不是一下就生成的,它会等待一个周期,周期结束以后,它会把结果集打印出来。并且周期默认的,所以会比较长。

在虚拟机依次输入 hello spark , hello Hadoop , hello spark , hello spark

然后控制台结果如下:

image.png

然后等待第二个批次,每个批次的间隔会比较久,这是一个默认值,我们可以单独设置一下批次的结果。

第二个批次输出结果如下:

image.png

第三个批次结果如下:

image.png

现在获取到的结果并不是某一个批次的结果,而是全局的所有批次之间的结果。

这和默认的 Spark streaming 会有一点区别。另一个区别是以往都是先开一个批次,在等待足够的时间以后,输出结果集,这一点和 Spark streaming 不太一样, Spark streaming 是一个批次开始,然后 RDD 生成。

再观察一下代码:

代码整体上就分为几个大部分,简单了解一下代码的组织结构。在后面会去讲到原理以及具体是怎样运行的。

首先创建一个 Spark session ,数据的生成就是 Read Stream 。第二大部分是数据的处理,数据处理以后生成了一个结果的 Dataset 。第三大部分是数据的输出。和学习 Dataset 的步骤应该是一样。

读是一大部分,然后处理是一大部分,写是一大部分。

接下来要了解 Read Stream 和 Write Stream

并且在了解 Read Stream 和 Write Stream 的同时会去介绍 source 和 Think 的大致原理。

然后再讲到数据处理,数据处理当中会了解水印以及一系列高级的应用,包括 checkpoint , state store 是怎样进行原理组织的。这是课程的组织结构,所有内容会进行一一的作答。

 

三.总结

1.在运行之前一定要先开 Socket Server 。

2.最终 Structured Streaming 在处理数据的时候是使用 Dataset ,读的时候使用 Read Stream ,写的时候使用 Write Stream 。

相关文章
|
2月前
|
人工智能 数据可视化 API
AI Agents Loop异步执行可视化Tutorial 借助AgentBoard工具可视化工作流
本文介绍了AI Agent的异步执行循环(Agent Loop),并展示了如何利用开源框架agentboard可视化这一过程。通过分析不同框架(如AutoGen、LangGraph、AutoAgent)对Agent Loop的抽象,文章详细说明了从简单的功能调用到复杂的多阶段执行流程的设计。此外,还提供了使用agentboard进行日志记录与流程可视化的具体示例,包括安装步骤、代码实现及运行方法,帮助开发者更高效地调试和优化AI Agent的应用。
AI Agents Loop异步执行可视化Tutorial 借助AgentBoard工具可视化工作流
|
8月前
|
存储 分布式计算 监控
Hadoop【基础知识 01+02】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】【分布式文件系统HDFS设计原理+特点+存储原理】(部分图片来源于网络)【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
364 2
|
8月前
|
SQL 存储 缓存
大厂 5 年实时数据开发经验总结,Flink SQL 看这篇就够了!
大厂 5 年实时数据开发经验总结,Flink SQL 看这篇就够了!
315 58
|
8月前
|
机器学习/深度学习 分布式计算 大数据
一文读懂Apache Beam:统一的大数据处理模型与工具
【4月更文挑战第8天】Apache Beam是开源的统一大数据处理模型,提供抽象化编程模型,支持批处理和流处理。它提倡"一次编写,到处运行",可在多种引擎(如Spark、Dataflow、Flink)上运行。Beam的核心特性包括抽象化概念(PCollection、PTransform和PipelineRunner)、灵活性(支持多种数据源和转换)和高效执行。它广泛应用在ETL、实时流处理、机器学习和大数据仓库场景,助力开发者轻松应对数据处理挑战。
1344 1
|
8月前
|
分布式计算 监控 Hadoop
Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
【4月更文挑战第3天】Hadoop【基础知识 02】【分布式计算框架MapReduce核心概念+编程模型+combiner&partitioner+词频统计案例解析与进阶+作业的生命周期】(图片来源于网络)
342 0
|
存储 分布式计算 Hadoop
Hadoop基础学习---6、MapReduce框架原理(一)
Hadoop基础学习---6、MapReduce框架原理(一)
|
SQL 消息中间件 存储
Flink SQL 核心概念剖析与编程案例实战
本文使用了 Docker 镜像快速安装一些基础组件,zk 和 kafka,并通过案例的方式,剖析了 SQL 的概念与详细的使用方式
|
分布式计算 Hadoop 数据处理
Hadoop基础学习---6、MapReduce框架原理(二)
Hadoop基础学习---6、MapReduce框架原理(二)
EMQ
|
SQL 存储 物联网
eKuiper 源码解读:从一条 SQL 到流处理任务的旅程
在本篇文章中,我们以梳理关键代码节点的方式了解了 eKuiper 的 SQL 计算引擎中是如何解析、处理,并最终执行这条 SQL 得到相应的结果。对于整个计算引擎关键处理节点里,我们了解了每个环节的代码大致是如何运行的。
EMQ
187 0
eKuiper 源码解读:从一条 SQL 到流处理任务的旅程
|
分布式计算 Hadoop 大数据
Structured_案例_介绍 | 学习笔记
快速学习 Structured_案例_介绍
Structured_案例_介绍 | 学习笔记