Sparkstreaming 案例-代码编写 | 学习笔记

简介: 快速学习 Sparkstreaming 案例-代码编写

开发者学堂课程【大数据Spark2020版(知识精讲与实战演练)第五阶段:Sparkstreaming 案例-代码编写】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/692/detail/12132


Sparkstreaming 案例-代码编写

内容介绍

一、编写代码准备工作

二、编写代码实际操作

 

一、编写代码准备工作与代码编写注意

在编写代码前第一步进行创建对应的包与类

首先将目录标注为 steamingwordcount,创建环境

编写 mian 方法

Def main (args:Array [string]:UNIT={

大致的步骤为

//1.初始化环境

//2.数据处理

////1.把句子拆为单词

//2.展示和启动

//3.展示和启动

首先进行第一步,初始化环境

//1.初始化环境

Val spark conf =new spark conf() setappname (“steaming word count “ )同时设定setmaster (“lacal{6}”)

Val ssc =new 此时使用 streamingcontext 接受两个参数 (sparkconf  seonds(1))需要告诉每一批大概多久,大概一秒一次

点入发现,该步骤为下载了一个 Ssc.socket textstream

如果上网即可下载,所做的事情为 Ssc.socket textstream 和 streamingcontext 的下载

image.png

创建完成

 

二、编写代码实际操作

进行编写

在数据处理前进行读取通过 ssc

Ssc.socket textstream(,接收参数

第一个参数

Hostname =“192.16/8.169.101”

查看进入窗口中,中断程序,输入 ifconfig

image.png

查看 ip,进行复制可能为其他的 ip 没关系,复制即可

第二个参数 Port=9999

第三个参数为可选择的参数,指获取数据时如何保存,一般情况下给定默认的即可

Storagelevel=storagelevel。MEMORY-AND-DISK-SER

给定后获取对象  

Val lines 给定对象的类型为 receiver inputdstream (string)

可以当成 idd 进行处理

//2.数据的处理

//1.把句子拆为单词

Val。Words=lines flatmap (。,msplit (regex=””))

//转换单词

Val tuples=words.map(~.1)

//词频 reduce

之后进行词频的统计,可以叫做 Val. Counts=tupiles reducebykey(-+-) 内部的统计逻辑把前一个和当前的统计结果相加统计总个数,接下来进行程序的运行

//3.展示和启动

使用 COUNTS.print() 并不会导致整个流的施行 ,同时加上 Ssc.start() 来进行整体流的运作

正常请情况下运行到 COUNTS.print() 整体流程便结束

//main 方法执行完毕后整个程序就会退出,所以需要阻塞主线程

Ssc.Awaitermination 为等待中断的意思,等待外部发布指令

因为需要在后台不断开启数据所以线程数必须大于 1,如果给 1 则在外部处理时则没有子线程无法操作。

相关文章
|
分布式计算 Hadoop 大数据
Spark 原理_总结介绍_案例编写 | 学习笔记
快速学习 Spark 原理_总结介绍_案例编写
124 0
Spark 原理_总结介绍_案例编写 | 学习笔记
|
消息中间件 分布式计算 网络协议
SparkStreaming 案例_解释说明 | 学习笔记
快速学习 SparkStreaming 案例_解释说明
SparkStreaming 案例_解释说明 | 学习笔记
|
分布式计算 数据挖掘 大数据
Spark 入门_代码编写方式|学习笔记
快速学习 Spark 入门_代码编写方式
Spark 入门_代码编写方式|学习笔记
|
分布式计算 Hadoop 大数据
SparkStreaming 案例_运行 | 学习笔记
快速学习 SparkStreaming 案例_运行
SparkStreaming 案例_运行 | 学习笔记
|
存储 分布式计算 Java
Sparkstreaming 案例-创建工程 | 学习笔记
快速学习 Sparkstreaming 案例-创建工程
Sparkstreaming 案例-创建工程 | 学习笔记
|
SQL 分布式计算 监控
SparkSQL 初体验_命令式案例 | 学习笔记
快速学习 SparkSQL 初体验_命令式案例
|
SQL 分布式计算 NoSQL
Spark从入门到入土(五):SparkSQL原理与实战
Spark从入门到入土(五):SparkSQL原理与实战
Spark从入门到入土(五):SparkSQL原理与实战
|
分布式计算 Java Spark
Spark修炼之道(高级篇)——Spark源码阅读:第一节 Spark应用程序提交流程
作者:摇摆少年梦 微信号: zhouzhihubeyond spark-submit 脚本应用程序提交流程 在运行Spar应用程序时,会将spark应用程序打包后使用spark-submit脚本提交到Spark中运行,执行提交命令如下: root@sparkmaster:/hadoopLearning/spark-1.5.0-bin-hadoop2.4/bin# .
8592 0
|
存储 缓存 分布式计算
SparkStreaming(源码阅读十二)
  要完整去学习spark源码是一件非常不容易的事情,但是咱可以积少成多嘛~那么,Spark Streaming是怎么搞的呢?   本质上,SparkStreaming接收实时输入数据流并将它们按批次划分,然后交给Spark引擎处理生成按照批次划分的结果流:      SparkStreaming提供了表示连续数据流的、高度抽象的被称为离散流的Dstream,可以使用kafka、Flume和Kiness这些数据源的输入数据流创建Dstream,也可以在其他Dstream上使用map、reduce、join、window等操作创建Dsteram。
963 0
|
SQL 分布式计算 Spark
Spark修炼之道(进阶篇)——Spark入门到精通:第十节 Spark SQL案例实战(一)
作者:周志湖 放假了,终于能抽出时间更新博客了……. 1. 获取数据 本文通过将github上的Spark项目git日志作为数据,对SparkSQL的内容进行详细介绍 数据获取命令如下: [root@master spark]# git log --pretty=format:'{"commit":"%H","author":"%an","author_e
4566 0