HDFS数据源、DStream的持久化存储_ 2|学习笔记

简介: 快速学习 HDFS 数据源、DStream 的持久化存储_ 2

开发者学堂课程【大数据实时计算框架 Spark 快速入门:HDFS 数据源、DStream 的持久化存储_ 2】学习笔记,与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/100/detail/1723


HDFS 数据源、DStream 的持久化存储_ 2


package com. shsxt. study,streaming;

import java. util. Arrays;[

public class  UpdateStateByKeyWordcount {

public static void main(String[]args){

SparkConfconfen—new Sparkconf(). setApplame (“ IpdateStateyWordcount ”).setMas  Javastreaming  Context jsscsc=new JavaStreamingContext (conf, Durations-seconds(5) js jssc.  checkpoint (".");

JavaReceivprInputDStream <String>lines=jssc. socketTextStream ("node24", 8888)]

JavaDStream <String>words=lines.flatMap(new  FlatMapFunction <String, String>(){

private static final long serial  VersionUID =1L;

@Override

public Iterable<String>call(String line) throws Exception{

return Arrays.asList(line, split(""));

JavaPairDStreamsString ,Integer>pairds.mapIoPair(new Pair function<String, String, Integer/O

private static final long serial  VersionUID =1L;

@Override

publicTuple2 <String, Integer>call(String word) throws Exception{return newTuple2<String, Integer>(word,1);

}

});

JavaPainDStreawKtrin ,Integer)  wordcounts - pudatestated $Key(new Function? list(integer), Optional.

private static final long se  rialVersionUID =1L;

 

//实际上,对于每个单词,每次 batch 计算的时候,都会调用这个函数,第一个参数 values 相当于这个 batch 中

//这个 key 对应的新的一组值,可能有多个,可能 2 个 1,(xuruyun,1)(xuru yyun,1),那么这个 values 就是(1,1)

//那么第二个参数表示的是这个 key 之前的状态,我们看类型 Integer 就知道了,这里是泛型自己指定的。

相关文章
|
数据采集 存储 Java
【ETL工具将数据源抽取到HDFS作为高可靠、高吞吐量的分布式文件系统存储】
【ETL工具将数据源抽取到HDFS作为高可靠、高吞吐量的分布式文件系统存储】
282 0
|
存储 分布式计算 负载均衡
Hadoop学习笔记(二)之HDFS
Hadoop学习笔记(二)之HDFS
|
消息中间件 分布式计算 关系型数据库
大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL
大数据-140 - ClickHouse 集群 表引擎详解5 - MergeTree CollapsingMergeTree 与其他数据源 HDFS MySQL
258 0
|
12月前
|
消息中间件 关系型数据库 MySQL
ClickHouse如何整合数据源:MySQL、HDFS...
ClickHouse 是一个强大的列式数据库管理系统,支持多种数据源。常见的数据源包括外部数据源(如 HDFS、File、URL、Kafka 和 RabbitMQ)、数据库(如 MySQL 和 PostgreSQL)和流式数据(如 Stream 和 Materialized Views)。本文介绍了如何从 MySQL 和 HDFS 读取数据到 ClickHouse 中,包括创建数据库、映射表和查询数据的具体步骤。通过这些方法,用户可以方便地将不同来源的数据导入 ClickHouse 进行高效存储和分析。
754 3
|
存储 机器学习/深度学习 分布式计算
Hadoop学习笔记(HDP)-Part.12 安装HDFS
本系列为HDP大数据平台部署实战指南,涵盖HDFS、YARN、Hive等核心组件安装配置,详解Ambari集群搭建、Kerberos安全认证及高可用实现,助力快速构建企业级大数据环境。
710 0
|
存储 SQL 分布式计算
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
815 0
|
存储 缓存 分布式计算
HDFS(二)|学习笔记
快速学习 HDFS(二)
217 0
HDFS(二)|学习笔记
|
SQL JSON 负载均衡
离线同步 mysql 数据到 HDFS2 | 学习笔记
快速学习离线同步 mysql 数据到 HDFS2
313 0
离线同步 mysql 数据到 HDFS2  |  学习笔记
|
SQL 消息中间件 JSON
离线同步 mysql 数据到 HDFS1 | 学习笔记
快速学习离线同步 mysql 数据到 HDFS1
233 0
离线同步 mysql 数据到 HDFS1  |  学习笔记
|
监控 开发工具 开发者
网站流量日志 Flume收集--hdfs--基于文件闲置策略滚动| 学习笔记
快速学习网站流量日志 Flume收集--hdfs--基于文件闲置策略滚动
网站流量日志 Flume收集--hdfs--基于文件闲置策略滚动| 学习笔记