HDFS 数据源、DStream 的持久化存储_ 1|学习笔记

简介: 快速学习 HDFS 数据源、DStream 的持久化存储_ 1

开发者学堂课程【大数据实时计算框架 Spark 快速入门:HDFS 数据源、DStream 的持久化存储_ 1】学习笔记,与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/100/detail/1722


HDFS 数据源、DStream 的持久化存储_ 1


具体操作如下:

package com. shsxt. study,streaming;

import java. util. Arrays;[

public class  HDFSWordcount {

public static void main(String[]args){Sparkconf conf=new Sparkconf().setAppName(“HDFSWordcount ”).setMaster(“IOzlI”)] Javastreaming  Context jssc=new  JavaStreamingContext (conf, Durations, seconds(5) );

JavaDStream<String>lines=jssc.textFileStream ("hdfs://node21#8020/ worldcount  _ dir");  JavaDStream <String>words=lines,flatMap(new  FlatMapFunction <String, String>()

{

private static final long serial  VersionUID =1L;

@Override public Iterable<String>call(String line) throws Exception{

return Arrays.asList(line. split("));

}

JavaPairDStreamsString , Integer>pairds.mapIoPair(new Pair function<5tring,5tring, Integer/(]});

private static final long se  rialVersionUID =1L;

@Override  publicTuple2 <String, Integer>call(String word) throws Exception{

return newTuple2<String, Integer>(word,1);

}

});  

JavaPainDStreawKtring , Integer>wordcounts . reduceByKey(new  functional  Integer, Integer, Integer/l private static final long se  rialVersionUID =1L;

@Override public Integer call(Integerv1, Integerv2) throws Exception{

return v1+v2;

}

相关文章
|
12月前
|
数据采集 存储 Java
【ETL工具将数据源抽取到HDFS作为高可靠、高吞吐量的分布式文件系统存储】
【ETL工具将数据源抽取到HDFS作为高可靠、高吞吐量的分布式文件系统存储】
106 0
|
存储 分布式计算 负载均衡
Hadoop学习笔记(二)之HDFS
Hadoop学习笔记(二)之HDFS
|
5月前
|
存储 机器学习/深度学习 分布式计算
Hadoop学习笔记(HDP)-Part.12 安装HDFS
01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume
133 0
Hadoop学习笔记(HDP)-Part.12 安装HDFS
|
5月前
|
存储 SQL 分布式计算
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
466 0
|
存储 缓存 分布式计算
HDFS(二)|学习笔记
快速学习 HDFS(二)
150 0
HDFS(二)|学习笔记
|
SQL JSON 负载均衡
离线同步 mysql 数据到 HDFS2 | 学习笔记
快速学习离线同步 mysql 数据到 HDFS2
183 0
离线同步 mysql 数据到 HDFS2  |  学习笔记
|
SQL 消息中间件 JSON
离线同步 mysql 数据到 HDFS1 | 学习笔记
快速学习离线同步 mysql 数据到 HDFS1
152 0
离线同步 mysql 数据到 HDFS1  |  学习笔记
|
监控 开发工具 开发者
网站流量日志 Flume收集--hdfs--基于文件闲置策略滚动| 学习笔记
快速学习网站流量日志 Flume收集--hdfs--基于文件闲置策略滚动
网站流量日志 Flume收集--hdfs--基于文件闲置策略滚动| 学习笔记
|
存储 分布式计算 负载均衡
HDFS(一)|学习笔记
快速学习 HDFS(一)
106 0
HDFS(一)|学习笔记
|
分布式计算 资源调度 Hadoop
CDH 搭建_ Hadoop _ HDFS _主节点|学习笔记
快速学习 CDH 搭建_ Hadoop _ HDFS _主节点
360 0
CDH 搭建_ Hadoop _ HDFS _主节点|学习笔记

热门文章

最新文章

下一篇
无影云桌面