Flink第一课！使用批处理，流处理，Socket的方式实现经典词频统计-阿里云开发者社区

Flink第一课！使用批处理，流处理，Socket的方式实现经典词频统计

2021-12-10 620

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Flink第一课！使用批处理，流处理，Socket的方式实现经典词频统计

Flink是什么

Apache Flink 是一个框架和分布式处理引擎，用于对无界和有界数据流进行状态计算。

Flink的特点

支持事件时间（event-time）和处理时间（processing-time）语义

精确一次（exactly-once）的状态一致性保证

低延迟，每秒处理数百万个事件，毫秒级延迟

与众多常用存储系统的连接

高可用，动态扩展，实现7*24小时全天候运行

Flink的全球热度

Flink可以实现的目标

低延迟来一次处理一次

高吞吐

结果的准确性和良好的容错性

基于流的世界观

在Flink的世界观中，一切皆有流组成，就如python中的一切皆对象的概念。对应离线的数据，则规划为有界流；对于实时的数据怎规划为没有界限的流。也就是Flink中的有界流于无界流

有开始也有结束的确定在一定时间范围内的流称为有界流。一旦确定就不会再改变，一般批处理用来处理有界数据。

无界流就是持续产生的数据流，数据是无限的，有开始，无结束，一般流处理用来处理无界数据

package com.yo.wc;
/**
 * created by YO
 */
import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.operators.DataSource;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.util.Collector;
// 批处理word count
public class WordCount {
    public static void main(String[] args) throws Exception{
        // 创建执行环境，类似与spark的创建上下文
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();
        // 从文件中读取数据    这里可以随意指定路径，txt文件写入空格隔开的随意单词即可
        String inputPath = "D:\\hello.txt";
        //read读取数据，可以指定读取的文件类型，整套批处理的api在flink里面就叫做dataset
        //dataset是flink针对离线数据的处理模型
        DataSet<String> inputDataSet = env.readTextFile(inputPath);
        // 对数据集进行处理，按空格分词展开，转换成(word, 1)二元组进行统计
        DataSet<Tuple2<String, Integer>> result = inputDataSet.flatMap(new MyFlatMapper())
                .groupBy(0)    // 按照第一个位置的word分组
                .sum(1);    // 将第二个位置上的数据求和
        result.print();
    }
    // 自定义类，实现FlatMapFunction接口  输出是String  输出是元组Tuple2<String, Integer>>是flink提供的元组类型
    public static class MyFlatMapper implements FlatMapFunction<String, Tuple2<String, Integer>> {
        @Override
        //value是输入，out就是输出的数据
        public void flatMap(String value, Collector<Tuple2<String, Integer>> out) throws Exception {
            // 按空格分词
            String[] words = value.split(" ");
            // 遍历所有word，包成二元组输出
            for (String word : words) {
                out.collect(new Tuple2<>(word, 1));  
            }
        }
    }
}
输出：          文本内的单词不同输出也不同
(scala,1)
(flink,1)
(world,1)
(hello,4)

import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.api.java.utils.ParameterTool;
import org.apache.flink.streaming.api.datastream.DataStream;
import org.apache.flink.streaming.api.datastream.DataStreamSource;
import org.apache.flink.streaming.api.datastream.SingleOutputStreamOperator;
import org.apache.flink.streaming.api.environment.StreamExecutionEnvironment;
import java.net.URL;
public class StreamWordCount {
    public static void main(String[] args) throws Exception{
        // 创建流处理执行环境
        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        // 用parameter tool工具从程序启动参数中提取配置项 ，这里就是从main方法中获取参数了args，可以在集群运行，这里再IDEA传参模拟
        ParameterTool parameterTool = ParameterTool.fromArgs(args);
        String host = parameterTool.get("host");
        int port = parameterTool.getInt("port");
        // 从socket文本流读取数据
        DataStream<String> inputDataStream = env.socketTextStream(host, port);
        // 基于数据流进行转换计算
        DataStream<Tuple2<String, Integer>> resultStream = inputDataStream.flatMap(new WordCount.MyFlatMapper())
                .keyBy(0)
                .sum(1);
        resultStream.print();
        // 执行任务
        env.execute();
    }
}

Flink的第一课入门到这里就完成了，同学们有遇到问题可直接私信，博主会尽力解答！

Flink第一课！使用批处理，流处理，Socket的方式实现经典词频统计

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Flink第一课！使用批处理，流处理，Socket的方式实现经典词频统计

热门文章

最新文章

相关课程

相关电子书

相关实验场景