Flink1.9.2源码编译和使用

本文涉及的产品
实时计算 Flink 版,5000CU*H 3个月
简介: 修改flink1.9.2源码,并编译构建,在新的任务中使用和验证

欢迎访问我的GitHub

这里分类和汇总了欣宸的全部原创(含配套源码): https://github.com/zq2599/blog_demos

为什么要编译flink源码

  • 用于学习,在IDEA上开发的flink job,能直接在IDEA运行,如果运行时依赖的flink框架是我们自己编译构建的,就做到了从业务到框架都可以修改源码并验证,起到了很好的学习和动手实践效果;

环境信息

  1. 电脑:2019版13寸MacBook Pro,2.3 GHz 四核Intel Core i5,8 GB 2133 MHz LPDDR3
  2. 操作系统:macOS Catalina 10.15.3
  3. JDK:1.8.0_211
  4. Maven:3.6.0
  5. IDEA:2018.3.5 (Ultimate Edition)

关于正版IDEA

全文概览

  • 今天的实战由以下内容组成:
  1. 开发一个最简单的flink任务,在IDEA上以local模式运行;
  2. 下载flink1.9.2源码;
  3. 修改flink1.9.2源码,并且编译构建;
  4. 设置,让步骤1中的flink任务用上刚刚编译的flink1.9.2框架;
  5. 再次运行flink任务,验证修改后的flink框架是否生效;

IDEA上运行flink job工程

  • 在IDEA上创建flink job的maven工程并运行,请参考《IDEA上运行Flink任务》
  • 假设您已按上面的步骤在IDEA建好了flink job工程;
  • 运行起来,在浏览器打开flink页面,如下图,绿框中显示一共有8个Task Slot:

在这里插入图片描述

  • 之所以会有8个Task Slot,和下图红框中的代码有关,这是段flink框架源码(StreamExecutionEnvironment.java),入参parallelism是CPU核数,我这里是开了超线程的四核i5处理器,所以parallelism等于8:

在这里插入图片描述

  • 今天的目标就是修改上图红框中的源码,然后在网页上看是不是生效了(Task Slot数量从8改成5);

准备工作

下载flink1.9.2源码

修改和编译构建

  • 将下载好的flink-1.9.2-src.tgz解压,得到文件夹flink-1.9.2
  • 打开这个文件:flink-1.9.2/flink-streaming-java/src/main/java/org/apache/flink/streaming/api/environment/StreamExecutionEnvironment.java
  • 如下图红框,找到createLocalEnvironment方法,把setParallelism的入参改成一个固定的数字(每个Task Slot都要分配内存,所以这个数字请不要改得太大,否则启动flink就会报错了,我这里改成了5):

在这里插入图片描述

  • 在文件夹flink-1.9.2下,执行编译构建的命令:mvn clean install -DskipTests -Dfast
  • 经历漫长等待后提示构建成功:

在这里插入图片描述

  • 确认这个文件已生成,稍后就要用到:flink-1.9.2/flink-dist/target/flink-dist_2.11-1.9.2.jar

设置

  • 为了用上刚刚构建出来的flink框架jar,要做些设置,打开之前运行的flink job应用,在项目上点击右键,点击菜单Open Module Settings,如下图:

在这里插入图片描述

  • 接下来要做三个和jar有关的操作,注意每一步都很重要:
  • 下图红框1中的flink-dist_2.11-1.9.2.jar文件,是《IDEA上运行Flink任务》一文中添加的,目的是提供网页服务,现在将其删除,操作如下图红框所示:

在这里插入图片描述

  • 下图红框1中的maven依赖:org.apache.flink:flink-streaming-java_2.11:1.9.2,也请删除,操作如下图红框所示:

在这里插入图片描述

  • 点击下图红框中的加号:

在这里插入图片描述

  • 在弹出的窗口选中刚才构建好的文件flink-1.9.2/flink-dist/target/flink-dist_2.11-1.9.2.jar

在这里插入图片描述

  • 记得点击右下角的OK按钮保存,修改完毕,接下来验证咱们修改的flink框架源码是否生效了

验证

  • 当前flink job工程来自《IDEA上运行Flink任务》一文,StreamingJob的工作是读取本机18081端口的数据,所以我们要把18081端口的服务启动起来,不然StreamingJob运行时是连不上端口的,打开一个控制台,执行命令:nc -l 18081
  • 现在可以将StreamingJob运行起来,如下图,右键点击StreamingJob,选择Run 'StreamingJob.main()':即可启动flink任务:

在这里插入图片描述

  • 在IDEA的控制台搜索关键字localhost,如下图红框,可以查到flink网页的端口,我这里是52704

在这里插入图片描述

  • 浏览器访问http://localhost:52704,如下图红框,Total Task Slots数量是5,我们修改的flink1.9.2的源码生效了:

在这里插入图片描述

  • 至此,Flink1.9.2的源码从修改到编译构建,再到验证都已经完成了,如果您也在学习flink,希望本文能给您一些参考,一起来动手实战吧;

欢迎关注阿里云开发者社区博客:程序员欣宸

学习路上,你不孤单,欣宸原创一路相伴...
相关实践学习
基于Hologres轻松玩转一站式实时仓库
本场景介绍如何利用阿里云MaxCompute、实时计算Flink和交互式分析服务Hologres开发离线、实时数据融合分析的数据大屏应用。
Linux入门到精通
本套课程是从入门开始的Linux学习课程,适合初学者阅读。由浅入深案例丰富,通俗易懂。主要涉及基础的系统操作以及工作中常用的各种服务软件的应用、部署和优化。即使是零基础的学员,只要能够坚持把所有章节都学完,也一定会受益匪浅。
相关文章
|
存储 Java Linux
10分钟入门Flink--安装
本文介绍Flink的安装步骤,主要是Flink的独立部署模式,它不依赖其他平台。文中内容分为4块:前置准备、Flink本地模式搭建、Flink Standalone搭建、Flink Standalong HA搭建。
10分钟入门Flink--安装
|
8月前
|
Java Maven 流计算
问题出在Flink CDC的依赖上
问题出在Flink CDC的依赖上
168 40
|
8月前
|
Java atlas 网络安全
Flink CDC编译问题之编译atlas报错如何解决
Flink CDC编译指的是将Flink CDC源代码转换成可执行程序的过程,可能会涉及到依赖管理和环境配置等问题;本合集将介绍Flink CDC编译的步骤、常见错误及其解决办法,以确保顺利完成编译过程。
|
8月前
|
SQL 关系型数据库 Apache
Flink CDC 是一个基于 Apache Flink 的开源库
Flink CDC 是一个基于 Apache Flink 的开源库
252 7
|
Java Maven 流计算
如果您已经将Flink CDC的依赖包都打包在一起
如果您已经将Flink CDC的依赖包都打包在一起
107 4
|
资源调度 Java 调度
Flink教程(03)- Flink环境搭建(下)
Flink教程(03)- Flink环境搭建(下)
216 0
|
分布式计算 资源调度 Java
Flink教程(03)- Flink环境搭建(上)
Flink教程(03)- Flink环境搭建(上)
171 0
|
SQL 消息中间件 自然语言处理
Flink教程(26)- Flink多语言开发
Flink教程(26)- Flink多语言开发
87 0
|
资源调度 程序员 网络安全
Flink on Yarn三部曲之三:提交Flink任务
Flink on Yarn在使用的时候分为两种模式,Job Mode和Session Mode,一起来体验这两种模式
377 2
Flink on Yarn三部曲之三:提交Flink任务
|
Java 开发工具 流计算
Flink实战-安装及部署
只需几个简单的步骤即可启动并运行Flink示例程序。
717 0

热门文章

最新文章