一、StreamPark介绍
实时即未来,在实时处理流域 Apache Spark
和 Apache Flink
是一个伟大的进步,尤其是Apache Flink
被普遍认为是下一代大数据流计算引擎, 我们在使用 Flink
& Spark
时发现从编程模型, 启动配置到运维管理都有很多可以抽象共用的地方, 我们将一些好的经验固化下来并结合业内的最佳实践, 通过不断努力终于诞生了今天的框架 —— StreamPark
, 项目的初衷是 —— 让流处理更简单, 使用StreamPark
开发,可以极大降低学习成本和开发门槛, 让开发者只用关心最核心的业务,StreamPark
规范了项目的配置,鼓励函数式编程,定义了最佳的编程方式,提供了一系列开箱即用的Connectors
,标准化了配置、开发、测试、部署、监控、运维的整个过程, 提供了scala
和java
两套api, 其最终目的是打造一个一站式大数据平台,流批一体,湖仓一体的解决方案
框架介绍 | Apache StreamPark (incubating)
二、安装快速体验
官网提供了jar包安装和docker安装,本文先简单使用docker 安装来快速体验StreamPark
首先机器上需要安装docker和docker compose,可以先参考下官网下载相关文件
Docker 快速使用教程 | Apache StreamPark (incubating)
默认是h2数据库,如果需要使用mysql数据库需要修改参考下面文档Docker 快速使用教程 | Apache StreamPark (incubating)
确保Flink和StreamPark都能访问正常,需要配置Flink Home信息
Flink Home路径填写:/StreamPark/flink/flink14.5/ 其他不用修改参考上图
集群配置信息
地址信息填写:http://localhost:8081 或者宿主机ip 其他不用修改参考下图
修改Application里面自带的Flink SQL demo 任务,即可成功运行
修改完成之后点击release(发布作业)然后start(启动作业),任务即可启动成功。
备注:Flink SQL demo会运行一段时间之后自动结束,因为代码里面设置自动生成数据是增量数据,如果想任务一直运行
去掉自增设置同时改为最小和最大值成为随机数 'fields.f_sequence.min'='1', 'fields.f_sequence.max'='500',
这样job就能一直运行起来 ,而不会运行一段时间就停止了。