什么是工作流
工作流是大数据数仓体系必备的功能。主要用来进行任务调度,包括定时调度和依赖调度两个功能。为了解决Blink批处理功能在公共云的调度问题,Blink内部集成了开源的Airflow,并将其与Blink的开发平台进行集成,为用户提供一个一站式的批/流/工作流开发运维平台。
Blink工作流架构
为了更好的与用户已有的阿里云系统进行打通,工作流会部署在用户指定的VPC中。基本架构如下:
架构特点:
- 工作流部署在用户指定的VPC中,可与用户VPC内的其他云服务互联
- 工作流不仅能调度Blink作业,也可以通过shell/python调度用户已有的Hadoop作业。
- 用户独享调度资源,没有安全问题。
目前工作流功能仅在独享集群开放,用户可申请独享集群试用,并注明试用工作流即可
本文转自实时计算——概念介绍