助力工业物联网,工业大数据之服务域:AirFlow的架构组件【三十二】

简介: 助力工业物联网,工业大数据之服务域:AirFlow的架构组件【三十二】

知识点05:AirFlow的架构组件

  • 目标:了解AirFlow的架构组件
  • 路径
  • step1:架构
  • step2:组件
  • 实施
  • 架构
  • Client:开发AirFlow调度的程序的客户端,用于开发AirFlow的Python程序
  • Master:分布式架构中的主节点,负责运行WebServer和Scheduler
  • Worker:负责运行Execution执行提交的工作流中的Task
  • 组件
A scheduler, which handles both triggering scheduled workflows, and submitting Tasks to the executor to run.
An executor, which handles running tasks. In the default Airflow installation, this runs everything inside the scheduler, but most production-suitable executors actually push task execution out to workers.
A webserver, which presents a handy user interface to inspect, trigger and debug the behaviour of DAGs and tasks.
A folder of DAG files, read by the scheduler and executor (and any workers the executor has)
A metadata database, used by the scheduler, executor and webserver to store state.
  • WebServer:提供交互界面和监控,让开发者调试和监控所有Task的运行
  • Scheduler:负责解析和调度Task任务提交到Execution中运行
  • Executor:执行组件,负责运行Scheduler分配的Task,运行在Worker中
  • DAG Directory:DAG程序的目录,将自己开发的程序放入这个目录,AirFlow的WebServer和Scheduler会自动读取
  • airflow将所有程序放在一个目录中
  • 自动检测这个目录有么有新的程序
  • MetaData DataBase:AirFlow的元数据存储数据库,记录所有DAG程序的信息
  • 小结
  • 了解AirFlow的架构组件

知识点06:AirFlow的开发规则

  • 目标掌握AirFlow的开发规则
  • 路径
  • step1:开发Python调度程序
  • step2:提交Python调度程序
  • 实施
  • 官方文档
  • 示例:http://airflow.apache.org/docs/apache-airflow/stable/tutorial.html
  • 开发Python调度程序
  • 开发一个Python程序,程序文件中需要包含以下几个部分
  • 注意:该文件的运行不支持utf8编码,不能写中文
  • step1:导包
# 必选:导入airflow的DAG工作流
from airflow import DAG
# 必选:导入具体的TaskOperator类型
from airflow.operators.bash import BashOperator
# 可选:导入定时工具的包
from airflow.utils.dates import days_ago
  • step2:定义DAG及配置
# 当前工作流的基础配置
default_args = {
    # 当前工作流的所有者
    'owner': 'airflow',
    # 当前工作流的邮件接受者邮箱
    'email': ['airflow@example.com'],
    # 工作流失败是否发送邮件告警
    'email_on_failure': True,
    # 工作流重试是否发送邮件告警
    'email_on_retry': True,
    # 重试次数
    'retries': 2,
    # 重试间隔时间
    'retry_delay': timedelta(minutes=1),
}
# 定义当前工作流的DAG对象
dagName = DAG(
    # 当前工作流的名称,唯一id
    'airflow_name',
    # 使用的参数配置
    default_args=default_args,
    # 当前工作流的描述
    description='first airflow task DAG',
    # 当前工作流的调度周期:定时调度【可选】
    schedule_interval=timedelta(days=1),
    # 工作流开始调度的时间
    start_date=days_ago(1),
    # 当前工作流属于哪个组
    tags=['itcast_bash'],
)
  • 构建一个DAG工作流的实例和配置
  • step3:定义Tasks
  • 执行Linux命令
  • 执行Python代码
  • 发送邮件的
  • 其他
  • BashOperator:定义一个Shell命令的Task
# 导入BashOperator
from airflow.operators.bash import BashOperator
# 定义一个Task的对象
t1 = BashOperator(
  # 指定唯一的Task的名称
    task_id='first_bashoperator_task',
  # 指定具体要执行的Linux命令
    bash_command='echo "hello airflow"',
  # 指定属于哪个DAG对象
    dag=dagName
)
  • PythonOperator:定义一个Python代码的Task
# 导入PythonOperator
from airflow.operators.python import PythonOperator
# 定义需要执行的代码逻辑
def sayHello():
    print("this is a programe")
#定义一个Task对象
t2 = PythonOperator(
    # 指定唯一的Task的名称
    task_id='first_pyoperator_task',
    # 指定调用哪个Python函数
    python_callable=sayHello,
    # 指定属于哪个DAG对象
    dag=dagName
)
  • step4:运行Task并指定依赖关系
  • 定义Task
Task1:runme_0
Task2:runme_1
Task3:runme_2
Task4:run_after_loop
Task5:also_run_this
Task6:this_will_skip
Task7:run_this_last
  • 需求
  • Task1、Task2、Task3并行运行,结束以后运行Task4
  • Task4、Task5、Task6并行运行,结束以后运行Task7

  • 代码
task1 >> task4
task2 >> task4
task3 >> task4
task4 >> task7
task5 >> task7
task6 >> task7
  • 如果只有一个Task,只要直接写上Task对象名称即可
task1
  • 提交Python调度程序
  • 哪种提交都需要等待一段时间
  • 自动提交:需要等待自动检测
  • 将开发好的程序放入AirFlow的DAG Directory目录中
  • 默认路径为:/root/airflow/dags
  • 手动提交:手动运行文件让airflow监听加载
python xxxx.py
  • 调度状态
  • No status (scheduler created empty task instance):调度任务已创建,还未产生任务实例
  • Scheduled (scheduler determined task instance needs to run):调度任务已生成任务实例,待运行
  • Queued (scheduler sent task to executor to run on the queue):调度任务开始在executor执行前,在队列中
  • Running (worker picked up a task and is now running it):任务在worker节点上执行中
  • Success (task completed):任务执行成功完成
  • 小结
  • 掌握AirFlow的开发规则


相关实践学习
阿里云AIoT物联网开发实战
本课程将由物联网专家带你熟悉阿里云AIoT物联网领域全套云产品,7天轻松搭建基于Arduino的端到端物联网场景应用。 开始学习前,请先开通下方两个云产品,让学习更流畅: IoT物联网平台:https://iot.console.aliyun.com/ LinkWAN物联网络管理平台:https://linkwan.console.aliyun.com/service-open
目录
相关文章
|
7月前
|
存储 数据采集 搜索推荐
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
本篇文章探讨了 Java 大数据在智慧文旅景区中的创新应用,重点分析了如何通过数据采集、情感分析与可视化等技术,挖掘游客情感需求,进而优化景区服务。文章结合实际案例,展示了 Java 在数据处理与智能推荐等方面的强大能力,为文旅行业的智慧化升级提供了可行路径。
Java 大视界 -- Java 大数据在智慧文旅旅游景区游客情感分析与服务改进中的应用实践(226)
|
11月前
|
人工智能 物联网 Android开发
【04】优雅草星云物联网AI智控系统从0开发鸿蒙端适配-deveco studio-自定义一个设置输入小部件组件-完成所有设置setting相关的页面-优雅草卓伊凡
【04】优雅草星云物联网AI智控系统从0开发鸿蒙端适配-deveco studio-自定义一个设置输入小部件组件-完成所有设置setting相关的页面-优雅草卓伊凡
502 92
|
8月前
|
分布式计算 搜索推荐 算法
Java 大视界 -- Java 大数据在智慧养老服务需求分析与个性化服务匹配中的应用(186)
本篇文章探讨了Java大数据技术在智慧养老服务需求分析与个性化服务匹配中的应用。通过整合老年人健康数据与行为数据,结合机器学习与推荐算法,实现对老年人健康风险的预测及个性化服务推荐,提升养老服务的智能化与精准化水平,助力智慧养老高质量发展。
|
8月前
|
SQL 缓存 监控
大数据之路:阿里巴巴大数据实践——实时技术与数据服务
实时技术通过流式架构实现数据的实时采集、处理与存储,支持高并发、低延迟的数据服务。架构涵盖数据分层、多流关联,结合Flink、Kafka等技术实现高效流计算。数据服务提供统一接口,支持SQL查询、数据推送与定时任务,保障数据实时性与可靠性。
747 0
|
监控 供应链 安全
物联网卡在工业领域的应用
物联网卡在工业领域的应用极大地推动了行业的智能化、自动化和高效化进程。以下是物联网卡在工业领域中各操作类型中的具体应用作用:
|
自然语言处理 大数据 应用服务中间件
大数据-172 Elasticsearch 索引操作 与 IK 分词器 自定义停用词 Nginx 服务
大数据-172 Elasticsearch 索引操作 与 IK 分词器 自定义停用词 Nginx 服务
327 5
|
存储 数据采集 监控
大数据技术:开启智能决策与创新服务的新纪元
【10月更文挑战第5天】大数据技术:开启智能决策与创新服务的新纪元
|
DataWorks Kubernetes 大数据
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
飞天大数据平台产品问题之DataWorks提供的商业化服务如何解决
|
传感器 物联网 大数据
物联网与大数据:揭秘万物互联的新纪元
物联网与大数据:揭秘万物互联的新纪元
456 7
|
消息中间件 监控 Ubuntu
大数据-54 Kafka 安装配置 环境变量配置 启动服务 Ubuntu配置 ZooKeeper
大数据-54 Kafka 安装配置 环境变量配置 启动服务 Ubuntu配置 ZooKeeper
454 3
大数据-54 Kafka 安装配置 环境变量配置 启动服务 Ubuntu配置 ZooKeeper